本ページはプロモーションが含まれています

ラベル データサイエンス力 の投稿を表示しています。 すべての投稿を表示
ラベル データサイエンス力 の投稿を表示しています。 すべての投稿を表示

【DS検定 - データサイエンス力】「数値を予測」「カテゴリを判定」回帰と分類の基本をマスター!

機械学習の勉強を始めると耳にするのが「回帰(Regression)」「分類(Classification)」というワード。

「なんとなく分かるけど、結局何が違うの?」
「どんな時にどっちを使えばいいの?」
「難しそうな数式がいっぱい出てくるし…」

そう感じている人も少なくないはずです。でも安心してください!この記事を読めば、回帰と分類の違いはもちろん、それぞれのモデルの種類具体的な使い方まで、しっかり理解できますよ。

こんな方に読んでほしい記事です!

  • データサイエンティスト検定(DS検定)の学習を始めたばかりの方
  • 機械学習の基礎をしっかり理解したいと思っている方
  • 「回帰」と「分類」の違いがイマイチ掴めない方
  • どんな場面でどの機械学習モデルを使えばいいか知りたい方

目次


回帰と分類、何が違うの?

まずは、機械学習の基本となる「回帰」と「分類」の大きな違いから見ていきましょう。

回帰(Regression):未来の「数値」を予測する!

回帰とは、入力データから「連続的な数値」を予測する手法のこと。まるで、天気予報士が明日の気温を予測するようなイメージです。

具体例をいくつか挙げてみましょう。

  • 家賃の予測:部屋の広さや駅からの距離といったデータから、適正な家賃を数値として予測します。
  • 気温の予測:過去の気温や湿度、気圧などのデータから、明日の気温を数値で予測します。
  • 売上の予測:これまでの販売データやプロモーション効果などから、来月の売上を金額という数値で予測します。

分類(Classification):データを「グループ分け」する!

一方、分類は、与えられたデータがどの「カテゴリ(種類)」に属するかを予測する手法です。これは、荷物を仕分けするような作業に似ています。

こちらも具体例を見てみましょう。

  • スパムメール判定:メールの内容を解析して、「スパム」か「通常のメール」かという2つのカテゴリに分類します。
  • 手書き文字認識:手書きされた文字が、「0」「1」「2」…「9」のどの数字のカテゴリに当たるかを識別します。
  • 病気の診断:患者さんの検査データから、「陽性」か「陰性」かという2つのカテゴリに分類します。

「回帰モデル」の種類と用途

数値を予測する「回帰」では、どんなモデル(手法)が使われるのでしょうか?主要なものを表にまとめました。

モデル(手法) 数式 / 関数 用途 具体例
線形回帰 \[y = ax + b\] 単純な数値予測に。データが直線的な関係にある場合。 家賃の予測、気温の予測、売上予測
多項式回帰 \[y = ax^2 + bx + c\] など 曲線的な数値予測に。データが曲線的な関係にある場合。 自動車の燃費予測、成長曲線の予測
決定木回帰 ルールベース(条件分岐) 特定のルールに基づいて数値を予測したい場合。 気温の変化から電気使用量を予測
ランダムフォレスト回帰 ルールベース(複数の決定木の集合) 高精度な数値予測に。複雑なデータでも高い精度が出やすい。 株価の変動予測、広告のクリック率予測
K近傍法(KNN)回帰 距離関数(ユークリッド距離など) 似たデータを使って数値を予測したい場合。 温度データから降水量を予測
SVM回帰 カーネル関数(線形, RBF など) データのパターンを学習して数値を予測。少量のデータでも有効な場合がある。 スポーツ選手の成績予測
ニューラルネットワーク回帰 ReLU, シグモイド など ディープラーニングによる高精度な数値予測。画像や音声など複雑なデータに強い。 画像データから年齢を推定、商品の需要予測

「分類モデル」の種類と用途

次に、カテゴリを判定する「分類」で使われる主なモデルを見ていきましょう。

モデル(手法) 数式 / 関数 用途 具体例
ロジスティック回帰 シグモイド関数 \[\sigma(x) = \frac{1}{1 + e^{-x}}\] 2つのカテゴリに分類したい場合(はい/いいえ、陽性/陰性など)。 スパムメール判定、病気診断(陽性 / 陰性)
ソフトマックス回帰 ソフトマックス関数 \[\sigma_i(x) = \frac{e^{x_i}}{\sum_{j} e^{x_j}}\] 3つ以上のカテゴリに分類したい場合。 手書き文字認識(0~9)、映画ジャンル分類
決定木分類 ルールベース(条件分岐) 分かりやすいルールで分類したい場合。 クレジットカードの不正利用判定
ランダムフォレスト分類 ルールベース(複数の決定木の集合) 高精度な分類に。複雑なデータでも高い精度が出やすい。 犬 or 猫の画像分類、顧客のリピート予測
K近傍法(KNN)分類 距離関数(ユークリッド距離など) 似たデータを使ってカテゴリを判定したい場合。 ユーザーの好みに合った映画推薦
SVM(サポートベクターマシン) カーネル関数(線形, RBF など) 高次元のデータでも分類したい場合。境界線を明確にしたい時に有効。 顔認識、感情分析(ポジティブ / ネガティブ)
ニューラルネットワーク分類 ReLU, ソフトマックス など ディープラーニングによる高精度な分類。画像や音声など複雑なデータに強い。 音声認識、画像のラベル付け

結局、どうやって選ぶのが正解?

回帰と分類、どちらを使うかは、「何を予測したいのか?」によって決まります。

「数値を予測したい」なら → 回帰モデルを選びましょう!

家賃、株価、気温、売上など、連続的な数値を予測したい場合は回帰モデルが適しています。

  • 例:来月の売上を予測したい → まずは線形回帰を試してみましょう。
  • 例:もっと複雑なデータの関係性があるなら → 多項式回帰ニューラルネットワーク回帰を検討してみましょう。

「カテゴリを判定したい」なら → 分類モデルを選びましょう!

「AかBか」「スパムかそうでないか」「犬か猫か」といった、グループ分けや判別を行いたい場合は分類モデルが適しています。

  • 例:メールがスパムかどうかを判定したい → ロジスティック回帰を検討してみましょう。
  • 例:手書きの文字がどの数字か知りたい → ソフトマックス回帰ニューラルネットワーク分類が有力ですよ。

まとめ

DS検定の学習でも、実務でも、この「回帰」と「分類」の理解は欠かせません。

  • 回帰(Regression)は、「数値を予測する」のが得意(例:家賃、気温、売上)。
  • 分類(Classification)は、「カテゴリを判定する」のが得意(例:スパム or 非スパム、猫 or 犬)。
  • ちなみに、ランダムフォレストは、その特性から分類にも回帰にも使える汎用性の高いモデルなんですよ。これは覚えておいて損はないです。

データ分析の目的が「数値の予測」なのか「カテゴリの判定」なのかをしっかり見極めて、適切な機械学習モデルを選べるようになれば、あなたのデータ分析スキルは格段に向上するでしょう。DS検定合格に向けて、着実にステップアップしていってくださいね。

【DS検定 - 数理統計】 『確率分布』、離散と連続をサクッと理解しよう!

「確率分布」って言葉を聞くと、なんだか難しそう…って感じませんか?私もDS検定の勉強を始めたばかりの頃は、もう「うわ〜、数学だ…」と頭を抱えました…。

でも、データサイエンスを学ぶ上で、この「確率分布」の理解は避けて通れないんですよね。特に「離散型」と「連続型」の違いは、DS検定でも必ず問われる重要ポイントなんです!

本記事では、DS検定の出題範囲である「離散型確率分布」と「連続型確率分布」について、私が「なるほど!」って思えたポイントを交えながら、分かりやすく解説していきますね。基本的な考え方や、それぞれの違いをしっかり理解して、一緒に苦手意識を克服していきましょう!


こんな方に読んでほしい記事です!

この記事は、特にこんなあなたに向けて書いています。

  • 確率・統計の分野がちょっぴり苦手意識がある…という方
  • DS検定の数理統計でどこから手をつけていいか分からない方
  • データサイエンスの基礎を、身近な例で楽しく学びたい方

目次


確率分布とは?

まず、「確率分布って、一体何なんだろう?」って思いますよね。簡単に言うと、確率分布とは「ある出来事がどれくらいの確率で起こるか」を教えてくれる「地図」のようなものなんです。

たとえば、サイコロを振った時に「1が出る確率は1/6、2が出る確率は1/6…」と、それぞれの目が出る確率が決まっていますよね?あれも一種の確率分布と考えてみてください。

この「ランダムに決まる値」のことを確率変数と呼ぶのですが、この確率変数には大きく分けて以下の2種類があるんですよ。

       
  • 離散型確率変数:値が飛び飛びで数えられるもの。「1回、2回、3回」とか、「表か裏か」みたいに、はっきり区別できる場合ですね。(例:サイコロの目、コインの表裏、あるお店への来客数)
  •    
  • 連続型確率変数:値が切れ目なく連続的に変化するもの。身長や温度のように、小数点以下も無限にあり得る場合です。(例:身長、温度、試験の点数)

なるほど!つまり、数えられるものは「離散型」、数え切れないほど細かく測れるものは「連続型」ってことなんだね!😊💡

これに対応する確率分布が、それぞれ 離散型確率分布連続型確率分布 というわけです。

離散型確率分布

離散型確率分布では、確率変数が「特定のピタッとした値」を取る確率を定義します。それぞれの値がどれくらいの頻度で現れるのか、というイメージですね。ここでは代表的な分布をいくつかご紹介します。

離散型では、それぞれの「点」の確率が分かるんだね!✍️✨

ベルヌーイ分布:成功(1)か失敗(0)の二値をとる(例:コイン投げ)

これは一番シンプルな分布です。例えば、コインを1回投げて表が出るか(成功)、裏が出るか(失敗)といった、結果が2つしかない試行を表します。

       
  • 確率質量関数(PMF):$P(X=1) = p, P(X=0) = 1-p$
二項分布:独立したベルヌーイ試行をn回繰り返したときの成功回数の分布(例:10回コインを投げたときの表の回数)

ベルヌーイ試行を何回か繰り返したときに、その中で「成功」が何回起こるか、という確率を教えてくれるのが二項分布です。例えば、10回コインを投げて、表が3回出る確率は?といった時に使います。

       
  • 確率質量関数(PMF): $P(X=k) = \binom{n}{k} p^k (1-p)^{n-k}$
ポアソン分布:単位時間内に起こる稀な事象の回数の分布(例:一定時間内のクレーム発生回数)

これは、広い範囲の中で「めったに起こらないこと」が、どれくらいの頻度で起こるかを考えるときに便利です。例えば、1時間に平均2件のクレームが来るとして、次の1時間に3件来る確率は?といった場合に役立ちます。

       
  • 確率質量関数(PMF): $P(X=k) = \frac{\lambda^k e^{-\lambda}}{k!}$
---

連続型確率分布

連続型確率分布では、確率変数が特定の「範囲」に入る確率を考えます。身長が160cmちょうど!ということはほぼあり得ないので、「160cmから161cmの範囲に入る確率」のように考えるわけですね。そのため、確率密度関数(PDF)を用いて定義されます。

連続型では、「点」の確率じゃなくて、「区間」の確率を考えるのがポイントなんだね!だから、確率密度関数(PDF)を使うんだ!💡✨

一様分布:ある範囲内で一様に分布(例:0から1の乱数)

これは、ある区間内であれば「どこでも同じ確率」で値が出現する、という分布です。例えば、乱数ジェネレーターで0から1までの数字をランダムに生成する場合などがこれに当たります。

       
  • 確率密度関数(PDF): $f(x) = \frac{1}{b-a}, \quad (a \leq x \leq b)$
正規分布(ガウス分布):平均値周辺にデータが集中する分布(例:身長の分布)

「統計学の花形」とも言われるのがこの正規分布です。私たちの身の回りにある多くのデータ(身長、体重、テストの点数など)は、平均値の周りに集まり、そこから離れるにつれて数が少なくなる、この正規分布に従うことが多いんですよ。「真ん中が一番高くて、左右対称のベル型」のグラフ、見たことありませんか?それが正規分布です!

この正規分布は、自然現象や社会現象で本当によく見かけるから、超重要だよ!DS検定でも頻出だから、しっかり押さえておこう!💪

       
  • 確率密度関数(PDF): $f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$
指数分布:時間間隔の確率を表す(例:次の電話がかかってくる時間)

これは、「ある事象が次に起こるまでの時間」について考えるときに使います。例えば、あるお店に顧客が到着するまでの時間や、電球が故障するまでの時間などが指数分布に従うことがあります。時間が経つにつれて、「まだその事象が起こっていない確率」がどんどん減っていくイメージ。

「〇〇が次に起こるまでの時間」って言われたら、だいたいこの指数分布が出てくるって覚えておくと◎!⏱️

       
  • 確率密度関数(PDF): $f(x) = \lambda e^{-\lambda x}, \quad (x \geq 0)$
カイ二乗分布:標本分散の分布に関連し、統計的仮説検定でよく使われる(例:適合度検定)

カイ二乗分布は、主に「仮説検定」という分野で登場します。例えば、「観測されたデータが、理論的に期待される分布とどれくらい違うか」を評価する時などに使われます。データサイエンスの分野だと、カテゴリデータ(性別や血液型など)の関連性を調べたりする際にも出てくるので、名前だけでも覚えておくといいですよ。

カイ二乗分布は、「何かを比較したり、仮説を検証したりする時」に使うことが多いって覚えておくといいかも!📊

       
  • 確率密度関数(PDF): $f(x) = \frac{x^{(k/2)-1} e^{-x/2}}{2^{k/2} \Gamma(k/2)}, \quad (x > 0)$
  •    
  • $k$は自由度を表し、この自由度が大きくなると、分布の形が正規分布に近づいていくのが面白いポイントですね。

連続型確率分布では、確率そのものではなく「ある範囲に収まる確率」を求めることが多く、累積分布関数(CDF)を使って計算します。確率密度関数(PDF)のグラフでいうと、「ある範囲の面積」を求めるイメージです。✏️📈

---

まとめ(ポイント)

DS検定の数理統計でつまずかないためのポイントをもう一度おさらいしましょう!

       
  • 確率分布には「離散型」と「連続型」があることをしっかり区別する。    
             
    • 離散型確率分布: 特定の「点」の値を取る確率を定める(例:二項分布、ポアソン分布)。サイコロの目やコインの表裏のように、数えられるデータに使うんだね!
    •        
    • 連続型確率分布: 特定の「範囲」内に入る確率を定める(例:正規分布、指数分布、カイ二乗分布)。身長や温度のように、無限に細かく測れるデータに使うんだ!
    •    
       
  •    
  • 離散型では確率質量関数(PMF)、連続型では確率密度関数(PDF)を用いる。ここが大きな違いです。PMFは「ピンポイントの確率」、PDFは「その点での『密度の高さ』」を表しているとイメージすると分かりやすいかもしれません。
  •    
  • DS検定では、それぞれの確率分布が「どんな事象を表すのか」という基本的な概念と、代表的な分布の特徴、そして簡単な例を理解しておくことが重要です。数式を丸暗記するより、まずは「どういう時に使う分布なのか」を掴むのが合格への近道!

数理統計は最初はとっつきにくいかもしれませんが、実際にデータ分析をする際には欠かせない知識です。焦らず、一つずつ「なるほど!」を増やしていきましょうね!