本ページはプロモーションが含まれています

【DS検定 - 数理統計】 『確率分布』、離散と連続をサクッと理解しよう!

「確率分布」って言葉を聞くと、なんだか難しそう…って感じませんか?私もDS検定の勉強を始めたばかりの頃は、もう「うわ〜、数学だ…」と頭を抱えました…。

でも、データサイエンスを学ぶ上で、この「確率分布」の理解は避けて通れないんですよね。特に「離散型」と「連続型」の違いは、DS検定でも必ず問われる重要ポイントなんです!

本記事では、DS検定の出題範囲である「離散型確率分布」と「連続型確率分布」について、私が「なるほど!」って思えたポイントを交えながら、分かりやすく解説していきますね。基本的な考え方や、それぞれの違いをしっかり理解して、一緒に苦手意識を克服していきましょう!


こんな方に読んでほしい記事です!

この記事は、特にこんなあなたに向けて書いています。

  • 確率・統計の分野がちょっぴり苦手意識がある…という方
  • DS検定の数理統計でどこから手をつけていいか分からない方
  • データサイエンスの基礎を、身近な例で楽しく学びたい方

目次


確率分布とは?

まず、「確率分布って、一体何なんだろう?」って思いますよね。簡単に言うと、確率分布とは「ある出来事がどれくらいの確率で起こるか」を教えてくれる「地図」のようなものなんです。

たとえば、サイコロを振った時に「1が出る確率は1/6、2が出る確率は1/6…」と、それぞれの目が出る確率が決まっていますよね?あれも一種の確率分布と考えてみてください。

この「ランダムに決まる値」のことを確率変数と呼ぶのですが、この確率変数には大きく分けて以下の2種類があるんですよ。

       
  • 離散型確率変数:値が飛び飛びで数えられるもの。「1回、2回、3回」とか、「表か裏か」みたいに、はっきり区別できる場合ですね。(例:サイコロの目、コインの表裏、あるお店への来客数)
  •    
  • 連続型確率変数:値が切れ目なく連続的に変化するもの。身長や温度のように、小数点以下も無限にあり得る場合です。(例:身長、温度、試験の点数)

なるほど!つまり、数えられるものは「離散型」、数え切れないほど細かく測れるものは「連続型」ってことなんだね!😊💡

これに対応する確率分布が、それぞれ 離散型確率分布連続型確率分布 というわけです。

離散型確率分布

離散型確率分布では、確率変数が「特定のピタッとした値」を取る確率を定義します。それぞれの値がどれくらいの頻度で現れるのか、というイメージですね。ここでは代表的な分布をいくつかご紹介します。

離散型では、それぞれの「点」の確率が分かるんだね!✍️✨

ベルヌーイ分布:成功(1)か失敗(0)の二値をとる(例:コイン投げ)

これは一番シンプルな分布です。例えば、コインを1回投げて表が出るか(成功)、裏が出るか(失敗)といった、結果が2つしかない試行を表します。

       
  • 確率質量関数(PMF):$P(X=1) = p, P(X=0) = 1-p$
二項分布:独立したベルヌーイ試行をn回繰り返したときの成功回数の分布(例:10回コインを投げたときの表の回数)

ベルヌーイ試行を何回か繰り返したときに、その中で「成功」が何回起こるか、という確率を教えてくれるのが二項分布です。例えば、10回コインを投げて、表が3回出る確率は?といった時に使います。

       
  • 確率質量関数(PMF): $P(X=k) = \binom{n}{k} p^k (1-p)^{n-k}$
ポアソン分布:単位時間内に起こる稀な事象の回数の分布(例:一定時間内のクレーム発生回数)

これは、広い範囲の中で「めったに起こらないこと」が、どれくらいの頻度で起こるかを考えるときに便利です。例えば、1時間に平均2件のクレームが来るとして、次の1時間に3件来る確率は?といった場合に役立ちます。

       
  • 確率質量関数(PMF): $P(X=k) = \frac{\lambda^k e^{-\lambda}}{k!}$
---

連続型確率分布

連続型確率分布では、確率変数が特定の「範囲」に入る確率を考えます。身長が160cmちょうど!ということはほぼあり得ないので、「160cmから161cmの範囲に入る確率」のように考えるわけですね。そのため、確率密度関数(PDF)を用いて定義されます。

連続型では、「点」の確率じゃなくて、「区間」の確率を考えるのがポイントなんだね!だから、確率密度関数(PDF)を使うんだ!💡✨

一様分布:ある範囲内で一様に分布(例:0から1の乱数)

これは、ある区間内であれば「どこでも同じ確率」で値が出現する、という分布です。例えば、乱数ジェネレーターで0から1までの数字をランダムに生成する場合などがこれに当たります。

       
  • 確率密度関数(PDF): $f(x) = \frac{1}{b-a}, \quad (a \leq x \leq b)$
正規分布(ガウス分布):平均値周辺にデータが集中する分布(例:身長の分布)

「統計学の花形」とも言われるのがこの正規分布です。私たちの身の回りにある多くのデータ(身長、体重、テストの点数など)は、平均値の周りに集まり、そこから離れるにつれて数が少なくなる、この正規分布に従うことが多いんですよ。「真ん中が一番高くて、左右対称のベル型」のグラフ、見たことありませんか?それが正規分布です!

この正規分布は、自然現象や社会現象で本当によく見かけるから、超重要だよ!DS検定でも頻出だから、しっかり押さえておこう!💪

       
  • 確率密度関数(PDF): $f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$
指数分布:時間間隔の確率を表す(例:次の電話がかかってくる時間)

これは、「ある事象が次に起こるまでの時間」について考えるときに使います。例えば、あるお店に顧客が到着するまでの時間や、電球が故障するまでの時間などが指数分布に従うことがあります。時間が経つにつれて、「まだその事象が起こっていない確率」がどんどん減っていくイメージ。

「〇〇が次に起こるまでの時間」って言われたら、だいたいこの指数分布が出てくるって覚えておくと◎!⏱️

       
  • 確率密度関数(PDF): $f(x) = \lambda e^{-\lambda x}, \quad (x \geq 0)$
カイ二乗分布:標本分散の分布に関連し、統計的仮説検定でよく使われる(例:適合度検定)

カイ二乗分布は、主に「仮説検定」という分野で登場します。例えば、「観測されたデータが、理論的に期待される分布とどれくらい違うか」を評価する時などに使われます。データサイエンスの分野だと、カテゴリデータ(性別や血液型など)の関連性を調べたりする際にも出てくるので、名前だけでも覚えておくといいですよ。

カイ二乗分布は、「何かを比較したり、仮説を検証したりする時」に使うことが多いって覚えておくといいかも!📊

       
  • 確率密度関数(PDF): $f(x) = \frac{x^{(k/2)-1} e^{-x/2}}{2^{k/2} \Gamma(k/2)}, \quad (x > 0)$
  •    
  • $k$は自由度を表し、この自由度が大きくなると、分布の形が正規分布に近づいていくのが面白いポイントですね。

連続型確率分布では、確率そのものではなく「ある範囲に収まる確率」を求めることが多く、累積分布関数(CDF)を使って計算します。確率密度関数(PDF)のグラフでいうと、「ある範囲の面積」を求めるイメージです。✏️📈

---

まとめ(ポイント)

DS検定の数理統計でつまずかないためのポイントをもう一度おさらいしましょう!

       
  • 確率分布には「離散型」と「連続型」があることをしっかり区別する。    
             
    • 離散型確率分布: 特定の「点」の値を取る確率を定める(例:二項分布、ポアソン分布)。サイコロの目やコインの表裏のように、数えられるデータに使うんだね!
    •        
    • 連続型確率分布: 特定の「範囲」内に入る確率を定める(例:正規分布、指数分布、カイ二乗分布)。身長や温度のように、無限に細かく測れるデータに使うんだ!
    •    
       
  •    
  • 離散型では確率質量関数(PMF)、連続型では確率密度関数(PDF)を用いる。ここが大きな違いです。PMFは「ピンポイントの確率」、PDFは「その点での『密度の高さ』」を表しているとイメージすると分かりやすいかもしれません。
  •    
  • DS検定では、それぞれの確率分布が「どんな事象を表すのか」という基本的な概念と、代表的な分布の特徴、そして簡単な例を理解しておくことが重要です。数式を丸暗記するより、まずは「どういう時に使う分布なのか」を掴むのが合格への近道!

数理統計は最初はとっつきにくいかもしれませんが、実際にデータ分析をする際には欠かせない知識です。焦らず、一つずつ「なるほど!」を増やしていきましょうね!

0 件のコメント:

コメントを投稿