分散の分母が「n」と「n-1」になるのはなぜ?標本分散の仕組みをわかりやすく解説!

分散の分母が「n」と「n-1」になるのはなぜ?標本分散の仕組みをわかりやすく解説! 統計

統計学を勉強し始めて、「平均」「分散」「標準偏差」の計算に慣れてきた頃、多くの人が必ずぶつかる大きな壁があります。

それが

「分散を計算するとき、なぜデータの個数『n』ではなく『n-1』で割るのか?」

という疑問です。

「平均を求めるときはデータの個数『n』で割るのに、どうして分散になると急に『n』or『n-1』になるの?」と、モヤモヤしたまま数式だけを丸暗記している方も多いのではないでしょうか。

実は、この『n』で割るか『n-1』で割るかの違いには、統計学の根本的な目的である「一部のデータから全体を推測する」という深い意味が隠されています。

今回は、分散を『n』で割るか『n-1』で割るかの違いや、なぜ『n-1』で割る必要があるのかを理解できるようにわかりやすく解説します!

1. 「母集団」と「標本」のちがい

『n』か『n-1』かの謎を解く前に、まずは統計学の最も重要なベースである「母集団」「標本」の違いをおさらいしておきましょう。

ここを理解することが、すべての出発点になります。

「母集団」と「標本」のちがい
  • 母集団とは?
  • 標本とは?(全体から取り出した一部)

母集団とは?

母集団とは、私たちが本当に知りたい対象のデータ全体のことです。

例えば、「日本全国の成人男性の平均身長が知りたい」と思ったとき、日本全国の成人男性全員のデータが「母集団」になり、「日本人の平均寿命が知りたい」と思ったときは、日本国民全員が「母集団」になります。

標本とは?(全体から取り出した一部)

母集団をもとにデータを集計するために「数千万人の身長」を一人残らず測るのは、時間的にも費用的にも不可能です。

そこで、現実には母集団の中からランダムに1,000人を選び出して身長を測ります。

この選ばれた一部のデータのことを「標本」といいます。

統計学の目的には、「手元にある一部のデータ(標本)から、目に見えない巨大な全体(母集団)の姿をピタリと推測すること」にあります。

2. 「nで割る分散」と「n-1で割る分散」の違いとは?

データの「ばらつき具合」を表す指標が「分散」です。

分散の計算公式を見たとき、分母が「『n』(データの個数)」になっているものと、『n-1』になっているものを見かけて混乱したことはありませんか?

この違いは、「分析の目的」がどちらにあるかによって決まります。

『n』と『n−1』の違い

① 手元のデータだけをまとめたい(分母は『n』)
② 一部から全体を推測したい(分母は『n-1』)
③ 母平均が「既知」か「未知」かで分母が変わる!

① 手元のデータだけをまとめたい(分母は『n』)

今目の前にあるデータ(クラスのテスト結果など)のばらつきを純粋に計算したい場合は、データの個数そのままの『n』で割ります。

  • 目的: 今ここにあるデータの状態を要約したいとき
  • 計算: データの個数『n』で割る

② 一部から全体を推測したい(分母は『n-1』)

手元のデータを使って、背後にある見えない全体(母集団)のばらつきを推測したい場合は、『n-1』で割ります。

統計学の実務や試験で登場する分散は、ほぼすべてこの計算です。

  • 目的: 手元のデータから、本当の全体(母集団)のばらつきを推測したいとき
  • 計算: データの個数から1を引いた『n-1』で割る

③ 母平均が「既知」か「未知」かで分母が変わる!

ここまでの話を聞いて、「確かに、統計の計算問題を解くとき、平均を知っているときと知らないときで分母が違っていたかも」と思った方もいるかもしれません。

実は、分散の計算で最大の分岐点となるのが

「本当の平均(母平均)を最初から知っているかどうか」

にあります。

ここを整理することで、分散の丸暗記から抜け出すことができます。

・母平均が「既知」の場合(分母はn)

本当の平均が最初から分かっていれば、手元のデータを使って自分たちで「標本平均」を計算する必要がありません。

「標本平均を代用する」という条件を消費していないので、データが自由に動ける権利(自由度)は減らず、そのまま『n』で割ることができます。

・母平均が「未知」の場合(分母はn-1)

とはいえ、母平均を知ることはほぼ不可能なので、現実のデータ分析のほぼ100%がこれに該当します。

本当の平均が分からないため、手元のデータから「標本平均」を計算して、それを仮の基準にします。

この「自分たちで計算した平均を基準にする」という行為によって自由度が1つ減るため、分母を『n-1』に補正する必要があります。(以下で詳しく解説)

このように、

  • 手元にあるデータ以外の「外側の情報(母平均)」があらかじめ手に入っている特別な状況なら『n』を使う
  • 情報が足りなくて手元のデータから平均を計算しなければならない状況なら『n-1』を使う

と覚えておきましょう。

3. なぜ『n-1』で割るの?

『n-1』で割る理由

① なぜ『n』ではダメなの?
② 「自分たちの平均」を使うとばらつきは小さくなる
③ ズレを補正する『n-1』

① なぜ『n』ではダメなの?

では、なぜ全体(母集団)を推測するときは『n』のままではダメで、『n-1』にする必要があるのでしょうか?

結論から言うと、

「標本(手元のデータ)のばらつきは、母集団(全体)の本当のばらつきよりも小さく計算されてしまう傾向があるから」

です。

これだけだとイメージしづらいと思うので、具体的な例を使って考えてみましょう。

日本全国の成人男性(母集団)から、たまたま5人(標本)を選んで身長を測ったとします。

【選ばれた5人の身長】
 168cm、170cm、171cm、174cm、177cm (※この5人の平均身長は「172cm」になります)

全国の成人男性の本当の平均身長(母平均)が「170cm」だったとしても、たまたま背が高めの人が集まり、自分たちの平均(標本平均)が「172cm」になることはよくあります。

② 「自分たちの平均」を使うとばらつきは小さくなる 

ここが重要なポイントです。

5人のデータのばらつき(分散)を計算するとき、私たちは「本当の平均である170cm」を知らないため、「自分たちで計算した172cm」を基準にして計算してしまいます。

これがどれほど結果に影響を与えるのか、2つのパターンで分散を計算して比較してみましょう。

①「自分たちの平均(172cm)」を基準にした場合(現実の計算)

  • 168cmとのズレ:-4 ⇒ 2乗して 16
  • 170cmとのズレ:-2 ⇒ 2乗して 4
  • 171cmとのズレ:-1 ⇒ 2乗して 1
  • 174cmとのズレ:+2 ⇒ 2乗して 4
  • 177cmとのズレ:+5 ⇒ 2乗して 25

【ばらつきの合計】16+4+1+4+25 = 50 
【分散】50 ÷ 5(n) = 「10」

②「本当の平均(170cm)」を基準にした場合(本来あるべき姿)

  • 168cmとのズレ:-2 ⇒ 2乗して 4
  • 170cmとのズレ: 0 ⇒ 2乗して 0
  • 171cmとのズレ:+1 ⇒ 2乗して 1
  • 174cmとのズレ:+4 ⇒ 2乗して 16
  • 177cmとのズレ:+7 ⇒ 2乗して 49

【ばらつきの合計】4+0+1+16+49 = 70 
【分散】70 ÷ 5(n) = 「14」

いかがでしょうか?

本来の全体像から見れば「14」のばらつきがあるはずなのに、自分たちの平均を使って計算すると、ばらつきが「10」へと小さくなってしまいました。

データには「自分自身の平均を基準にしてズレを測ったとき、計算結果が最も小さくまとまる」という数学的性質があります。

つまり、たまたま集まった5人の平均を基準にして分散を計算してしまうと、全体(母集団)の本当のばらつき具合よりも小さなばらつきとして過小評価してしまうことになります。

③ ズレを補正する『n-1』

このまま『n』で割った標本分散を「母集団の分散」としてしまうと、常に実際よりも小さめの見積もりを出してしまうことになります(不偏性がない状態)。

そのため、この「小さめに見積もってしまうズレ」を意図的に補正する必要があります。

そこで登場するのが『n-1』です。

割り算の分母を『n』から少しだけ小さい『n-1』に変えてみると、分母が小さくなり割り算の答え(分散の値)は少しだけ大きくなりますよね。

それを、先ほどの「「自分たちの平均(172cm)」を基準にした場合」に当てはめると、

【分散】50 ÷ 4(n-1) = 「12.5」

となり、本来の分散である14に近づきましたね。

この補正を行うことで、計算結果が母集団の本当の分散(母分散)の期待値とかなり近づきます。

ふぁい
ふぁい

1回の計算では誤差が出ますが、何度も不偏分散を出して平均すると本当の母分散と一致します。

4. 「自由度」とは?

ここまでは、分散の値を少し大きくするために『n-1』で割ることを解説しましたが、

「なぜn-2やn-3ではなく『n-1』なの?」

と疑問に思いますよね。

この「-1」には、統計学における「自由度(Degrees of Freedom)」が関係しています。

自由度とは、「自由に値をとることができるデータの数」のことです。

例えば、3つのケーキ(ショートケーキ、チーズケーキ、モンブラン)があり、その平均が「500円」だと分かっているとします。

もし、ショートケーキが400円、チーズケーキが500円であることがわかったら、モンブランの値段ははどうなるでしょうか?平均が500円であるという制限があるため、モンブランの値段は自動的に600円に決まってしまいます。

つまり、データは3つ(n=3)あるのに、平均が決まっているせいで自由に動けるデータは2つ(n-1)になってしまいます。

このため、分散を計算するときは必ず「標本平均」を使います。

『n-1』になる流れ

標本平均を使う(条件が1つ加わる)
→ データが自由に動ける権利を1つ失う
→ 実質的なデータの数が「n」ではなく「n-1」になる

これが『n-1』で割る数学的な理由になります。

5. 『n』と『n-1』の実務での使い分け方

最後に、実務やレポート作成で「どちらを使えばいいのか」を整理しましょう。

・手元のデータそのものの特徴を説明したいとき(例:クラス全員のテストの点数のばらつきを出す)
⇒ 『n』で割る。

・一部のデータから、背後にある全体像を推測したいとき(例:アンケートの回答者100人のデータから、日本全国の傾向を推測する)
⇒ 『n-1』で割る。

世の中で行われているアンケート調査、実験データ、経済データの分析など(サンプリング調査)は、ほぼすべて「一部から全体を推測する」ことを目的としているため、実践的なデータ分析で使われるのは圧倒的に『n-1』で割ることになります。

ちなみに、Excelで分散を計算するときも関数が分かれています。

  • VAR.P(PはPopulation=母集団の意味):『n』で割る(データ全体がある前提)
  • VAR.S(SはSample=標本の意味):『n-1』で割る標本から全体を推測)

目的によって正しく使い分けましょう。

6. まとめ

いかがでしたでしょうか?

「n-1」で割る最大の理由は、サンプリング調査などにおいて「未知の全体(母集団)」の真の数値を、より正確に見積もるためです。

この記事のまとめ
  1. 標本分散(nで割る)は、手元のデータのばらつきを表すもの。
  2. 標本分散は、全体の本当のばらつきを過小評価してしまう性質がある。
  3. その過小評価を補正し、本当の全体(母集団)のばらつきを正しく推測するために、分母を少し小さくした不偏分散(n-1で割る)を使う。
  4. 「-1」の正体は、標本平均の計算に1つ情報を消費してしまったことによる「自由度」の減少である。

統計学の数式は、一見すると無機質な記号の羅列に見えますが、その一つひとつに「少しでも真実に近づきたい」という理由が詰まっています。

「『n』で割る」or「『n-1』で割る」を判断するには母平均を知っているかどうかが関わっていますが、この考え方は統計学の他の論点にもつながるので、ぜひ覚えておきましょう!

コメント