(2)確率と情報

2023年10月20日2023年11月14日

この節のキーワード

確率と情報
情報を測る量

この節では、確率や統計の文脈における「情報とはなにか？」ということについて考えていきます。

5択問題の例

さて、5択の問題に答えなければいけないとします。例えば次のような問題があっとしましょう。

これは第114回医師国家試験で出題された問題です。（114C12)

さて、もしあなたが小学生くらいだとしたら、これにどうしても答えろと言われたときどうするでしょうか？

おそらく「あてずっぽう」で答えるでしょう。つまり事前の情報がまったくないとき、５つの選択肢の中からランダムに選ぶことになると思います。そのとき、それぞれの答えを選ぶ確率は等しく20％になります。

a	b	c	d	e
20%	20%	20%	20%	20%

完全にランダムに選んだ場合の確率

さて、あなたは中学生です。ニュースで「黄色ブドウ球菌の食中毒は毒素によるものです。加熱で菌を殺しても毒素は消えないので予防になりません」といっているのを聞きました。そうすると「どうやらｃはなさそうだな」ということが分かります。そうすると、

a	b	c	d	e
25%	25%	0%	25%	25%

情報を得たあとの確率

極端に0にすることはないかもしれませんが、とりあえず選択肢ｃを切ることでほかの選択肢の確率が上がりました。

高校生のあなたは先日焼肉を食べたあとカンピロバクター食中毒になった経験をしました。「あのとき2,3日でお腹が痛くなったような気がするなあ。でも、たまたま早かっただけかもしれない・・・」「でも、食中毒になったらとりあえず届けるよね。でも、どんなときもするのかな？保健所にするの？うーーん」と考えています。その結果の判断は次のようなものでした。

a	b	c	d	e
75%	10%	0%	5%	10%

さらに情報を得たときの確率

このように、情報を得るごとに確率は変化します。そして、全ての確率が等しかったところから、あるところは減り、あるところは増え、偏っていきます。実際の医学生たちの結果は次のようなものだったそうです。

aが正解なわけですが、ある程度学習した集団ではこのように解答を選ぶ確率が偏ります。

そこで、確率・統計における情報について次のようなことが言えそうです。

情報

情報とは、ある事象についての確率を変化させるものである。その変化は確率を偏らせる方向に動く。

「偏らせる」ということを数学的に表現するのはここでは踏み込みませんがそのうちどこかで触れたいとは思います。物理学をやったことがある人にはエントロピーの概念が使える、とだけ言っておきます。

この考え方は、機械学習やDeep Learningなどにおける「学習」の評価にも使われています。

平均の推定とデータ

つぎの例として、ある集団がテストを受けたときの平均点が知りたいとします。ここでの話の詳しい内容はまたのちの項目で詳しく扱うので、ここでは話半分で流していただいて大丈夫です。

実際の平均点（母平均といいます）が50点、標準偏差が10であるとしましょう。このとき、何人かのサンプルを選んでテストを受けてもらい、その平均値（標本平均といいます）を母平均の「予測値」とします。

もちろん、これはサンプルからの予測なので実際の値からはズレているはずです。どのくらいズレるかという見込みを「標準誤差」といいます。ここでは結論だけ書きますが、サンプル数が$N$人のときの標準誤差$S.E.$は

\begin{equation}
S.E. = \frac{10}{\sqrt{N}}
\end{equation}

となります。この式をみると、サンプル数が多いほど誤差の大きさは小さくなることが分かります。これは「たくさんサンプルを集めたほうが正確になるだろう」という直観的な感覚とも一致します。

さて、10人のサンプルから求めた標本平均は次のグラフのようなブレ（誤差）があります。

この山の幅が誤差に対応すると考えていただいて大丈夫です。

これを100人のサンプルで求めると次のようなブレになります。

これも「平均値がどれくらいか？」ということについての確率を変化させています。

ここでは標準誤差が「ブレる大きさ」でしたから、「精確さ」を表すには逆の動きをするものがよいと思われます。そこで標本平均の分散（誤差の2乗）の逆数をそのデータが持つ情報の量を表す指標として用いることができそうに思えます。実際、数理統計学においてこれはFisher情報量と呼ばれるものになっています。これもまた、のちのち取り上げる予定です。

この節のまとめ