第08回 条件付き確率とエントロピー

条件付き確率

概要

2つの事象系があって、一方の事象系の結果が確定すると、もう一方の事象系の事象が起こる確率が変わることがある。このような変化した確率のことを条件付き確率とよぶ。また、この場合は2つの事象系に相関があるという。
例:2~9の整数からランダムに1つ選び、その結果から以下の事象系を作る。

事象系 \(X\)
事象条件選んだ数
\(x_s\) 6以下(small) 2, 3, 4, 5, 6
\(x_b\) 7以上(big) 7, 8, 9

事象系 \(Y\)
事象条件選んだ数
\(y_p\) 素数(prime number) 2, 3, 5, 7
\(y_c\) 合成数(composite number) 4, 6, 8, 9
  • 合成数 : 自然数で、1とその数自身以外の約数を持つ数のこと。要するに素数でない4以上の整数。

この場合、それぞれの事象系は
\( X= \begin{bmatrix} x_s & x_b \\ \frac{5}{8} & \frac{3}{8} \end{bmatrix} \)・・・(1)
\( Y= \begin{bmatrix} y_p & y_c \\ \frac{1}{2} & \frac{1}{2} \end{bmatrix} \)・・・(2)

となる。

ここで、事象系 \(X\) の結果が \(x_s\) だったことがわかっている場合の事象系 \(Y\) について考える。
結果は2~6の5パターンに限定され、素数は2, 3, 5の3つ、合成数は4, 6の2つになるので、\(y_p\) が起こる確率は3/5, \(y_c\) が起こる確率は2/5になる。
この場合の事象系 \(Y\) は以下のように書く。
\( Y(x_s)= \begin{bmatrix} y_p|x_s & y_c|x_s \cr \frac{3}{5} & \frac{2}{5} \end{bmatrix} \) ・・・ (3)

一方、事象系 \(X\) の結果が \(x_b\) だったことがわかっている場合は、結果は7~9の3パターンで、素数は7だけ、合成数は8, 9の2つなので、事象系 \(Y\) は次のようになる。
\( Y(x_b)= \begin{bmatrix} y_p|x_b & y_c|x_b \cr \frac{1}{3} & \frac{2}{3} \end{bmatrix} \) ・・・ (4)

いずれも \(X\) の結果について何も知らなかったときの \(Y\) とは異なった確率になる。

書き方のルール
事象系(左辺):「確定しているもの」をカッコに入れて書く
事象(右辺の上の行):事象を表わす文字のあとに縦棒と「確定しているもの」を書く
容易に想像できるように、例えば「サイコロを投げて出た目の6つの事象からなる事象系 \(A\)」と「コインを投げて出た面の2つの事象からなる事象系 \(B\)」のような場合では、\(A\) の結果が確定しても \(B\)の事象系には影響しない。このような場合はこれらの事象系に相関がないという。
こういう表を書けば、一方の結果がわかっているときの事象系を考えるのが楽になる。
6以下7以上
素数2, 3, 57
合成数4, 68, 9

課題1

事象系 \(Y\) の結果が \(y_p\) だったことがわかっている場合の事象系 \(X\)、つまり \(X(y_p)\) を記述せよ。
  • 素数であることは確定している。その中で大・小それぞれのグループに入る確率を考える。

課題2

事象系 \(Y\) の結果が \(y_c\) だったことがわかっている場合の事象系 \(X\)、つまり \(X(y_c)\) を記述せよ。
  • 合成数であることは確定している。その中で大・小それぞれのグループに入る確率を考える。

条件付きエントロピー

概要

相関のある事象系では、一方の事象系の結果が確定すると、もう一方の事象系の確率が変わるので、エントロピーの値も変わる。今回の初めの例で、「\(x_s\) が確定している場合の \(Y\) のエントロピー」は

\(H(Y|x_s)\)

のように書く。
書き方のルール
  • 縦棒の左が考慮する事象系
  • 縦棒の右が確定済みの事象

このエントロピーの値は、(3)の事象系のそれぞれの確率から次のようになる。
\( \begin{eqnarray} &&H(Y|x_s)\cr =&&-\frac{3}{5}\log\frac{3}{5}-\frac{2}{5}\log\frac{2}{5}\cr =&&\log5-\frac{3}{5}\log3-\frac{2}{5} \end{eqnarray} \)

同様に、\(x_b\) が確定している場合の \(Y\) のエントロピーは、(4)の事象系のそれぞれの確率から次のようになる。
\( \begin{eqnarray} &&H(Y|x_b)\cr =&&-\frac{1}{3}\log\frac{1}{3}-\frac{2}{3}\log\frac{2}{3}\cr =&&\log3-\frac{2}{3} \end{eqnarray} \)


ここまででわかっていることを書きだすと以下のようになる。
  • \(x_s\) が起こる確率 \(p_s\) は \(\frac{5}{8}\)
  • \(x_b\) が起こる確率 \(p_b\) は \(\frac{3}{8}\)
  • \(x_s\) が起こったことが確定している場合の \(Y\) のエントロピー \(H(Y|x_s)\) は \(\log5-\frac{3}{5}\log3-\frac{2}{5}\)
  • \(x_b\) が起こったことが確定している場合の \(Y\) のエントロピー \(H(Y|x_b)\) は \(\log3-\frac{2}{3}\)

これらを使えば「\(X\) の結果が (何に確定しているかは問わず) 確定している場合の \(Y\) のエントロピー」\(H(X|Y)\) を求めることができる。このような量のことを条件付きエントロピーという。
具体的な値は以下のようになる。

\( \begin{eqnarray} &&H(Y|X)\\ =&&p_s\times H(Y|x_s)+p_b\times H(Y|x_b)\\ =&&\frac{5}{8}\left(\log5-\frac{3}{5}\log3-\frac{2}{5}\right)+\frac{3}{8}\left(\log3-\frac{2}{3}\right)\\ =&&\frac{5}{8}\log5-\frac{1}{2}\\ ≒&&0.625\times2.322-0.5\\ =&&1.45125-0.5\\ =&&0.95125\\ ≒&&0.95 \end{eqnarray} \)

条件付きエントロピー書き方のルールとしては、縦棒の左が対象 (未確定) の事象系、縦棒の右が確定済みの事象系となる。
\(H(Y|X)\):\(X\) の結果が確定している場合の \(Y\)のエントロピー
\(H(X|Y)\):\(Y\) の結果が確定している場合の \(X\)のエントロピー
この例での単純な \(Y\) のエントロピー、つまり \(X\) の結果が確定していない場合の \(Y\) のエントロピーは(2)の事象系のそれぞれの確率から \(H(Y)=-\frac{1}{2}\log\frac{1}{2}-\frac{1}{2}\log\frac{1}{2}=1\) になる。
一方、 \(H(Y|X)\) の値は \(0.95\) で、これよりも小さい。
エントロピーは「不明な情報の量がどれだけあるか」を意味するので、「\(X\) の結果がわかったことで \(Y\) についても不明なことが少し減った」と解釈できる。
相関がない2つの事象系「サイコロを投げて出た目の6つの事象からなる事象系 \(A\)」と「コインを投げて出た面の2つの事象からなる事象系 \(B\)」では、\(H(A|B)=H(A)\)、\(H(B|A)=H(B)\) になる。
(コインの表裏のどちらが出たかを知ってもサイコロの目については何もわからないし、サイコロの目のどれが出たかを知ってもコインの表裏については何もわからない)

課題3

課題1で求めた事象系 \(X(y_p)\) のエントロピー \(H(X|y_p)\) を求めよ。ただし、\(\log3\) の近似値は使わず、\(\log3\) を残した形にすること。

課題4

課題2で求めた事象系 \(X(y_c)\) のエントロピー \(H(X|y_c)\) を求めよ。

課題5

課題3, 4の結果から、事象系 \(Y\) の結果がわかっているときの事象系 \(X\) のエントロピー \(H(X|Y)\) を求めよ。ただし、\(\log3≒1.585\) とし、四捨五入して小数第二位までにすること。
inserted by FC2 system