第09回 相互情報量と結合エントロピー

相互情報量

概要

相関のある2つの事象系で、一方の事象系の情報を知ることによって得られる、もう一方の事象系の情報量のことを相互情報量とよぶ。書き方は以下の通り。
  • \(I(Y,X)\) : 事象系 \(X\) の結果が確定することで得られる、事象系 \(Y\) に関する情報量
  • \(I(X,Y)\) : 事象系 \(Y\) の結果が確定することで得られる、事象系 \(X\) に関する情報量

書き方のルール
  • コンマの前が未確定の事象系
  • コンマの後が確定済みの事象系
相互情報量と通常のエントロピー、条件付きエントロピーには以下のような関係がある。

\( I(Y,X)+H(Y|X)=H(Y) \cdots (1) \)

これは、それぞれの項の意味が
\(I(Y,X)\) \(X\) の結果を知ることで \(Y\) についてわかること
\(H(Y|X)\) \(X\) の結果を知っているときに \(Y\) についてわからないこと
\(H(Y)\)\(X\) の結果を知らないときに \(Y\) についてわからないこと
であることを考えれば自然に成り立つことがわかる。
このことは以下のような図で説明することもできる。 \(X\) と \(Y\) に相関があるので、「わからないこと」には重なりがあり、

のようになる。「\(X\) の結果を知っているときに \(Y\) についてわからないこと」、つまり \(H(Y|X)\) は

のようになる。一方、「\(X\) の結果を知ることで \(Y\) についてわかること」、つまり \(I(Y,X)\) はちょうどこの欠けた部分

にあたる。これらを足せばもとの右側の円、つまり \(H(Y)\) になる。

さらにこの図を左右逆にして考えれば、(1)の \(X\) と \(Y\) を入れ替えた以下の関係も同様に成り立つことがわかる。

\( I(X,Y)+H(X|Y)=H(X) \cdots (2) \)

また、\(I(X,Y)\) と \(I(Y,X)\) の意味は別のものだが、図からこれらの実態は同じものであり、その値も等しいことがわかる。

課題1

前回の課題で扱った事象系、つまり2~9の整数からランダムに1つ選んだ結果から作った事象系 \(X\) (\(x_s\)(6以下), \(x_b\)(7以上)) と事象系 \(Y\) (\(y_p\)(素数), \(y_c\)(合成数)) について、\(H(X), H(Y)\) の値を求めよ。ただし、対数の近似値は使わず、\(\log3, \log5\) を残した形にする。
  • 前回の資料の(1), (2) の事象系のそれぞれの確率から、エントロピーの定義に沿って計算する。

課題2

前回の課題で扱った事象系 \(X, Y\) について、\(I(Y,X)\) の値を求めよ。ただし、対数の近似値は使わず、\(\log5\) を残した形にする。
  • 今回の(1)式を変形すれば、\(I(Y,X)=H(Y)-H(Y|X)\) となる。
  • \(H(Y)\) には今回の課題1の形を使う。
  • \(H(Y|X)\) には前回の「条件付きエントロピー」の概要のところで求めた形が使える (今回の題意のため、最終的な値ではなく計算の途中の (\(\log5\) が残っている) 形を使う)。

課題3

前回の課題で扱った事象系 \(X, Y\) について、\(I(X,Y)\) の値を求めよ。ただし、対数の近似値は使わず、\(\log5\) を残した形にする。
  • 今回の概要の説明から課題2と同じ結果になることは明らかだが、それを確認するために (2) 式を変形した \(I(X,Y)=H(X)-H(X|Y)\) を使って値を求める。
  • \(H(X)\) には今回の課題1の形を使う。
  • \(H(X|Y)\) には前回の課題5で求めた形が使える (今回の題意のため、最終的な値ではなく計算の途中の (\(\log3\) が残っている) 形を使う)。

結合事象系

概要

二つの事象系のそれぞれの事象が同時に起こることを一つの事象としてとらえ、それらで構成される事象系をつくることができる。例えば前回の課題の事象系なら以下の4つの事象からなる事象系ができる。このような事象系を結合事象系、それを構成する事象を結合事象という。

結合事象系 \(XY\)
結合事象条件選んだ数
\(x_s,y_p\)6以下の素数2, 3, 5
\(x_s,y_c\)6以下の合成数4, 6
\(x_b,y_p\)7以上の素数7
\(x_b,y_c\)7以上の合成数8, 9
\( XY= \begin{bmatrix} x_s,y_p & x_s,y_c & x_b,y_p & x_b,y_c \\ \frac{3}{8} & \frac{1}{4} & \frac{1}{8} & \frac{1}{4} \end{bmatrix} \cdots (3) \)

書き方のルール
  • 結合事象系の記号(左辺)は、もとの事象系の記号 (この例では \(X\) と \(Y\)) を並べて書く。
  • 結合事象の記号(右辺の上の行)は、もとの事象系の事象 (この例では \(x_s\) と \(y_p\) など) をコンマで区切って書く。

この例では事象系 \(X\) と \(Y\) には相関がある。そのため、\(x_s,y_p\) が起こる確率は、\(x_s\) が起こる確率と \(y_p\) が起こる確率をかけたものにはならない。
例えば \(x_s,y_p\) が起こる確率、つまり「小さい素数を選ぶ確率」は全8パターン中3パターンなので \(\frac{3}{8}\) になるが、「小さいものを選ぶ確率」「素数を選ぶ確率」をかけた \(p_s\times p_p=\frac{5}{8}\times\frac{1}{2}=\frac{5}{16}\) とは異なる。

一方、元になった2つの事象系に相関がない場合、例えばコインを1枚、サイコロを1個を同時に投げ、

事象系 \(A\)
事象条件出た面
\(a_h\)表(head)
\(a_t\)裏(tail)

事象系 \(B\)
事象条件出た目
\(b_s\)4以下(small)1, 2, 3, 4
\(b_b\)5以上(big)5, 6

\( A= \begin{bmatrix} a_h & a_t \\ \frac{1}{2} & \frac{1}{2} \end{bmatrix} \)    \( B= \begin{bmatrix} b_s & b_b \\ \frac{2}{3} & \frac{1}{3} \end{bmatrix} \)

このような事象系を作ると、これらを組み合わせてできる結合事象は
結合事象条件パターン
\(a_h,b_s\)表で4以下4通り
\(a_h,b_b\)表で5以上2通り
\(a_t,b_s\)裏で4以下4通り
\(a_t,b_b\)裏で5以上2通り
の4つで、結合事象系は
\( AB= \begin{bmatrix} a_h,b_s & a_h,b_b & a_t,b_s & a_t,b_b \\ \frac{1}{3} & \frac{1}{6} & \frac{1}{3} & \frac{1}{6} \end{bmatrix} \)
のようになる。例えば \(a_h,b_s\) が起こる確率は、\(a_h\) と \(b_s\) が起こる確率をかけた値 \(\frac{1}{2}\times\frac{2}{3}=\frac{1}{3}\) に等しい。そのほかの結合事象が起こる確率も、同様にもとの事象が起こる確率の積と同じになる。

結合事象系の性質
  • 相関がある場合:結合事象系の事象が起こる確率はもとの事象系の事象が起こる確率を単純にかけたものとは一般に異なる
  • 相関がない場合:結合事象系の事象が起こる確率はもとの事象系の事象が起こる確率を単純にかけたものになる

結合事象系のエントロピーのことを結合エントロピーとよぶ。\(X\) と \(Y\) の結合事象系 \(XY\) のエントロピーを \(H(XY)\) と書く。これは、元になった事象のエントロピーを重なりなしで加えたものに等しい。相互情報量を考えたときの図で表わすと

にあたる。この図から、

\( H(XY)=H(X)+H(Y)-I(Y,X) \cdots (4) \)

という関係が成り立つことがわかる (左右の丸 \(H(X)\) と \(H(Y)\) を単純に足すと重なった部分を2回カウントすることになるので、重なり部分の値 \(I(Y,X)\) を引くと、上図の形の面積になる)。
上の例の相関のない事象系 \(A, B\) では、\(H(A)\) と \(H(B)\) に重なりがないので \(I(X, Y)=I(Y,X)=0\) になる。
実際、それぞれのエントロピーを計算してみると \(H(AB)=\log3+\frac{1}{3}\), \(H(A)=1\), \(H(B)=\log3-\frac{2}{3}\) で、結合エントロピーはそれぞれの事象系のエントロピーを単純に足したものになる。

課題4

(3) の結合事象系から \(H(XY)\) を求めよ。ただし、対数の近似値は使わず、\(\log3\) を残した形にする。
  • エントロピーの定義通り、4つの事象のそれぞれの確率を使って \(-\displaystyle \sum_{i=1}^n p_i\log p_i\) を計算する。

課題5

前回の課題で扱った事象系 \(X, Y\) について、(4)式の右辺の値を求めよ。ただし、対数の近似値は使わず、\(\log3\) を残した形にする。
  • (4)式から課題4と同じ結果になることは明らかだが、それを確認するためにあえて計算を行う。
  • \(H(X), H(Y)\) には今回の課題1の形を使う。
  • \(I(Y,X)\) には今回の課題2の形を使う。
inserted by FC2 system