「相互情報量」の版間の差分

削除された内容 追加された内容
30行目:
:<math>
\begin{align}
I(X;Y) & {} = H(X) - H(X| \mid Y) \\
& {} = H(Y) - H(Y| \mid X) \\
& {} = H(X) + H(Y) - H(X,Y)
\end{align}
</math>
 
ここで ''、<math>H''(''X'')</math>''<math>H''(''Y'')</math> は周辺[[情報量|エントロピー]]、''<math>H''(''X''|'' \mid Y'')</math>''<math>H''(''Y''|'' \mid X'')</math> は[[情報量|条件付きエントロピー]]、''<math>H''(''X'','' Y'')</math>''<math>X''</math>''<math>Y''</math> の[[結合エントロピー]]である。''<math>H''(''X'') &ge;\geq ''H''(''X''|'' \mid Y'')</math> であるため、これは上述の非負性とも一貫している。
 
直観的に、エントロピー ''<math>H''(''X'')</math> が確率変数の不確かさの尺度であるとすれば、''<math>H''(''X''|'' \mid Y'')</math> は「''<math>Y''</math> を知った後にも残る ''<math>X''</math> の不確かさの量」と見ることができ、最初の行の右辺は「''<math>X''</math> の不確かさの量から ''<math>Y''</math> を知った後に残った ''<math>X''</math> の不確かさの量を引いたもの」となり、「''<math>Y''</math> を知ったことで削減される ''<math>X''</math> の不確かさの量」と等価である。これは、相互情報量が2つの確率変数について互いにもう一方を知ったことで得られる別の一方に関する情報量という直観的定義とも合っている。
 
離散の場合、''<math>H''(''X''|'' \mid X'') = 0</math> であるから、''<math>H''(''X'') = ''I''(''X'';'' X'')</math> となる。従って ''<math>I''(''X'';'' X'') &ge;\geq ''I''(''X'';'' Y'')</math> であり、ある確率変数は他のどんな確率変数よりも自分自身についての情報を多くもたらすという基本原理が定式化されている。
 
相互情報量は、2つの確率変数 ''<math>X''</math>''<math>Y''</math> の[[周辺分布]]の積 ''<math>p''(''x'') &\times; ''p''(''y'')</math> と[[同時分布]] ''<math>p''(''x'','' y'')</math> の[[カルバック・ライブラー情報量]]で表すこともできる。
 
:<math> I(X;Y) = D_{\mathrm{KL}} \left( p(x, y) \|parallel p(x) p(y) \right). </math>
 
さらに、''<math>p''(''x''|'', y'') = ''p''(''x'', ''\mid y'') /\times ''p''(''y'')</math> とする。を用いて変形すると、次のようになる。
 
:<math>
\begin{align}
I(X;Y) & {} = \sum_y p(y) \sum_x p(x| \mid y) \log_2 \frac{p(x| \mid y)}{p(x)} \\
& {} = \sum_y p(y) \; D_{\mathrm{KL}} \left( p(x| \mid y) \|parallel p(x) \right) \\
& {} = \mathbb{E}_Y\{D_{\mathrm{KL}} \left( p(x| \mid y) \|parallel p(x) \right)\}.
\end{align}
</math>
 
従って、相互情報量は、''Y'' を与えられた時の ''X'' の条件付き分布 ''<math>p''(''x''|'' \mid y'') から ''X''</math>確率分布 ''<math>p''(''x'')</math> に対するカルバック・ライブラー情報量の[[期待値]]として解釈することもできる。''p''(''x''|''y'') と ''p''(''x'') の分布に差があればあるほど、情報利得(カルバック・ライブラー情報量)は大きくなる。
ここで、<math>p(x \mid y)</math> は <math>Y</math> を与えられた時の <math>X</math> の条件付き分布、<math>p(x)</math> は <math>X</math> の確率分布である。
<math>p(x \mid y)</math> と <math>p(x)</math> の分布に差があればあるほど、情報利得(カルバック・ライブラー情報量)は大きくなる。
 
== 応用 ==