本ページにはプロモーションが含まれています。
この記事で解決できる疑問
- 自己情報量とエントロピーの違いは?
- それぞれ何を測り、E検定ではどこを見られる?
本記事はそんなモヤモヤを一気にほどきます。
E検定でつまずきやすいのは、自己情報量とエントロピー、さらに条件付き・結合エントロピーや相互情報量のつながりです。
この記事では、以下の各トピックを「全体像→必修ポイント→具体例」の順に解説し、最後に「演習問題」で理解をチェックする構成です。
- 自己情報量
- エントロピー
- 条件付き・結合エントロピー
- 相互情報量
ぜひ最後までご覧ください。
今すぐ演習をすぐしたい方はこちら → 演習問題
自己情報量|「驚き=情報の重さ」を直感→定義→計算でつかむ
この章では自己情報量に関して以下の順で見ていきます。
- 全体像
- 必修ポイント
- 具体例
1つずつ詳しく見ていきましょう。
自己情報量の全体像
自己情報量は、起きた出来事の意外を数で表す指標です。
直感を数式に落とすと次のようになります。
\[I(x) = -\log_{b} p(x)\]
この式は「確率\( p(x) \)が小さいほど\( I(x) \)(情報の重さ)は大きくなる」ことを意味します。底\( b \) が単位を決め、\( b = 2 \) なら bit、\( b = e \) なら nat、\( b = 10 \) なら hartley です。
\[I(x,y) = -\log_{b} p(x,y)\]
複数の出来事をまとめて見たいときは同様に同時確率\( p(x,y) \)を使います。独立なら確率が積になるため、情報量は足し算で扱えます。
\[p(x,y) = p(x)\,p(y) \;\Rightarrow\; I(x,y) = I(x) + I(y)\]
独立な2事象の同時発生は「確率の積→情報量の和」に変換され、回数分だけ素直に加算できるのが自己情報量の便利な点です。
\[
I_{b_1}(x) = \frac{I_{b_2}(x)}{\log_{b_2} b_1}
\]
底(単位)をそろえるための換算式です。試験や実務では、計算前後で単位が混ざらないように必ず統一します。
自己情報量の必修ポイント
定義からすぐ導ける性質を、式→解説で確実に押さえます。
\[
0 < p(x) \le 1 \;\Rightarrow\; 0 \le I(x) < \infty
\]
確率が1(必ず起きる)なら情報量は0、確率が0に近づくほど情報量は際限なく増えます。
直感どおり「めったに起きないほど重い」です。
\[
p(x) = 1 \;\Rightarrow\; I(x) = 0, \qquad \lim_{p(x)\to 0^+} I(x) = \infty
\]
境界値のまとめです。
「確実」は驚きゼロ、「ほぼ起きない」は極めて大きな驚きだと解釈できます(数値は発散)。
\[
p_{1} < p_{2} \;\Rightarrow\; I(p_{1}) > I(p_{2})
\]
単調性の表現です。
大小比較の設問では、いちいち計算せずにこの関係だけで素早く判定できます。
\[
p(x,y) = p(x)\,p(y) \;\Rightarrow\; I(x,y) = I(x) + I(y)
\]
独立試行の基本公式です。
繰り返し試行や連続成功の重さは、1回分を回数分だけ足すだけで済みます。
\[
I_{b_1}(x) = \frac{I_{b_2}(x)}{\log_{b_2} b_1}
\]
底(単位)変換の再掲です。
bit と nat が混在したまま比較・加算しないよう、この式で必ず単位を統一してください。
自己情報量をサイコロで計算
公平な6面サイコロを例に、底\( b = 2 \; (\text{単位: bit}) \)で具体的な重さを体感します。
\[
I(1) = -\log_{2}\left(\frac{1}{6}\right) = \log_{2} 6 \approx 2.585 \ \text{bit}
\]
「1 の目」は起きにくいので、コインの表(1 bit)より重い情報を運びます。これがフェアサイコロの基準値です。
\[
I(\text{偶数}) = -\log_{2}\left(\frac{3}{6}\right) = -\log_{2}\left(\frac{1}{2}\right) = 1 \ \text{bit}
\]
偶数は半々なので、フェアコインと同じ重さです。集合事象でも確率さえ決まれば同じやり方で計算できます。
\[
I(1 \land 1) = -\log_{2}\left(\frac{1}{36}\right) = \log_{2} 36 = 2\log_{2} 6 \approx 5.170 \ \text{bit}
\]
「1 の目が2回連続」(独立)の重さは、1回分の約 2.585 bit がそのまま 2 倍になります。確率の積が情報量の和になることを数値で確認できます。
エントロピー|不確実性を平均情報量で測る
この章ではエントロピーに関して以下の順で見ていきます。
- 全体像
- 必修ポイント
- 具体例
1つずつ詳しく見ていきましょう。
エントロピーの全体像
エントロピーは「各結果が起きたときの驚き(自己情報量)を、その起こりやすさで平均した値」です。
まんべんなく起こり得る分布ほど、毎回の驚きの期待値は大きくなります。
底が単位を決め\( (\, b=2 \Rightarrow \text{bit}, \; b=e \Rightarrow \text{nat}, \; b=10 \Rightarrow \text{hartley} \,) \)、単位が変わっても大小関係は不変です。
\[
H(X) = \mathbb{E}[I(X)] = -\sum_{x} p(x)\,\log_{b} p(x)
\]
この式は「結果ごとの驚き\( I(x) \) を、その確率\( p(x) \)で重み付け平均している」ことを表します。直感的には、情報の平均的な重さを測る秤だと捉えると覚えやすいです。
結果が一意に決まるなら平均の驚きはゼロ、一様ならどれも同じくらい起こり得るので最大になります。取り得る範囲は次のとおりです。
\[
0 \le H(X) \le \log_{b} |\mathcal{X}|
\]
下限は確定分布(1つの値が確率1)、上限は一様分布で達成されます。分布がこの2端のどちらに近いかで不確実性の度合いが掴めます。
エントロピーの必修ポイント
実務・試験では単位の統一が第一歩です。別の底で計算した値は、次式で安全に換算します。
\[
H_{b_1}(X) = \frac{H_{b_2}(X)}{\log_{b_2} b_1}
\]
例えば nat→bit なら\( \log_{2} e \)を掛けます。数値そのものは変わりますが、比較の順序は変わりません。
2つの確率変数の不確実性は「まず\( X \)の不確実性」+「\( X \)を知ったうえでの\( Y \)の不確実性」に分解できます。これは多段の推論・予測を扱う際の基本構造です。
\[
H(X,Y) = H(X) + H(Y \mid X)
\]
\( X \)を観測すると\( Y \)の揺らぎがどれだけ減るかを、条件付きエントロピー\( H(Y \mid X) \)が示します。条件づけで予測が楽になると\( H(Y \mid X) \)は小さくなります。
もし\( X \)と\( Y \)が独立なら、\( X \)を知っても\( Y \)の不確実性は変わりません。そのとき全体の不確実性は単純な足し算になります。
\[
X \perp Y \;\Rightarrow\; H(X,Y) = H(X) + H(Y)
\]
独立なら加法は計算の近道として頻出です。依存があるかないかで手順が変わる点に注意しましょう。
分布を混ぜると、一般に不確実性は増えます。これは凸結合(重み付き平均)に対する凹性を表しています。
\[
H(\lambda p_1 + (1-\lambda)p_2) \;\ge\; \lambda H(p_1) + (1-\lambda)H(p_2) \quad (0 \le \lambda \le 1)
\]
モデル混合・クラス混在などで「バラつきが増える=判断が難しくなる」直感を式で裏づけます。最大が一様であることの証明にも使えます。
エントロピーをコイン(公平/偏り)で計算
コイン投げは2値分布(ベルヌーイ)。表確率 \( p \) のとき、エントロピーは表の驚きと裏の驚きの確率付き平均です。\( p \) が \( 0.5 \)に近づくほど両者が拮抗し、平均の驚きも増えます(単位:\( bit \))。
\[
H_{2}(\mathrm{Bern}(p)) = -\,p\log_{2} p - (1-p)\log_{2}(1-p)
\]
グラフは\( p = 0.5 \) を頂点に左右対称で、端 \( p = 0.1 \) に向かうほど\( 0 \)に落ちていきます。予測しやすいほど平均の驚きは小さいという直感と一致します。
公平なコインは最も読みにくく、毎回 \( 1bit \)の新情報をもたらします。
\[
H_{2}(\mathrm{Bern}(0.5)) = 1 \ \text{bit}
\]
ここがベルヌーイの上限です。後の計算では「基準値」として使えます。
表が出やすい(とはいえ確実ではない)コインでは、不確実性は中程度になります。
\[
H_{2}(\mathrm{Bern}(0.8)) = -\,0.8\log_{2}0.8 - 0.2\log_{2}0.2 \;\approx\; 0.722 \ \text{bit}
\]
ほぼ表だと見通しが立つ分だけ平均の驚きが減る、と解釈できます。実務ではこの程度の差でも予測性能や通信レートに影響します。
さらに強い偏りでほぼ確定的になると、平均の驚きは小さな値にまで落ちます。
\[
H_{2}(\mathrm{Bern}(0.95)) = -\,0.95\log_{2}0.95 - 0.05\log_{2}0.05 \;\approx\; 0.286 \ \text{bit}
\]
「たまにしか裏が出ない」状況では、新しい情報はほとんど運ばれない——これが数値で確認できます。
単位を切り替えるときは換算式を使います。\( bit \) は離散のデフォルトとして便利で、必要なら \( nat \)や \(hartley \) に変換します。
\[
H_{\text{nat}} = H_{\text{bit}}\cdot \ln 2, \qquad H_{\text{hartley}} = \frac{H_{\text{bit}}}{\log_{2} 10}
\]
例えば\( 1bit \) は約 \( 0.693 nat \)、約\( 0.301 hartley \)。単位が違っても、エントロピーの大小比較は一致します。
条件付き・結合エントロピー|依存関係を理解する
この章では条件付き・結合エントロピーに関して以下の順で見ていきます。
- 全体像
- 必修ポイント
- 具体例
1つずつ詳しく見ていきましょう。
条件付き・結合エントロピーの全体像
2つの確率変数を同時に眺めたときの全体の不確実性が結合エントロピー、片方を観測したあとにまだ残る不確実性が条件付きエントロピーです。
ベン図のように「全体=片方+残り」と分解して考えると直感が安定します。
\[
H(X,Y) = -\sum_{x,y} p(x,y)\,\log_{b} p(x,y)
\]
結合は同時確率での平均的な驚きを測ります。
\[
H(Y \mid X) = -\sum_{x,y} p(x,y)\,\log_{b} p(y \mid x)
\]
条件付きは「 \( X \) を知ったうえでの \( Y \) の予測の難しさ」を表します。
\[
H(X,Y) = -\sum_{x,y} p(x,y)\,\log_{b} p(x,y)
\]
この連鎖則が「全体=片方+残り」を公式化したもので、依存関係の可視化に相当します(底 \( b \)により単位は \( bit/nat/hartley \))。
条件付き・結合エントロピーの必修ポイント
条件づけで不確実性は減るか同じで、増えることはありません。等号は完全決定や独立のときに成立します。
\[
0 \le H(Y \mid X) \le H(Y),
\]
\[
X\text{が}Y\text{を決める}\Rightarrow H(Y \mid X)=0, \quad X \perp Y \Rightarrow H(Y \mid X)=H(Y)
\]
独立なら「全体」は単純に足し算です。依存がないと、知らない分は何も減りません。
\[
X \perp Y \;\Rightarrow\; H(X,Y) = H(X) + H(Y)
\]
結合は対称ですが条件付きは順序に依存します。どちらを先に知るかで残りが変わる点に注意します。
\[
H(X,Y) = H(Y,X), \qquad H(Y \mid X) \neq H(X \mid Y) \ \text{(一般に)}
\]
単位が混ざったら必ず底変換でそろえます。大小比較は単位に依らず不変ですが、加減算は単位統一が前提です。
\[
H_{b_1}(\cdot) = \frac{H_{b_2}(\cdot)}{\log_{b_2} b_1}
\]
観測ミスのあるコインで計算
真の結果 \( X \) はフェアコイン(表 \( 1 \) /裏 \( 0 \) が各 \( 0.5 \) )、観測 \( Y \) は確率 \( \varepsilon \) で取り違えるセンサーを想定します(二元対称チャネル:BSC)。まず、真の不確実性はフェアなので\( 1 bit \) です。
\[
H(X) = 1 \ \text{bit}
\]
観測の誤りが生む不確実性は、誤り率 \( \varepsilon \) の2項エントロピーで表されます(単位: \( bit \) ))。
\[
H(Y \mid X) = h_{2}(\varepsilon) = -\,\varepsilon \log_{2}\varepsilon - (1-\varepsilon)\log_{2}(1-\varepsilon)
\]
連鎖則より全体の不確実性は「真の不確実性」+「観測ノイズ」の和になります。
\[
H(X,Y) = H(X) + H(Y \mid X) = 1 + h_{2}(\varepsilon)
\]
この設定は対称なので観測自体も常にフェアです。観測単体の不確実性はいつも 1 bit になります。
\[
H(Y) = 1 \ \text{bit}
\]
観測を知っても、誤り率ぶんの曖昧さは消えません。したがって観測後の真の不確実性は同じく \( h_{2}(\varepsilon) \) です。
\[
H(X \mid Y) = h_{2}(\varepsilon)
\]
数値感覚を掴むために \( \varepsilon = 0.1 \) の例を見ると、\( h_{2}(0.1) \approx 0.469 \ \text{bit} \) で、全体は \( 1.469 bit \) 程度です。誤りが半々( \( \varepsilon = 0.5 \))なら \( \ h2(0.5)=1 \) となり、観測は真の結果と独立になって\( H(X \mid Y) = H(X) = 1 \) が最大化されます。
相互情報量|共有される情報量の意味と典型問題
この章では相互情報量に関して以下の順で見ていきます。
- 全体像
- 必修ポイント
- 具体例
1つずつ詳しく見ていきましょう。
相互情報量の全体像
相互情報量は、「 \( X \) を知ることで \( Y \) の不確実性がどれだけ減るか」を数値化した量です。独立なら減少はゼロ、完全に一方が他方を決めるなら最大になります。対称で、いくつかの同値な形で表せます。
\[
I(X;Y) = H(X) - H(X \mid Y) = H(Y) - H(Y \mid X) = H(X) + H(Y) - H(X,Y)
\]
また、独立仮定 \( p(x)p(y) \) と実際の同時分布 \( p(x,y) \) のズレを表す\( KL ダイバージェンス \)としても定義できます。
\[
I(X;Y) = \sum_{x,y} p(x,y)\,\log_{b}\frac{p(x,y)}{p(x)p(y)}
\]
(底 \( b \) により単位は\( bit/nat/hartley \) 。以降も同様)
相互情報量の必修ポイント
相互情報量は常に \( 0 \) 以上で、 \( 0 \) になるのは独立のときだけです。上限はどちらか小さい方のエントロピーを超えません。
\[
I(X;Y) \ge 0, \quad I(X;Y) = 0 \iff X \perp Y,
\]
\[
I(X;Y) \le \min{H(X),H(Y)}
\]
相互情報量は対称です。どちらの立場から見ても「共有された情報量」は同じです。
\[
I(X;Y) = I(Y;X)
\]
複数変数では共有の足し算が成り立ちます。まず \( Y \) と共有し、さらに \( Y \) を知ったうえで \( Z \) と共有する分を足します。
\[
I(X;Y,Z) = I(X;Y) + I(X;Z \mid Y),
\]
\[
I(X;Z \mid Y) = H(X \mid Y) - H(X \mid Y,Z)
\]
情報を雑音のある処理に通すと(あるいは要約すると)共有情報は減ります。これがデータ処理不等式です。
\[
X \to Y \to Z \;\Rightarrow\; I(X;Z) \le I(X;Y)
\]
単位が混在したら必ず底をそろえます。相互情報量の換算もエントロピーと同じ形で行えます。
\[
I_{b_1}(X;Y) = \frac{I_{b_2}(X;Y)}{\log_{b_2} b_1}
\]
ノイズ強度を変えて相互情報量の変化を比較
フェアコイン \( X \sim \mathrm{Bern}(0.5) \) を観測するセンサー \( Y \) が、確率 \( \varepsilon \) で取り違える(二元対称チャネル:BSC)とします。雑音が小さいほど観測から得られる共有情報は大きく、雑音が強いほど小さくなります。
\[
I(X;Y) = 1 - h_{2}(\varepsilon),
\]
\[
h_{2}(\varepsilon) = -\,\varepsilon \log_{2}\varepsilon - (1-\varepsilon)\log_{2}(1-\varepsilon)
\]
ノイズがないと( \( \varepsilon=0 \))観測で真実が完全にわかり、共有情報は \( 1 bit \)になります。
\[
\varepsilon = 0:\quad h_{2}(0) = 0 \;\Rightarrow\; I = 1.000 \ \text{bit}
\]
軽いノイズでは、まだ多くを共有できます。 \( \varepsilon=0.1 \) のときは次の通りです。
\[
\varepsilon = 0:\quad h_{2}(0) = 0 \;\Rightarrow\; I = 1.000 \ \text{bit}
\]
ノイズが中程度になると、共有情報は大きく減ります。
\[
\varepsilon=0.2:\ I \approx 1-0.722=0.278\ \text{bit}, \qquad \varepsilon=0.3:\ I \approx 1-0.881=0.119\ \text{bit}
\]
完全に当てずっぽうの観測( \( \varepsilon=0.5 \) )では、観測は真の値と独立になり、共有情報は消えます。
\[
\varepsilon=0.2:\ I\approx 1-0.722=0.278\ \text{bit},
\]
\[
\varepsilon=0.3:\ I\approx 1-0.881=0.119\ \text{bit}
\]
要点として、\( I(X;Y) \) は \( \varepsilon \) に対して単調減少で、\( \varepsilon=0 \) を最大、\( \varepsilon=0.5 \) を最小とする U 字の片側を描きます(BSC は \( \varepsilon \) と \( 1-\varepsilon \) が等価なので \( 0.5 \) を軸に対称)。
この挙動を雑音が増えると共有情報は減るという直感と結びつけて覚えておくと、典型問題で素早く判断できます。
総まとめチートシート(説明 → 数式)
自己情報量:稀少な事象ほど驚きが重くなる量。底が単位を決め、独立なら足し算で扱える。
\[
I(x) = -\log_{b} p(x),
\]
\[
p(x,y) = p(x)p(y) \Rightarrow I(x,y) = I(x) + I(y)
\]
エントロピー:自己情報量の確率平均=分布の不確実性。確定で最小、一様で最大。
\[
H(X) = -\sum_x p(x)\log_b p(x),
\]
\[
0 \le H(X) \le \log_b |\mathcal{X}|
\]
条件付き・結合エントロピー:2変数の全体不確実性と、片方を知った後に残る不確実性。
\[
H(X,Y) = H(X) + H(Y \mid X) = H(Y) + H(X \mid Y),
\]
\[
0 \le H(Y \mid X) \le H(Y)
\]
相互情報量:知ることでどれだけ不確実性が減るか=共有された情報の量。
\[
I(X;Y) = H(X) - H(X \mid Y) = H(Y) - H(Y \mid X) = H(X) + H(Y) - H(X,Y)
\]
演習と解答
※以下問題の底は全て「 \( 2 \)」とする
問題1(自己情報量)
問題文:コインの表が出る確率が \( p = 0.2 \) のとき、表が出た場合の自己情報量を求めよ。
自己情報量は次の式で表されます。
\[
I(x) = -\log_{2} p(x)
\]
ここでは \( p(\text{表}) = 0.2 = \frac{1}{5} \) なので
\[
I(\text{表}) = -\log_{2} 0.2 = \log_{2} 5 \approx 2.321928 \ \text{bit}
\]
問題2(エントロピー)
問題文:ベルヌーイ分布 \( p=0.7 \) (表の確率 \( 0.7 \) )のエントロピーを求めよ。
\[
log_{2} 0.7 = -0.514573 ,\qquad 0.3\log_{2} 0.3 = -1.736966 \qquad とする
\]
エントロピーは自己情報量の確率平均=分布の平均的な驚きです。ベルヌーイでは
\[
H = -\,p \log_{2} p - (1-p)\log_{2}(1-p)
\]
で与えられます。
\( p=0.7 \) を代入すると
\[
H = -\,0.7\log_{2} 0.7 - 0.3\log_{2} 0.3 \
\]
\[
\approx -\,0.7(-0.514573) - 0.3(-1.736966) \
\]
\[
\approx 0.360201 + 0.521090 \
\]
\[
\approx 0.881291 \ \text{bit}
\]
問題3(条件付き・結合エントロピー:BSC)
問題文:真のコイン \( X \) はフェア(表/裏が各 \( 0.5 \) )。観測 \( Y \) は確率 \( ε=0.2\varepsilon \) で取り違える(二元対称チャネル)。
\( H(Y \mid X) ) と ( H(X,Y) \) を求めよ。
\[
log_{2} 0.8 \approx -0.3219 ,\qquad \log_{2} 0.2 \approx -2.322\qquad とする
\]
真のコイン \( X \) :フェア
\[
P(X=0) = P(X=1) = 0.5
\]
観測 \( Y \) :二元対称チャネル (Binary Symmetric Channel, BSC) で、誤り率
すなわち
\[
P(Y=X) = 1-\varepsilon = 0.8, \qquad P(Y \ne X) = \varepsilon = 0.2
\]
これは「X がわかった上で、Y の不確かさ」です。
BSC では、 \( Y \) の分布は 確率 \( 1-\varepsilon \) で一致、確率 \( 1\varepsilon \) で反転 なので、
\[
H(Y \mid X) = H(\varepsilon)
\]
\[
H(\varepsilon) = -\big[(1-\varepsilon)\log_{2}(1-\varepsilon) + \varepsilon\log_{2}\varepsilon\big]
\]
\( ε=0.2 \) を代入
\[
\log_{2} 0.8 \approx -0.3219 \;\Rightarrow\; 0.8 \times 0.3219 = 0.2575
\]
\[
\log_{2} 0.2 \approx -2.322 \;\Rightarrow\; 0.2 \times 2.322 = 0.4644
\]
\[
0.2575 + 0.4644 = 0.7219
\]
\[
H(Y \mid X) \approx 0.722 \ \text{bit}
\]
定義から:
\[
H(X,Y) = H(X) + H(Y \mid X)
\]
\( X \) はフェアコインなので:
\[
H(X) = 1 \ \text{bit}
\]
よって:
\[
H(X,Y) = 1 + 0.722 = 1.722 \ \text{bit}
\]
条件付きエントロピー:
\[
H(Y \mid X) \approx 0.722 \ \text{bit},
\]
同時エントロピー:
\[
H(X,Y) \approx 1.722 \ \text{bit}
\]
問題4(相互情報量:BSC)
問題文:真のコイン (X) は偏っており、\(P(X=1)=0.7,\ P(X=0)=0.3\)。観測 \(Y\) は二元対称チャネル\(BSC\)を通して得られ、誤り率は \(\varepsilon=0.1\)(すなわち \(P(Y\neq X)=0.1\))。
このとき、\(H(Y\mid X)\) と \(H(X,Y)\) を求めよ(単位:bit)。
\[
log_{2} 0.7 = -0.514573 ,\qquad 0.3\log_{2} 0.3 = -1.736966 \qquad とする
\]
\[
H(Y\mid X)=h_2(\varepsilon) = -\varepsilon\log_2\varepsilon-(1-\varepsilon)\log_2(1-\varepsilon).
\]
\(\varepsilon=0.1\) より
\[
H(Y\mid X)=h_2(0.1)\approx 0.4690\ \text{bit}.
\]
つぎに
\[
H(X,Y)=H(X)+H(Y\mid X).
\]
ここで
\[
H(X)=h_2(0.7)=-0.7\log_2 0.7 - 0.3\log_2 0.3 \approx 0.8813\ \text{bit}.
\]
したがって
\[
H(X,Y)\approx 0.8813 + 0.4690 \approx 1.3503\ \text{bit}.
\]
おわりに
この記事では、
\(I(x)\)(1回の驚き)から出発し、平均的な驚きである \(H(X)\)、観測後に残る不確実性 \(H(X \mid Y)\)、2変数の全体不確実性 \(H(X,Y)\) をチェーンルールで結び、削減量を示す \(I(X;Y)\) までを一本線で整理しました。
ここまでくれば、あとは手を動かして得点力に変えるだけです。
この記事を何度でも読み返し、情報理論の知識を身につけていきましょう。