A Mini-Introduction To Information Theory を眺めてみた


TL;DR

  • ひょんなことから Witten が書いたレビュー論文を眺めてみた
  • 特に前半の古典の話は物理っぽい書き方で好き(Stirling の公式は前提となるが)
  • 古典と量子の違いは意識的に書かれていて読みやすかった
  • 分からないところも色々あるが、そのうち何かのきっかけでちゃんと勉強するかもしれない(しなそう)

ネットで A Mini-Introduction To Information Theory が話題になっていて、何となく眺めてみた。 今の自分が学んだとしても何かの役に立つという類のものではないが、懐かしい話題だしたまにはそういうのに触れてみようと思ってダウンロードしてみた。

章立てはシンプルで以下の構成になっている。

  • Introduction
  • Classical Information Theory
  • Quantum Information Theory: Basic Ingredients
  • More On Quantum Information Theory

古典情報理論の内容

初っ端の Shannon entropy を定義するところからいかにも物理っぽい始まりである。 確率 p,1p{p ,1-p}a,b{a ,b} が発生するような状況で構成される large NN 個の文字列から Shannon entropy を定義する。 NN 個の文字列に pNp N 個の aa(1p)N(1-p) N 個の bb が現れる場合の数を計算して式変形をすることで自然と現れる。

N!(pN)!((1p)N)!1ppN(1p)(1p)N=2N(plogp(1p)log(1p))=2NS. \frac{N!}{(pN)!((1-p)N)!} \simeq \frac{1}{p^{pN}(1-p)^{(1-p)N}} = 2^{N (-p \log p - (1-p) \log (1-p) )} = 2^{NS}.

ここで Stirling の公式の leading term を使っている(N!NNN! \simeq N^N)。

この指数が Shannon entropy に NN を乗じた形であるという定義をしてよく見る形を得ることができる。 Shannon entropy は一文字当たりに得られる情報量になっている。 メッセージ全体で得られる情報量は、ビット単位で NSNS となる。

この辺りはいかにも物理的な書き方で機械学習の本ではこういう説明はされないんじゃないかなぁと思う(自分は見たことない)。 Stirling の公式を使っているので当然 NN が大きい時に漸近的に正しいという説明ではあるが、SS の非負性が物理的に明らかであることが分かるとかはいかにもという感じで面白い。

以降は conditional entropy とか relative entropy とかその単調性とかを説明しているが、説明自体は特別何かあるというものではない。 強劣加法性の説明で、「Remarkably, the same statement turns out to be true in quantum mechanics, where it is both powerful and surprising.」と言っていたりして、量子情報の話を見据えて説明してくれているのは読み手にとっては先が想像できるので読みやすくて良い。

Kullback-Liebler とかもさらっと導入されるんだが、そういえばこれって物理やってた時は目にしなかった単語のような気がする(単に不勉強のせいだが)。 まあ読めば最初の仮定として導入した確率分布と実際の確率分布との乖離を測れるものであるのは分かるし、ただの名前の話なのでどうでもよいのだが。 それはそうと、ここでも Stirling の公式が成り立つ状況の下で議論が展開されていて、こうすると Kullback-Liebler divergence が非負であることは物理的には明白なので、機械学習界隈の人も読んでみるのは一興かもしれない(PRML 第一章で証明問題を解いているからいいよと言われればそれまでなのだが…)。

量子情報理論の内容

ここからが本番であるが、ちゃんと読んだわけでもなくちゃんと感想を書くつもりでもないので、いくつかの話題をかいつまんで書いておく。

まず最初の density matrix の説明は、正直だいたい忘れていたので良い復習になった。 古典における確率分布に対応するものは量子では(量子状態ではなく)density matrix だよね、みたいな話もありがたい。 ipi<ψAiOAψAi>=TrHAρAOA\sum_i p_i <\psi_A^i | \mathcal{O}_A | \psi_A^i > = \text{Tr}_{\mathcal{H}_A} \rho_A \mathcal{O}_AρA=ipiψAi><ψAi\rho_A = \sum_i p_i | \psi_A^i >< \psi_A^i | ですぞみたいなのは懐かしいなぁという感じ。 ブラケットを綺麗に表示するよう努力しない辺り、自分がその辺りの話から離れているのが見て取れる。

その後はあるエルミートで半正定値であるという性質を持つ density matrix は、別の量子系と合わせることで、合わせた量子系の純粋状態に対する density matrix にできるという “purification” を説明している。

ψAB=ipiψAiψBiHAHB. \psi_{AB} = \sum_i \sqrt{p_i} \psi_A^i \otimes \psi_B^i \in \mathcal{H}_A \otimes \mathcal{H}_B.

この ψAB\psi_{AB} が purification と呼ばれる。 直積を取ったヒルベルト空間の純粋状態という意味ですね。 ある量子系の混合状態はより大きな量子状態の純粋状態として扱うことができることを意味していて、古典における対応物がない重要な性質となる。 ちなみに純粋状態とは ρ=ψ><ψ\rho = |\psi><\psi| と書ける場合で、ρ=ipiψi><ψi\rho = \sum_i p_i |\psi^i><\psi^i| となってランクが2以上になると混合状態となる。

この辺からは物理を知らない人が読んでいくのはかなり困難だと思われる。 というか自分も詳しくないのでよく理解していないところが色々出てくる。

また、エンタングルメントに関しては、エンタングル状態というのは ψAB\psi_{AB} の展開が複数項を持つ場合で、ψAB=ψAψB\psi_{AB} = \psi_A \otimes \psi_B のような一項だけで書かれるものを “unentangled” テンソル積状態と呼ぶ。

density matrix が定義できれば von Neumann entropy が定義できる。

S(ρA)=TrρAlogρA S(\rho_A) = - \text{Tr} \rho_A \log \rho_A

これは定義から明らかであるがユニタリ変換の下で不変である。 ユニタリ変換で対角化すれば、ρA=ipiψAi><ψAi\rho_A = \sum_i p_i |\psi_A^i><\psi_A^i| となり、ρAlogρA=diag(p1logp1,p2logp2,...)\rho_A \log \rho_A = \text{diag}(p_1 \log p_1, p_2 \log p_2, ...) と書けるため、古典の場合と同じ式 S(ρA)=ipilogpiS(\rho_A) = - \sum_i p_i \log p_i が得られる。

ここからは定義した von Neumann entropy の性質をつらつらと示していくことになる。 purification で扱った A,B の系がどちらも同じエントロピーを持つこと、concavity、conditional and relative quantum entropy、単調性、などなど。 重要な帰結がたくさんあるのだが、軽く眺めただけで理解も不十分なので割愛。

もうひとつ重要なのは測定の話で、射影演算子の説明が 3.6 にある。 測定という量子力学にとって本質的な話に関してどんなことが書いてあるかなーと期待したが、割と数学的な話と簡素な説明という感じで、自分の場合はこれだけ読んでもちょっと理解は乏しい。 まあ mini introduction なんだから気になったらちゃんと勉強せいということなんですが。

あとは quantum channel と thermodynamics の話があるが、この辺は読んでない。 quantum channel の最後にはなぜか exercises があったりしてよくコンセプトが分からないが、自分でも頭を使って考えろという Witten 先生のメッセージなのだろう。

量子情報理論に関して追加の話題

簡潔ではあるが、量子テレポーテーションの話、量子 relative entropy と仮説検定の話、古典的情報を量子状態に埋め込む話、がなされている。 量子テレポーテーションについてだけちょろっと感想を書く。

量子テレポーテーションの話はこの手の話を初めて真面目に読んでみたので面白かった(恐らくは大学院の時に一度はやっているはずだが完全に忘れている)。 Alice が有する qubit A0A_0 を Bob が再現したいという場合に、エンタングルした qubit pari A1B1A_1 B_1 をそれぞれが分けあっていれば、Alice が A0A1B1A_0 A_1 B_1 に対して A0A1A_0 A_1 の状態を確定させる測定をしてその結果を Bob に伝えることで、エンタングルを介して状態が伝播して(適切なユニタリ変換をすれば) A0A_0 の量子状態を再現できるという仕組みである。 ある程度読んでみるとそういえばベル測定とかやったことあるなということを思い出したのだが、昔のノートとか見返してみようと思っても全て捨てている。 やっぱり iPad Pro でノートをとってクラウドに残しておかないといかんな!

ちなみに量子テレポーテーションは古典的通信で測定の結果を共有することで復元が可能なので特殊相対論と矛盾するような話ではないし、テレポーテーションという単語はミスリーディングを誘う名前のような気がするんだけどどうなんでしょう。 量子力学の非局所性ということでとても面白い話題であることは確かではあるが。

昔から盛んに研究されている分野だが、最近でも 地上と衛星間での量子テレポーテーションに成功という論文 が話題になっていたりして、今後の更なる発展が楽しみな分野ではありそう。

まとめ

Witten の書いた古典・量子情報理論のレビュー論文を眺めてみた。 結構昔にちょろっとだけ勉強したような内容がまとめられていて、ためにはなったが今後どこかで使うことが来ることはなさそう。