熵 (Entropy)

来源:互联网 发布:大数据架构师简历 编辑:程序博客网 时间:2024/05/31 19:26

 

熵 (Entropy)

李天岩

  • 1. Shannon 熵
  • 2. Kolmogorov 熵
  • 3. 拓樸熵 (Topological Entropy)
  • 4. Boltzmann 熵

   

在我們日常生活中,似乎經常存在看「不確定性」的問題。比方說,天氣預報員常說「明天下雨的可能性是 70%。這是我們習以為常的「不確定性」問題的一個例子。一般不確定性問題所包含「不確定」(uncertainty) 的程度可以用數學來定量地描述嗎?在多數的情況下是可以的。本世紀40年代末,由於信息理論 (information theory) 的需要而首次出現的 Shannon 熵,50年代末以解決遍歷理論 (ergodic theory) 經典問題而嶄露頭角的 Kolmogorov 熵,以及60年代中期,為研究拓樸動力系統 (topological dynamical system) 而產生的拓樸熵 (topological entropy) 等概念,都是關於不確定性的數學度量。它們在現代動力系統和遍歷理論中,扮演看十分重要的角色。在自然科學和社會科學中的應用也日趨廣泛。本文的主旨在於引導盡量多的讀者在這一引人入勝的領域中尋幽訪勝,而不必在艱深的數學語言中躑躅不前。物理、化學家們也許對他們早已熟悉的熱力學熵更覺親切。我們在最後一節也將給古典的 Boltzmann 熵作一番數學的描述。


1. Shannon 熵

設想我們有兩枚五分硬幣,一枚硬幣表面光滑,材料均勻,而另一枚硬幣則表面粗糙,奇形怪狀。我們把硬幣上有人頭的那面叫正面,另一面稱反面。然後在一個光滑的桌面上旋轉硬幣,等它停下來後,看是正面或是反面。這是一個不確定性的問題:可能是正面,可能是反面。第一枚硬幣,由於正面和反面的對稱性,正面或反面朝上的機率各為一半。但對第二枚硬幣來說,由於材料磨損,正面和反面不再對稱。可能正面朝上的機率為 70%,反面朝上的機率為 30%。對「究竟會是正面?或會是反面?」這一不確定性問題來說,第一枚硬幣「不確定」的程度顯然比第二枚硬幣要大了許多。若要下賭注的話,我想還是下第二枚硬幣的正面朝上,較為保險,不是嗎?現在假設鑄幣局的先生們別出心裁,把硬幣設計成圖1-1所示的形狀,其上為正,其下為反,則無論我們怎樣旋轉它,最終總是正面朝上。它「不確定」的度量應該為零-其結果在未旋轉前都已確定,那來什麼「不」確定度呢?



圖1-1

有了這些直接的觀察,我們可以在數學上做文章了。假設樣本空間 (Sample space) Xn 的基本事件 (events),其基本事件 wi 的概率為 pi, i=1,2,…,n。我們記之為 $(X ;p_1, /cdots, p_n)$。當然,我們有基本關係式 $/sum_{i=1}^{n} p_i =1, p_i /geq 0$, i=1,2,…,n。我們要定義一個函數 H 它的定義域是所有的樣本空間,它在樣本空間 $(X;P_1,/cdots,p_n)$ 的值,我們用 $H(p_1, /cdots, p_n)$ 來表示(X 省略掉)我們要拿這個數來刻劃具有概率分別為 p1,p2, …, pn 的事件 w1,w2,…,wn 的樣本空間的「不確定度」。 $H(p_1, /cdots, p_n)$ 若要精確地反映試驗結果的不確定度,似乎必須滿足下列三個基本條件:

 

(i) 對固定 n 來說,H(p1,…,pn) 的連續函數:(這是數學上很基本的要求)

代替硬幣,讓我們來擲骰子。這骰子是個材料均勻各面光滑的正六邊體。當我們將它擲到桌面上時,每個面朝上的機率都是 $/frac{1}{6}$。究竟是那面朝上的不確定度,顯然比旋轉光滑對稱硬幣那面朝上的不確定度要大許多。這個事實若用 H 來表達,應當是 $H(/frac{1}{6},/frac{1}{6},/frac{1}{6},                /frac{1}{6},/frac{1}{6},/frac{1}{6})                > H(/frac{1}{2},/frac{1}{2})$ 一般來說,H 應當滿足。

 

(ii) 若 $P_i=/frac{1}{n}$i=1,2,…,n,則對應的 $H(/frac{1}{n},/cdots,/frac{1}{n})$ 應當是 n 的單調遞增函數。

現在有一筆研究經費要分配給工程系的一名教授或數學系的兩名教授之一。假設工程系教授 A 獲得這筆經費的可能性是 $/frac{1}{2}$,數學系教授 B 獲此經費的可能性為 $/frac{1}{3}$,而數學系教授 C 獲此經費的可能性為 $/frac{1}{6}$ 了。事實上,這筆經費現在在教務長那裡,他認為為了公平起見,工程系獲此資助的可能性為 $/frac{1}{2}$,而數學系獲此資助的可能性亦為 $/frac{1}{2}$。工程系若獲此資助,系主任只會給教授 A,沒有其他的侯選人。但在數學系教授獲資助的前提下,教授 B 獲資助的可能性為 $/frac{2}{3}$,而教授 C 獲資助的可能性為 $/frac{1}{3}$(見圖1-2),這兩種「絕對不確定」和「相對不確定」分析應給出同樣的結果,也就是說,教授 A,B,C 獲此研究費的不確定度, $H(/frac{1}{2},/frac{1}{3},/frac{1}{6})$ 應當等於教務長將它分給工程系或數學系的不確定度, $H(/frac{1}{2},/frac{1}{2})$ 加上若是分到數學系,教授 B 或教授 C 得此資助的不確定度 $H(/frac{2}{3},/frac{1}{3})$,但這個不確定度是在此經費分到數學系的前提下。這種可能只有 $/frac{1}{2}$,因此

 

/begin{displaymath}                H(/frac{1}{2},/frac{1}{3},/frac{1}{6})                =H(/frac{1}{2},/frac{1}{2})+/frac{1}{2}H(/frac{2}{3},/frac{1}{3})                /end{displaymath}

 



圖1-2

將此分析一般化,我們有下列的條件:

 

(iii) 若某一試驗分解成多個相繼的試驗,則原先的 H 值應為相應的各個 H 值之加權和 (weighted sum)。

 

下面我們來證明一個重要結論:

 

定理1-1:
滿足條件(i)、(ii)和(iii)的函數 H 恰好具有形式

 

/begin{displaymath}                H(p_1,/cdots,p_n)=-K /sum_{i=1}^{n}p_i /log{p_i} /eqno{(*)}                /end{displaymath}

 

其中 K 為某個固定正常數。

 

證明:
我們分三步來證明此定理。

 

第一步:記 $A(n)=H(/frac{1}{n},/frac{1}{n},/cdots,/frac{1}{n})$n 為正整數。

 

斷言: A(sm)=mA(s),其中 sm 均為正整數。

我們先對 s=2,m=3 用下列圖1-3所示來證明此斷言。即我們要證明 $H(/frac{1}{8},/cdots,$ $/frac{1}{8})=$ $3H(/frac{1}{2},/frac{1}{2})$。由條件(iii)得



圖1-3


/begin{eqnarray*}                && H(/frac{1}{8},/cdots,/frac{1}{8})//                &=& H(/frac{1}{2},/fr...                .../frac{1}{2},/frac{1}{2}) //                &=& 3H(/frac{1}{2},/frac{1}{2}) //                /end{eqnarray*}

 


由歸納法易知,一般地有

 

/begin{eqnarray*}                &&H(/frac{1}{s^m},/cdots,/frac{1}{s^m})//                &=&H(/frac{1}{s},/c...                ...},/cdots,/frac{1}{s}) //                &=& mH(/frac{1}{s},/cdots,/frac{1}{s})                /end{eqnarray*}

 


這就證明了斷言。

現在設正整數 t,s,nm 滿足

 

/begin{displaymath}                s^m /leq t^n < s^{m+1}                /end{displaymath}

 

兩邊取對數,則有

 

/begin{displaymath}                m /log{s} /leq n /log{t} < (m+1)/log{s}                /end{displaymath}

 


 

/begin{displaymath}                /frac{m}{n} /leq /frac{/log{t}}{/log{s}} /leq /frac{m}{n} +/frac{1}{n}                /end{displaymath}

 

故有

 

/begin{displaymath}                /left/vert                /frac{m}{n}-/frac{/log{t}}{/log{s}}                /right/vert                </frac{1}{n} /eqno{(1-1)}                /end{displaymath}

 

由條件(ii),A 是其自變量的單調遞增函數,且由我們剛證的斷言,有

 

/begin{displaymath}                mA(s) /leq nA(t) < (m+1)A(s)                /end{displaymath}

 

故有

 

/begin{displaymath}                /left/vert                /frac{m}{n}-/frac{A(t)}{A(s)}                /right/vert                < /frac{1}{n} /eqno{(1-2)}                /end{displaymath}

 

由(1-1)和(1-2)式,我們得到

 

/begin{displaymath}                /left/vert                /frac{A(t)}{A(s)}-/frac{/log{t}}{/log{s}}                /right/vert                </frac{2}{n}                /end{displaymath}

 

因為 n 可以取任意自然數,而上式左邊與 n 無關,故有

 

/begin{displaymath}                /frac{A(t)}{A(s)}=/frac{/log{t}}{/log{s}}                /end{displaymath}

 


 

/begin{displaymath}                /frac{A(t)}{/log{t}}=/frac{A(s)}{/log{s}} /equiv K                /end{displaymath}

 

其中 K 為一固定正常數,這樣我們有

 

/begin{displaymath}                A(t)=K/log{t}                /end{displaymath}

 

由此,

 

/begin{displaymath}                H(/frac{1}{n},/cdots,/frac{1}{n})=K/log{n}                = - K /sum_{i=1}^{n}/frac{1}{n}/log{/frac{1}{n}}                /end{displaymath}

 

即,本定理對特殊情形 $p_i=/frac{1}{n}$, i=1,…,n 成立。

 

第二步:
現在對 pi 取一般的非有理數來證明此定理,我們對 $p_1=/frac{1}{2}$$p_2=/frac{1}{3}$$p_3=/frac{1}{6}$ 來描述證明的思想,作出下列圖1-4。



圖1-4

根據條件(iii)

 

/begin{eqnarray*}                &&H(/frac{1}{6},/cdots,/frac{1}{6})//                &=&H(/frac{1}{2},/frac{...                ...3}) //                &&+/frac{1}{3}H(/frac{1}{2},/frac{1}{2})+/frac{1}{6}H(1)                /end{eqnarray*}

 


故有

 

/begin{eqnarray*}                &&H(/frac{1}{2},/frac{1}{3},/frac{1}{6})//                &=&H(/frac{1}{6},/...                ...)//                &&-/frac{1}{3}H(/frac{1}{2},/frac{1}{2})-/frac{1}{6}H(1)//                /end{eqnarray*}

 


這樣分解的目的在於我們可用第一步證明的結果來證明第二步。

n1=3, n2=2, n3=1,則

 

/begin{eqnarray*}                p_1 &=& /frac{1}{2}=/frac{n_1}{n_1+n_2+n_3} //                p_2 &=& /frac{...                ...n_1+n_2+n_3} //                p_3 &=& /frac{1}{6}=/frac{n_3}{n_1+n_2+n_3} //                /end{eqnarray*}

 


將上面結果抽象化,我們就有,

 

/begin{displaymath}                H(p_1,p_2,p_3)=A(/sum_{i=1}^{3}n_i)-/sum_{i=1}^{3}p_iA(n_i)                /end{displaymath}

 

對一般情形,我們可依同法處理。設 p1,…,pr 為非負有理數,滿足 $/sum_{i=1}^{r}p_i=1$,則存在自然數 n1,…,nr,使得

 

/begin{displaymath}                p_i=/frac{n_i}{/sum_{j=1}^{r}n_j},/qquad i=1,/cdots,r                /end{displaymath}

 

利用條件(iii),我們得到如下的等式

 

/begin{displaymath}                H(p_1,p_2,/cdots,p_r)                =A(/sum_{i=1}^{r} n_i)-/sum_{i=1}^{r}p_i A(n_i)                /end{displaymath}

 

由第一步證明之結果,$A(n)=K/log{n}$ 代入上式有

 

/begin{eqnarray*}                && H(p_1,/cdots,p_r)//                &=&K/log(/sum_{i=1}^{r}n_i)-/sum_{i=1}...                ...ac{n_i}{/sum_{j=1}^{r}n_j}}//                &=&-K/sum_{i=1}^{r} p_i /log{p_i}                /end{eqnarray*}

 


故我們證明了(*)式對任何滿足 $/sum_{i=1}^{r}p_i=1$ 的非負有理數 p1,…,pr 成立。

 

第三步:設 p1,…,pr 為任意非負實數, $/sum_{i=1}^{r}p_i=1$。由條件(i),Hp1,…,pr 的連續函數,而任何實數均可由有理數列來任意逼近,故第二步證明結果隱含了(*)式在實數情形之正確性。定理證畢。

由定理中(*)式可知,若對某一個 ipi=1,則 $H(p_1,/cdots p_n)=0$,這正好和我們的願望相符:pi=1 意味著對應的事件總是發生的,因而不確定度為零。

因此,我們可以給出如下關於熵的定義,這個定義的熵 (entropy),又稱為 shannon 熵。

 

定義1-2:
由式 $H(p_1,/cdots,p_n)=-/sum_{i=1}^{n}p_i/log_{p_i}$ 定義的數, $H(p_1, /cdots, p_n)$ 稱為對應於樣本空間 $(X,p_1,/cdots,p_n)$ 的熵。

在本節之初,我們已知旋轉光滑硬幣時,正面朝上有 $/frac{1}{2}$ 的機率,反面朝上也有 $/frac{1}{2}$ 的機率,它的不確定度有最大。既然熵是關於不確定度的一種數學度量,這就自然地要求當 $p_1=p_2=/cdots=p_n=/frac{1}{n}$ 時,H 給出最大值。要注意的是,我們在推導 H 表達式的三個基本條件中,並無強加此項要求。現在我們要證明:這個直觀的要求,事實上可由上述三個基本條件推出結論。

 

命題1-3:
$H(p_1,/cdots,p_n)=-/sum_{i=1}^{n}p_i /log{p_i}$

 

/begin{displaymath}                H(/frac{1}{n},/cdots,/frac{1}{n})=/log{n}                =/max{/{H(p_1,/cdots,p_n):p_i/geq 0,/sum_{i=1}^{n}p_i=1/}}                /end{displaymath}

 

 

證明:
由初等微積分知函數 $/log{/mu}$ 是 μ 的嚴格凹函數。任給 $p_1,/cdots,p_n>0$$/sum_{i=1}^{n}p_i=1$

 

/begin{eqnarray*}                & & H(p_1,/cdots,p_n) //                &=& -/sum_{i=1}^{n} p_i /log{p_i} //...                ...ac{p_i}{p_i})//                &=& /log{n} = H(/frac{1}{n},/cdots,/frac{1}{n})                /end{eqnarray*}

 


當某一 pi 為零時,比如說 pi=0。這就好像一個只有 n-1 個基本事件的樣本空間。由上面的推論

 

/begin{displaymath}                H(0,p_2,/cdots,p_n) /leq H(/frac{1}{n-1},/cdots,/frac{1}{n-1})                <H(/frac{1}{n},/cdots,/frac{1}{n})                /end{displaymath}

 

第二個不等號是由於條件(ii)。

這節定義的熵起源於信息理論的研究。是 C. Shannon 在1948年引進的。在此基礎上,蘇聯數學家 A.N. Kolmogorov 在1958年給出了動力系統熵的概念。從而揭開了現代遍歷理論研究的新篇章。

 

熵 (Entropy) (第 2 頁)

李天岩

 

首頁 | 搜尋

.原載於數學傳播十三卷三期
.作者當時任教於美國密西根州立大學數學系
對外搜尋關鍵字
 
2. Kolmogorov 熵

我們再來做旋轉光滑硬幣的遊戲。為了方便起見,我們稱硬幣的正面為 l,反面為 0。讓我們考察連續旋轉 n 次,其每次正反面出現的各種可能性。旋轉一次,有兩個可能性,或正面朝上,或反面朝上,即 1,0;旋轉兩次有 4=22 種可能性,即 11,10,01,00;一般來說,旋轉 n 次則有 2n 種可能性。把連續旋轉 n 次的任一可能結果看成一個「基本事件」,我們則得到一個具有 2n 個基本事件的樣本空間,其每一基本事件有同樣的概率 2-n。上節中所談 Shannon 熵給出了這個樣本空閒的不確定度──$n/log{2}$。現在我們要進一步問的是:如果我們已知旋轉硬幣第一次,第二次,… 第 n-1 次的結果,那麼第 n 次會是正面或會是反面的不確定度該是多少?

我們希望能用數學上的語言來描述這個問題。首先讓我們來考慮定義在 [0,1] 上的函數 $f(x)=2x(/mbox{mod} 1)$,也就是

 

/begin{displaymath}                f(x)=/left/{                /begin{array}{ll}                2x & 0 /leq x < /frac{1}{2} //                2x-1 & /frac{1}{2} /leq x /leq 1                /end{array}/right.                /end{displaymath}

 

(見圖2-1),取 Lebesgue 測度 m 做為 [0,1] 上的測度,令 $/overline{A}=/{ [0,/frac{1}{2}],[/frac{1}{2},0] /}$ 為 [0,1] 上的一個劃分 (partition),則 $f^{-1}(/overline{A})=                /{ f^{-1}([0,/frac{1}{2}]),f^{-1}([/frac{1}{2},1])/}$ $=/{ [0,/frac{1}{4}] /cup [/frac{1}{2},/frac{3}{4}],$ $[/frac{1}{4},/frac{1}{2}] /cup [/frac{3}{4},1]/}$ 也是 [0,1] 上的一個劃分。任給兩個劃分 $/overline{A}$$/overline{B}$,令 $/overline{A}/vee/overline{B}$ 為由下式定義的劃分

 

/begin{displaymath}                /overline{A} /vee /overline{B} =                /{ A/cap B : A /in /overline{A} , B /in /overline{B}/}                /end{displaymath}

 

由此,我們則有 $f^{-1}(/overline{A})/vee/overline{A}                =/{[0,/frac{1}{4}],[/frac{1}{4},/frac{1}{2},                [/frac{1}{2},/frac{3}{4}],[/frac{3}{4},1]/}$ 如此這般下去,我們會有

 

/begin{displaymath}                /bigvee_{i=0}^{n-1} f^{-1}(/overline{A})                =/{ [/frac{i-1}{2^n},/frac{i}{2^n}] : i=1,/cdots,2^n/}                /end{displaymath}

 

的劃分,這個劃分裡的每個區間 $[/frac{i-1}{2^n},/frac{i}{2^n}]$ 都有 2-n 的 Lebesgue 概率測度。事實上,它和旋轉硬幣 n 次那個樣本空間裡的 2n 個基本事件是一一對應的。

n=3 其中的一個簡單情況來看。把 $[/frac{3}{8},/frac{4}{8}]$ 這個區間左端的 $/frac{3}{8}$ 寫成

 

/begin{displaymath}                /frac{3}{8}=/frac{0}{2}+/frac{1}{2^2}+/frac{1}{2^3}                /end{displaymath}

 

然後將 $[/frac{3}{8},/frac{4}{8}]$ 這個區間和 011(第一次反面,第二次正面,第三次反面)對應。一般來說,我們可以把 $[/frac{i-1}{2^n},/frac{i}{2^n}]$ 這個區間左端的 $/frac{i-1}{2^n}$ 寫成

 

/begin{displaymath}                /frac{i-1}{2^n}=/frac{a_1}{2}+/frac{a_2}{2^2}+/cdots+/frac{a_n}{2^n}                /end{displaymath}

 

其中 ak=0 或 1, k=1,…,n。這個區間對應的是旋轉硬幣 n 次,出現 $a_1 a_2/cdots a_n$ 的基本事件。總的來說,旋轉硬幣 n 次,2n 個基本事件,大家的機率都是 2-n 的樣本空間,拿 $f(x)=2x /pmod{1}$ 和劃分 $/overline{A}=/{ [0,/frac{1}{2}],[/frac{1}{2},1]/}$ 來描述,則是:拿劃分 $/bigvee_{i=0}^{n-1} f^{-1}(/overline{A})$ 裡的 2n 個元素 $[/frac{i-1}{2^n},/frac{i}{2^n}]$ 做基本事件,大家的 Lebesgue 概率測度都是 2-n 的樣本空間。

「已知旋轉硬幣第一次,第二次,…,第 n-1 次的結果,那麼第 n 次會是正面或反面的不確定度是多少?」的這一問題,拿 $f(x)=2x /pmod{1}$ 和劃分 $/overline{A}=/{ [0,/frac{1}{2}],[/frac{1}{2},1]/}$ 來描述,事實上是在問:已知 x,…,fn-1(x) 在劃分 $/overline{A}$ 裡的位置,那麼 fn(x) 會在 $[0,/frac{1}{2}]$ 裡或在 $[/frac{1}{2},1]$ 裡的不確定度是多少呢?

讓我們來看 n=4 這個特殊情形。比如說我們已知前三次的結果,它們是 101(第一次正面,第二次反面,第三次正面),這在 $/bigvee_{i=0}^{2} f^{-i}(/overline{A})$ 中所對應的區間是 $[/frac{5}{2^3},/frac{6}{2^3}]$,因為

 

/begin{displaymath}                /frac{5}{2^3}=/frac{1}{2}+/frac{0}{2^2}+/frac{1}{2^3}                /end{displaymath}

 

仔細的看,這個間區事實上是, $[/frac{1}{2},1]$$f^{-1}([0,/frac{1}{2}])=$ $[0,/frac{1}{4}]/cup [/frac{1}{2},/frac{3}{4}]$ 以及 $f^{-2}([/frac{1}{2},1])=[/frac{1}{8},/frac{1}{4}]$ $/cup [/frac{3}{8},/frac{1}{2}] /cup [/frac{5}{8},/frac{3}{4}]$ $/cup [/frac{7}{8},1]$ 的交集,也就是說

 

/begin{displaymath}[/frac{5}{2^3},/frac{6}{2^3}]                =[/frac{1}{2},1]/cap f^{-1}([0,/frac{1}{2}])/cap f^{-2S}([/frac{1}{2},1])                /end{displaymath}

 

元素x在這交集所代表的意義是: $x /in [/frac{1}{2},1],f(x)/in [0,/frac{1}{2}]$$f^2(x)/in [/frac{1}{2},1]$。一般說來,已知前三次旋轉硬幣的結果相當於已知 x,f(x),f2(x) 在劃分 $/overline{A}=/{ [0,/frac{1}{2}],[/frac{1}{2},1]/}$ 中的位置。問第四次是正面還是反面的不確定度,相當於問 f3(x) 究竟是在 $[0,/frac{1}{2}]$ 中還是在 $[/frac{1}{2},1]$ 中的不確定度。

已知 $x,f(x),/cdots,f^{n-1}(x)$ 在那裡,問 fn(x) 在那裡的不確定度,當 n 趨近於無窮大時的變化就是我們在這一節要談的 Kolmogorov 熵。

我們將把我們的著眼點放在一般的概率測度空間 (Probability measure space) 和定義在它上面的可測變換 (measurable function)。設 $(X,/Sigma,/mu)$ 為一概率測度空間。即 X 為一集合, Σ 為 X 上的一些子集合所構成的一個 $/sigma-$代數, μ 為 Σ 上的概率測度,也就是說 $/mu(X)=1$。假設 $f:X /longrightarrow X$ 為一個可測變換。這是指,Σ 中每個元素的逆像 f-1(A) 仍在 σ 中。我們任取 X 的一個有限劃分 (finite partition) $/overline{A}=/{ A_1,/cdots$ ,Am}$/overline{A}$ 中每個集合 Ai 屬於 Σ,它們之間互不相交(交集的測度為 0)且聯集恰為 X。這樣 $/overline{A}$ 可看成具有「基本事件」 A1,A2,…,Am 且有概率分布 $/mu(A_1)$,…,$/mu(A_m)$ 的一個有限樣本空間。這個樣本空間經常被稱為「試驗結果」。上節中談到,這個「試驗結果」的 Shannon 熵應為:

 

/begin{displaymath}                H(/overline{A})=-/sum_{i=1}^{n} /mu(A_i) /log /mu (A_i)                /end{displaymath}

 

對給定的 f,集族 $f^{-1}(/overline{A})$ $=/{(f^{-1}(A_1),/cdots,f^{-1}(A_m) /})$ 也可給出 X 的一個劃分。首先我們要提出這樣的問題:在試驗結果 $/overline{A}=/{ A_1,/cdots,A_m /}$ 為已知的前提下,試驗結果 $f^{-1}(/overline{A})=/{f^{-1}(A_1),$$/cdots,$ f-1(An)} 的不確定度為多少?也就是說,我們欲知:已知 xAi 中,問 f(x) 在何處的不確定度為多少?我們可以從條件概率的角度來探討之。為簡單起見,設 n=3,即 $/overline{A}=/{ A_1,A_2,A_3 /}$。假如,已知 xA1 中我們來看 f(x)A1,A2A3 的概率為如何。對 $i=1,2,3,f(x) /in A_i$,當且僅當 $x /in f^{-1}(A_i)$,故 xA1 中且 f(x)Ai 中之集合為 $A_1 /cap f^{-1}(A_i)$,因而其條件概率為 $/mu(A_1 /cap f^{-1}(A_i) )$ $ / /mu(A_1)$。由 Shannon 熵的定義知,在 $x /in A_1$ 的條件下, f(x) 會在 A1,或 A2,或 A3 的不確度應為

 

/begin{displaymath}                H_1= - /sum_{i=1}^{3} /frac{/mu(A_1 /cap f^{-1}(A_i))}{/mu(A_1)}                /times /log{(/frac{A_1 /cap f^{-1}(A_i)}{/mu(A_1)})}                /end{displaymath}

 

類似地,在 $x /in A_2$,或 $x /in A_3$ 的條件下,試驗結果 $f^{-1}(/overline{A})=                /{ f^{-1}(A_1),f^{-1}(A_2),f^{-1}(A_3)/}$ 的不確定度應分別為

 

/begin{displaymath}                H_2= -/sum_{i=1}^{3}/frac{(A_2 /cap f^{-1}(A_i))}{/mu (A_2)}                /times /log{/frac{/mu(A_2 /cap f^{-1}(A_i))}{/mu (A_2)}}                /end{displaymath}

 


 

/begin{displaymath}                H_3=-/sum_{i=1}^{3}/frac{/mu(A_3/cap f^{-1}(A_i))}{/mu(A_3)}                /times /log{/frac{/mu(A_3 /cap f^{-1}(A_i))}{/mu (A_3)}}                /end{displaymath}

 

由推導 Shannon 熵定義的條件(ii)易知,在試驗結果 $/overline{A}=/{ A_1,A_2,A_3 /}$ 為已知的條件下,試驗結果 $f^{-1}(/overline{A})=                /{ f^{-1}(A_1),f^{-1}(A_2),f^{-1}(A_3)/}$的不確定度 $H(f^{-1}(/overline{A})/vert/overline{A})$H1,H2,H3的加權和,即

 

/begin{eqnarray*}                && H(f^{-1}(/overline{A})/vert/overline{A}) //                &=& /sum_{i=1}...                ...}(A_j))                /times /log{/frac{/mu(A_i /cap f^{-1}(A_j))}{/mu (A_i)}}                /end{eqnarray*}

 


如法炮製,對一般的有限劃分 $/overline{A}=/{ A_1,/cdots,A_m /}$ 我們可得到所謂的「劃分 $f^{-1}(/overline{A})$ 關於劃分 $/overline{A}$ 的條件 shannon 熵」,

 

/begin{eqnarray*}                && H(f^{-1}(/overline{A}/vert/overline{A})) //                &=& -/sum_{j=1...                ...(A_j))                /times /log{/frac{/mu(A_i /cap f^{-1}(A_j))}{/mu (A_i)}}                /end{eqnarray*}

 


下面,我們來給出上述 $H(f^{-1}(/overline{A})/vert/overline{A})$ 的另一等價型式以便後面推廣。

 

命題2-1:

 

/begin{displaymath}                H(f^{-1}(/overline{A})/vert/overline{A})=                H(/overline{A}/vee f^{-1}(/overline{A}))-H(/overline{A})                /end{displaymath}

 

證明:

 

/begin{eqnarray*}                && H(f^{-1}(/overline{A})/vert/overline{A}) //                &=& -/sum_{i=1...                ...mu(A_i)} //                &=& H(/overline{A} /vee f^{-1}(/overline{A}))                -H(A)                /end{eqnarray*}

 


命題2-1在直觀上看也很顯然:試驗結果 $/overline{A} /vee f^{-1}(/overline{A})$ 的不確定度 $H(/overline{A}/vee f^{-1}(/overline{A}))$應為試驗結果$/overline{A}$ 的不確定度 $H(/overline{A})$在試驗結果$/overline{A}$為已知條件下,試驗結果 $f^{-1}(/overline{A})$的不確定度 $H(f^{-1}(/overline{A})/vert/overline{A})$ 之和。

上述已知試驗結果$/overline{A}$,問試驗結果f-1(A)的不確定度,相當於已知x$/overline{A}$中的位置,我們問f(x)$/overline{A}$中的位置的不確定度。已知 $x,f(x),/cdots,f^{n-1}(x)$在分劃$/overline{A}$中的位置,問 fn(x)$/overline{A}$中的位置的不確定度,則相當於已知試驗結果 $/bigvee_{i=0}^{n-1}f^{-i}(/overline{A})$ $=/overline{A}/vee f^{-1}(/overline{A})/vee /cdots f^{-(n- 1)}(/overline{A})$ ,問試驗結果 $f^{-n}(/overline{A})$ 的不確定度。 Kolomogorov 熵基本上是在刻劃這個不確定度在當 n 趨近於無窮大時的漸近性質。

任給自然數n$/bigvee_{i=0}^{n-1}f^{-i}(/overline{A})$$f^{-n}(/overline{A})$ 都是 X 的有限劃分。在已知試驗結果, $/bigvee_{i=0}^{n-1}f^{-i}(/overline{A})$ 的條件下,試驗結果 $f^{-n}(/overline{A})$ 的不確定度,實際上是劃分 $f^{-n}(/overline{A})$ 的條件 Shannon 熵,它是

 

/begin{eqnarray*}                && H(f^{-n}(/overline{A})/vert /bigvee_{i=0}^{n-1} f^{-i}(/ove...                ...f^{-i}(/overline{A}))-H(/bigvee_{i=0}^{n-1}f^{-i}(/overline{A}))                /end{eqnarray*}

 


定義2-2:
$/overline{A}=/{ A_1,/cdots,A_m /}$X的有限劃分,則可測變換 $f:X /rightarrow X$關於$/overline{A}$ 的熵定義為

 

/begin{displaymath}                h_{/mu}(f,/overline{A})=                /lim_{n /rightarrow /infty} /mbox{s...                ...(/overline{A}) /vert /bigvee_{i=0}^{n-1} f^{-i}(/overline{A}))                /end{displaymath}

 

定義2-3:
設 (X,Σ,μ) 為一概率空間, $f:X /rightarrow X$ 為一可測變換,則 f 的 Kolomogorov 熵定義為

 

/begin{displaymath}                h_{/mu}(f)=/sup/{h_/mu(f,/overline{A}):/overline{A}                /mbox{{/...                ....1pt{/fontfamily{cwM0}/fontseries{m}/selectfont /char 125}} /}                /end{displaymath}

 

對一般的可測變換 $f:X /rightarrow X$,上述定義2-2中的上極限符號不能改為極限符號。但對遍歷理論中所研究的一類重要可測變換-保測變換 (measure preserving transformation)我們可以證明極限 $/lim_{n /rightarrow /infty}                H(f^{-n}(/overline{A})/vert/bigvee_{i=1}^{n-1} f^{-i}(/overline{A})$ 確實存在並有一另一種等價定義。該定義顯然不及前者直觀易懂,但它卻給出了計算上的許多方便。所謂保測變換是指 $f:X /rightarrow X$,任給 $A /in /Sigma$, $f^{-i}(A) /in /Sigma $ 且有

 

/begin{displaymath}                /mu(f^{-1}(A))=/mu(A)                /end{displaymath}

 

定義2-2:
$/overline{A}=/{ A_1,/cdots,A_m /}$X 的有限劃分,則保測變換 $f:X /rightarrow X$關於$/overline{A}$的熵定義為

 

/begin{displaymath}                h_{/mu}(f,/overline{A})=/lim_{n /rightarrow /infty }                /frac{1}{n} H(/bigvee_{i=0}^{n-1}f^{-i}(/overline{A}))                /end{displaymath}

 

在證明此定義合理,且與定義2-2等價之前,我們首先注意到如下的事實:若f為保測變換,則 $H(f^{-1}(/overline{A}))=H(A)$ 這由條件 $/mu(f^{-1}(A))=/mu(A)$易見。若$/overline{C}$$/overline{D}$X的兩個有限劃分,我們記 $/overline{C} /leq /overline{D}$,若 $/overline{C}$的每一元素是$/overline{D}$中某些元素之聯(Union) (即$/overline{D}$$/overline{C}$的一個細分(refinement)) 我們需要下列引理,其證明稍後給出。

 

引理2-4:
$/overline{C} /leq /overline{D}$,則 $H(/overline{A}/vert/overline{C}) /geq H(/overline{A}/vert/overline{D})$

現在可以敘述並證明我們的等價定理了。

 

定理2-5:
$f:X /rightarrow X$ 為保測變換,則對 X 的任一劃分 $/overline{A}$

 

/begin{displaymath}                /lim_{n /rightarrow /infty}                H(f^{-n}(/overline{A})/vert /big...                .../infty } /frac{1}{n}H(/bigvee_{i=0}^{n-1}f^{-i}(/overline{A}))                /end{displaymath}

 

 

證明:
n=1,則

 

/begin{eqnarray*}                &&H(f^{-1}(/overline{A})/vert/overline{A}) //                &=&H(f^{-1}(/ov...                ...(/overline{A})) //                &=&H(/overline{A}/vert f^{-1}(/overline{A}))                /end{eqnarray*}

 


n=2 時,

 

/begin{eqnarray*}                &&H(f^{-2}(/overline{A})/vert/overline{A}/vee f^{-1}(/overline...                ...verline{A} /vert f^{-2}(/overline{A}) /vee f^{-1}(/overline{A}))                /end{eqnarray*}

 


用歸納法易證,一般地有

 

/begin{displaymath}                H(f^{-n}(A)/vert /bigvee_{i=0}^{n-1} f^{-i}(/overline{A}))                =H(/overline{A}/vert /bigvee_{i=0}^{n} f^{-i} (/overline{A}))                /end{displaymath}

 

由上述引理2-4,故極限存在。從而,定義2-2中的極限實際上存在。另一方面,對 i=1,2,…,n-1,由

 

/begin{displaymath}                H(f^{-1}(/overline{A})/vert /bigvee_{i=0}^{i-1} f^{-j}(/over...                ...-j}(/overline{A}))                -H(/bigvee_{j=0}^{i-1}f^{-j}(/overline{A}))                /end{displaymath}

 

各式相加,我們有

 

/begin{eqnarray*}                &&H(/bigvee_{i=0}^{n-1} f^{-1}(/overline{A})) //                &=& H(/overl...                ...}^{n}H(/overline{A}/vert/bigvee_{j=0}^{i-1}f^{-j}(/overline{A}))                /end{eqnarray*}

 


故有

 

/begin{displaymath}/frac{1}{n}H/bigvee_{i=0}^{n-1} f^{-i}(/overline{A}))                = /frac...                ...n-1}H(/overline{A}/vert/bigvee_{i=0}^{i} f^{-j}(/overline{A}))                /end{displaymath}

 

借用初等微積分的已知結果: $/lim_{n /rightarrow /infty} a_n = L /Rightarrow                /lim_{n /rightarrow /infty} /frac{1}{n} /sum_{i=0}^{n-1} a_i =L$,我們得到

 

/begin{eqnarray*}                && /lim_{n /rightarrow /infty} /frac{1}{n}H(/bigvee_{i=0}^{n-1...                ...^{-n}(/overline{A})/vert/bigvee_{i=0}^{n-1}f^{-i}(/overline{A}))                /end{eqnarray*}

 


現在我們來證明引理2-4。

$/overline{A}=/{A_i /}$, $/overline{C}=/{C_j/}$, $/overline{D}=/{D_k/}$,我們要證

 

/begin{eqnarray*}                && -/sum_{j}/sum_{i} /mu (C_j)/frac{/mu(A_i /cap C_j)}{/mu(C_j...                ...k)}{/mu(D_k)}                /times /log{/frac{/mu(A_i /cap D_k)}{/mu(D_k)}}//                /end{eqnarray*}

 


只須證明對每一 ij

 

/begin{eqnarray*}                &&/mu(C_j)/frac{/mu(A_i /cap C_j)}{C_j}                /log{/frac{/mu(A_i /ca...                ..._i /cap D_k)}{/mu(D_k)}                /log{/frac{/mu(A_i /cap D_k)}{/mu(D_k)}}                /end{eqnarray*}

 


$/phi(x)=x/log{x}$, $/phi(0)=0$ 則上式為

 

/begin{eqnarray*}                /phi(/frac{/mu(A_i/cap C_j)}{/mu(C_j)})                /leq /sum_{k} /frac{/mu(C_j /cap D_k)}{/mu(C_j)}                /phi(/frac{/mu(A_i /cap D_k)}{/mu(D_k)})                /end{eqnarray*}

 


由於 $/phi$ 是凸函數(這由 $/phi ''(x)=/frac{1}{x}>0$ 可知) 和假設 $/overline{C} /leq /overline{D}$,易知

 

/begin{eqnarray*}                &&/sum_{k}/frac{/mu(C_j/cap D_k)}{/mu(C_j)} /phi(/frac{/mu(A_i...                ..._k)}{/mu(D_k)}) //                &=& /phi(/frac{/mu(A_i /cap C_j)}{/mu(C_j)})                /end{eqnarray*}

 


即我們證明了 $H(/overline{A}/vert/overline{C}) /geq H(/overline{A}/vert/overline{D})$

歷史上,引進 Kolmogorov 熵概念的主要動力是關於概率空間保測變換之間共軛關係的不變量的研究。設 $(X_{1},/Sigma_{1},/mu_{1})$$(X_2,/Sigma_2,/mu_2)$ 為兩個概率空間, $T_1: X_1 /rightarrow X_1$$T_2: X_2 /rightarrow X_2$ 為保測變換。我們說 T1T2 共軛 (conjugate) 是指存在一個保測同構 $/phi :$ $(X_2,/Sigma_2,/mu_2)$ $/rightarrow$ $(X_1,/Sigma_1,/mu_1)$ 使得 $/phi /circ T_2^{-1}= T_1^{-1}/circ /phi$。我們稱一個數量為共軛保測變換的「不變量 (invariance)」是指二個保測變換若是共軛,這個數量一定一樣。這個數量若不一樣,這兩個保測變換一定不共軛。共軛的保測變換具有同樣的遍歷性質。我們若能找到關於共軛保測變換的不變量,我們就可從本質上刻劃不同共軛類保測變換的特徵:Kolmogorov 熵就是這樣的一個重要的不變量。

早在1943年,人們就知道 Bernoulli 的 ( $/frac{1}{2},/frac{1}{2}$) -雙邊移位算子 (two side shift) 和 ( $/frac{1}{3},/frac{1}{3},/frac{1}{3}$)- 雙邊移位算子都具有可數個 Lebesgue 譜點,因而是譜同構的,但不知道它們是否共軛。直到1958年才由 Kolmogorov 證明了它們分別具有 $/log 2$$/log 3$ 的 Kolmogorov 熵,故非共軛。從而消除了遍歷理論這個重大懸念,並開創了一個嶄新的研究領域。我們這裡介紹的 Kolmogorov 熵的概念是由 Kolmogorov 的學生 Sinai 在1959年改進的,和 Kolmogorov 1958年給出的原始定義稍有不同。

熵 (Entropy) (第 3 頁)

李天岩

 

首頁 | 搜尋

.原載於數學傳播十三卷三期
.作者當時任教於美國密西根州立大學數學系
對外搜尋關鍵字
 
3. 拓樸熵 (Topological Entropy)

連續性是自然界的基本屬性之一。數學上連續的概念是由拓樸來刻劃的。拓樸空間 X 中由所有開集生成的 Borel 代數相當於測度空間裡的 $/sigma-$代數。拓樸空間上的連續映射相當於測度空間裡的可測變換。由此,我們可以將上節中所談的 Kolmogorov 熵在拓樸空間裡做相似性的定義,來描述連續映射的不確定性。在這過程中最大的困擾是:一般拓樸空間中,並沒有一個相似於測度空間裡的「測度」的度量。

假設 X 為一個緊緻 (compact) Hausdorff 空間, $f:X /rightarrow X$ 為一連續映射。由一般拓樸學知,存在有限開覆蓋 (finite open covering)。設 $/overline{A}=(A_1,/cdots,A_m)$,為 X 的一個有限開覆蓋,$/overline{A}$ 中能覆蓋 X 的子集族稱為 $/overline{A}$ 中的子覆蓋 (subcover)。我們稱$/overline{A}$中的子覆蓋為「極小」(minimal),如果在 $/overline{A}$ 中沒有一個比它元素少的子覆蓋。通常用 $N(/overline{A})$來代表$/overline{A}$中極小子覆蓋裡元素的個數。若把極小子覆蓋裡的每一個開集當做一個「基本事件」,大家的概率都是 $/frac{1}{N(/overline{A})}$,我們則得到一個樣本空間。它的 Shannon 熵可以很輕易的算出,是 $/log{N(/overline{A})}$。我們稱這個數目為開覆蓋 $/overline{A}$ 的熵,同時用符號 H(A) 來表示。

$/overline{A}$X 上的開覆蓋時, $f^{-1}(/overline{A})=/{ f^{-1}(A) : A /in /overline{A} /}$ 也是一個開覆蓋。若 $/{ A_1, /cdots, A_{N(/overline{A})} /}$$f^{-1}(/overline{A})$ 的一個子覆蓋,但不一定是極小。所以,

 

/begin{displaymath}                N(f^{-1}(/overline{A})) /leq N(/overline{A}) /eqno{(3-1)}                /end{displaymath}

 

$/overline{A},/overline{B}$X 上的二個開覆蓋,則 $/overline{A}/vee/overline{B}$ 代表 $/{A /cap B /vert A /in /overline{A} ,B /in /overline{B}/}$ 這個開覆蓋。若 $/{A_1,/cdots, A_n /}$ 是一個 $/overline{A}$ 的子覆蓋 $/{ B_1,/cdots,B_M/}$$/overline{B}$ 的一個子覆蓋,則 $/{A_i /cap B_j: i=1,/cdots,N, j =1 ,2,/cdots,M /}$$/overline{A}/vee/overline{B}$ 的一個子覆蓋。因此, $N(/overline{A} /vee /overline{B}) /leq N(/overline{A})N(/overline{B})$ 以及

 

/begin{displaymath}                H(/overline{A} /vee /overline{B}) /leq H(/overline{A})+H(/overline{B})                /eqno{(3-2)}                /end{displaymath}

 

我們還是用 $/bigvee_{i=0}^{n-1}f^{-i}(/overline{A})$ 來代表 $/overline{A} /vee f^{-1}(/overline{A}) /vee /cdots /vee f^{-n+1}(/overline{A})$,同時用 $N(/overline{A},f,n)$ 來表示覆蓋 $/bigvee_{i=0}^{n-1}f^{-i}(/overline{A})$ 中的極小子覆蓋元素的個數。相似於定義 2-2',我們定義:

 

定義3-1:
連續映射 f 關於有限覆蓋 $/overline{A}$ 的拓樸熵 (topolgical entropy) 定義為:

 

/begin{eqnarray*}                && h_{/mbox{top}}(f,/overline{A}) //                &/equiv& /lim_{n /righta...                ...lim_{n /rightarrow /infty} /frac{1}{n}                /log{N}(/overline{A},f,n)                /end{eqnarray*}

 


 

定義3-2:
緊緻 Hausdorff 拓樸空間 X 上的連續映射 f 的拓樸熵為

 

/begin{displaymath}                h_{/mbox{top}}(f) =/sup /{h_{/mbox{top}}(f,/overline{A}):                /o...                ...0.1pt{/fontfamily{cwM2}/fontseries{m}/selectfont /char 81}} /}                /end{displaymath}

 

要使上述關於拓樸熵的定義合理,我們必須證明定義3-1中的極限的存在。為此我們求助於下列仍然是初等微積分的結果。

 

引理3-3:
設實數序列 $/{ a_n/}_{n /geq 1}$ 滿足條件 $a_{n+p} /leq a_n +a_p$$/forall n,p$,則 $/lim_{n /rightarrow /infty} /frac{a_n}{n}$ 存在且等於 $/inf_{n} /frac{a_n}{n}$

 

證明:
固定p > 0,每個n>0可寫成n=kp+i,其中$0 /leq i < q$,則

 

/begin{displaymath}                /frac{a_n}{n}=/frac{a_{i+kp}}{i+kp} /leq /frac{a_i}{kp} + /f...                ... /frac{a_i}{kp} + /frac{ka_p}{kp}=/frac{a_i}{kp}+/frac{a_p}{p}                /end{displaymath}

 

$n/rightarrow /infty $$k /rightarrow /infty$,故有

 

/begin{displaymath}                /lim_{n /rightarrow /infty} /mbox{sup} /frac{a_n}{n} /leq                /frac{a_p}{p}                /end{displaymath}

 

因此, $/lim_{n /rightarrow /infty} /mbox{sup} /frac{a_n}{n}$ $< /mbox{inf}_p /frac{a_p}{p}$ 另一方面,從不等式

 

/begin{displaymath}                /mbox{inf}_p /frac{a_p}{p} /leq /lim_{n /rightarrow /infty}                /mbox{inf}_p /frac{a_n}{n}                /end{displaymath}

 

可知,極限 $/lim_{n /rightarrow /infty} /frac{a_n}{n}$存在且等於 $/mbox{inf}_n /frac{a_n}{n}$ 可知,極限 $/lim_{n /rightarrow /infty} /frac{a_n}{n}$存在且等於 $/mbox{inf}_n /frac{a_n}{n}$

 

定理3-4:
X 為緊緻 Hausdorff 空間, $f:X /rightarrow X$ 連續。任給 X 的有限開覆蓋 $/overline{A}$,極限

 

/begin{displaymath}                /lim_{n/rightarrow /infty} /frac{1}{n} /log{N(/overline{A},f...                ...us0.1pt{/fontfamily{cwM0}/fontseries{m}/selectfont /char 202}}                /end{displaymath}

 

 

證明:
由定義知, $/log{N(/overline{A},f,n)}=                H(/bigvee_{i=0}^{n-1} f^{-i}(/overline{A}))$,我們令其為 an。由(3-1),(3-2)可知

 

/begin{eqnarray*}                a_{n+p} &=& H(/bigvee_{i=0}^{n+p-1} f^{-i}(/overline{A}))//                &...                ...(f^{-n}(/bigvee_{i=0}^{p-1} f^{-i}(/overline{A}))//                &=& a_n+a_p                /end{eqnarray*}

 


定理由結論恰由引理3-3推導。

拓樸嫡是由 R. Adler, A. Konhein 及 M. McAndrew 在1965年引進的,它是為了研究關於拓樸共軛不變量應運而生的。拓樸共軛的定義可如下給出。

 

定義3-5:
$T:X /rightarrow X$$S:Y /rightarrow Y$ 分別為緊緻拓樸空間 XY 上的連續映射。若存在同胚 (homeomorphism) $ /phi:X /rightarrow Y$ 使得 $/phi /circ T = S /circ /phi$,則稱拓樸共軛 (topologically conjugate) 於 S。這時,$/phi$ 就稱為一個共軛。

我們可以證明,拓樸熵是拓樸共軛性的一個不變量。也就是說,兩個拓樸共軛的連續映射有相同的拓樸熵,反之亦然。事實上兩個拓樸共軛的連續映射在本質上給出相同的遍歷性質,因此,拓樸熵數學地刻劃了不同共軛類的拓樸動力系統 (Topological dynamical system) 的性質。

我們已知拓樸空間 X 加上其全體開集張成的 Borel $/sigma-$代數 β 構成一個可測空間。$(X,/beta)$,而 β 上給定的任何一個概率測度 μ 就構成一個概率測度空間 $(X,/beta,/mu)$X 上的任一連續映射 f 同時也為 $(X,/beta,/mu)$ 上的可測變換,因而就有一個 Kolmogorov 熵隨之確定。另一方面,Borel 代數 β 上存在著眾多不同的概率測度,這樣就有了對應於不同概率測度的 Kolmogorov 熵組成的數集。然而,作為連續映射 f 的拓樸熵之定義與測度無關,它是唯一確定的。我們自然發出疑問:這兩種熵有何內在聯繫?既然拓樸嫡概念是由 Kolmogorov 熵概念衍生而來,我們有信心認為它們的確存在著情同手足的關係。這方面的結果多采多姿。比如說,

 

定理3-8:
f 為緊緻拓樸空間 X 上的連續映射,則

 

/begin{displaymath}                h_{/mbox{top}}(f)=/mbox{sup}/{h_{/mu}(f):                /mbox{{/fontfamil...                ...0.1pt{/fontfamily{cwM6}/fontseries{m}/selectfont /char 118}}/}                /end{displaymath}

 

本節拓樸熵中,空間為緊緻的假設並非必要。 70年代初 Dinaburg 和 Bowen 分別給出了拓樸熵的等價定義。這些定義的優越性在於它們引導了一系列關於拓樸熵和測度熵(Kolmogorov 熵) 之間聯繫結果的證明。Bowen 的定義是對更廣泛的距離空間上一致連續映射族而言的。且導致了 n-環面上自同構拓樸熵公式的幾何證明。可惜,這位在遍歷理論研究中做出突出成就的數學家剛過而立之年就與世長辭了。

熵 (Entropy) (第 4 頁)

李天岩

 

首頁 | 搜尋

.原載於數學傳播十三卷三期
.作者當時任教於美國密西根州立大學數學系
對外搜尋關鍵字
 
4. Boltzmann 熵

熱力學中熵是一個極其重要的概念,最初由 Clausius 引進。後來 L. Boltzmann 在他發表在1866年關於氣體動力學理論的開創性工作中給出了熵的另一形式。這個熵在物理、化學的若干領域裡自始至終扮演著關鍵性的角色。可是 Boltzmann 熵和我們先前定義的 Kolmogorov 熵或拓樸熵並非一致。儘管如此,它們在數學的背景下,仍存在著千絲萬縷的聯繫。在這最後一節,我們將遨遊於 Boltzmann 熵的數學描述。

$(X,p_1,/cdots,p_n)$ 為一有限樣本空間,則其 Shannon 熵為 $H(p_1,/cdots,p_n)=-/sum_{i=1}^{n}p_i /log{p_i}$ ,現設 $(X,/Sigma,/mu)$ 為一測度空間。記 L'(X) 為定義在 X 上的 Lebesgue 可積函數全體。 L'(X) 中滿足等式

 

/begin{displaymath}                /int_{x} f(x)d /mu =1                /end{displaymath}

 

的非負函數了 f(x) 稱為密度函數,其集合記為 D。易見等式

 

/begin{displaymath}                /mu_f(A)=/int_{A}f(x)d/mu /quad A/in /Sigma                /end{displaymath}

 

定義了 $(X,/Sigma)$ 上的一個概率測度,其對應的密度就是 f(x)。概率空間 $(X,/Sigma,/mu_f)$ 可看成是無窮樣本空間。由 Shannon 熵的啟迪,我們可以如下定義 f 的 Boltzmann 熵。為此,令函數 $/eta(/mu)$ 定義為

 

/begin{displaymath}                /eta(/mu)=/left/{                /begin{array}{cc}                -u/log{u} & u>0 //                0 & u=0//                /end{array}/right.                /end{displaymath}

 

$/eta(u)$ 的圖像由圖4-1表示。



圖4-1

定義4-1:
$f/in D$$/eta(f)/in L'(X)$f 的 Boltzamann 熵定義為

 

/begin{displaymath}                H(f)=/int_{x} /eta(f(x)) d /mu                =-/int_{x} f(x) /log{f(x)}d /mu                /end{displaymath}

 

$/eta(u)$ 定義知, $/eta '(/mu)=-(/log{u}+1)$$/eta ''(u) = -/frac{1}{u} <0$。因而η是$[0,/infty)$上的嚴格遞增凹函數,由Taylor展式,任給$u,v /geq 0$

$/displaystyle /eta(u)$ = $/displaystyle /eta(v)+/eta '(v)(u-v)+ /frac{/eta ''(/xi)}{2!}(u-v)^2$ (1)   < $/displaystyle /eta(v) + /eta '(v)(u-v)$ (2)

 

即,

 

/begin{displaymath}                -u/log{u} /leq -v /log{v}-(/log{v}+1)(u-v)                /end{displaymath}

 

簡化之,我們便有有名的 Gibbs 不等式,

 

/begin{displaymath}                u-u /log{u} /leq v- u/log{v}                /end{displaymath}

 

任給函數 $f,g /in D$,由 Gibbs 不等式和積分的單調性,

 

/begin{displaymath}                /int_{X} (f(x)-f(x)/log{f(x)}) d/mu                /leq /int_{X} (g(x)-f(x) /log{g(x)}d /mu                /end{displaymath}

 

由於 $/int_{x}f(x)d/mu =/int_{x} g(x) d /mu =1$,我們有如下重要的積分不等式: $/forall f,g /in D$

 

/begin{displaymath}-/int_{X} f(x) /log{f(x)}d/mu                /leq /int_{X} f(x) /log{g(x)}d/mu /eqno{(4-1)}                /end{displaymath}

 

在有限的樣本空間 (X,p1,…,pn) 中,Shannon 熵在 p1=p2==pn=n 時為最大,Boltzmann 熵在概率測度空間裡也有類似的性質。

 

命題4-2:
$/mu(X) < + /infty$,則密度函數 $f_0(x)/equiv /frac{1}{/mu(X)}$ 滿足

 

/begin{displaymath}                H(f_0)= /log{/mu (X)} = /mbox{max}/{ H(f): f /in D/}                /end{displaymath}

 

證明:
首先易見 $f_0 /in D$。其次,任給 $f/in D$,由不等式(4-1)

 

/begin{eqnarray*}                H(f)&=& -/int_{X} f(x) /log{f(x)} d/mu //                &/leq& -/int_{X} f...                ...& /log{/mu(X)} /int_{X} f(x) d/mu //                &=& /log{/mu(X)} = H(f_0)                /end{eqnarray*}

 


為了描述一些與Boltzmann熵有關的條件極值問題。我們引進一些概率論常用的術語。設X為一個隨機變量(Random Variable) ,即X為某一固定樣本空間上的可測實函數。 f(x)為這個測度空間的密度函數,則

 

/begin{displaymath}                /mbox{E}(X)=/int_{/infty}^{/infty} xf(x)dx                /end{displaymath}

 

稱為 X 的期望值 (Expected Value 或 Expectation)。而數

 

/begin{displaymath}                /mbox{Var}(X)=/int_{-/infty}^{/infty} (x-/mbox{E}(X))^2f(x)dx                /end{displaymath}

 

則稱為 X 的變異數 (variance)。期望值是關於於隨機變量 X 平均值的一個度量,變異數則表示隨機變量偏離其平均值的程度。下列性質,可以輕易的被驗證:

 

(i) $/mbox{E}(aX+bY)=a/mbox{E}(X)+b/mbox{E}(Y)$
(ii) $/mbox{Var}(cX)=c^2 /mbox{Var}(X)$
(iii) $/mbox{Var}(X)=/mbox{E}(X^2)-/mbox{E}(X)^2$
(iv) 若 XY「獨立(independent)」則 $/mbox{Var}(X+Y)=/mbox{Var}(X)+/mbox{Var}(Y)$

設有一列獨立隨機變量 $/{X_{k}/}_{k /geq 1}$$/mbox{E}(X_k)=m_k$$/mbox{Var}(X_k-m_k)=/sigma_k^2$,令

 

/begin{displaymath}                S_n=/sum_{k=1}^{n}(X_k-m_k)                /end{displaymath}

 

則,

 

/begin{eqnarray*}                /mbox{Var}(S_n)&=&/mbox{Var}(/sum_{k=1}^{n}(X_k-m_k)) //                &=& /sum_{k=1}^{n} /mbox{Var}(X_k-m_k)= /sum_{k=1}^{n} /sigma_k^2                /end{eqnarray*}

 


我們標準化 Sn,即令

 

/begin{displaymath}                T_n = /frac{S_n}{/sqrt{/mbox{Var}(S_n)}}                /end{displaymath}

 

$E(T_n)=0,/mbox{Var}(T_n)=1$

概率理論中有個非常重要的基本定理:中央極限定理 (central limit theorem)。它大概的意思是說,在漸近狀態下,通常隨機變量 Tn 的概率分佈 (Probability distribution) 是遵循 Gauss 分佈規律的,也就是說,

 

/begin{displaymath}                /lim_{n /rightarrow /infty } P(a /leq T_n /leq b) =                /frac{1}{/sqrt{2/pi}} /int_{a}^{b} e^{-/frac{u^2}{2}} du                /end{displaymath}

 

其中 P 為樣本空間的概率分佈。

但是,為什麼大家都遵循的是 Gauss 分佈規律,而不是其他的分佈規律呢?事實上,這和熱力學第二定律有異曲同工之妙。熱力學第二定律大致上說,自然界的規律是,一切動態系統都是在向「熵」高的方向發展。從這個角度來看,在 $/mbox{E}(T_n)=0$, $/mbox{Var}(T_n)=1$ 的條件下, Gauss 分佈的確有最大的 Boltzmann 熵,我們用下面的命題,對這點略加說明。

$/overline{D}=/{ f /in D : /int_{-/infty}^{/infty} xf(x) dx =0                ,/int_{-/infty}^{/infty} x^2 f(x)dx =1 /}$

 

命題4-3
$f_0(x) = /frac{1}{/sqrt{2/pi}} e^{-/frac{x^2}{2}}$,則 $f/in D$

 

/begin{displaymath}                H(f_0)= /mbox{max} /{ H(f): f /in /overline{D}/}= /log{/sqrt{2 /pi}}                +/frac{1}{2}                /end{displaymath}

 

 

證明:
由公式 $/int_{-/infty}^{/infty} e^{-x^2} dx = /sqrt{/pi}$ ,易知 $/int_{-/infty}^{/infty} f_0(x)dx                = /frac{1}{/sqrt{2/pi}} /int_{-/infty}^{/infty} e^{-/frac{x^2}{2}} dx =1$$f_0 /in D$,又由部分積分法易證

 

/begin{displaymath}                /int_{-/infty}^{/infty} x f_0(x)dx =0                /end{displaymath}

 

以及

 

/begin{displaymath}                /int_{-/infty}^{/infty} x^2f_0(x) dx =1                /end{displaymath}

 

$f_0(x) /in /overline{D}$,由不等式(4-1)

 

/begin{eqnarray*}                H(f) &= & /int_{-/infty}^{/infty} f(x) /log{f(x)}dx//                &/leq&...                ...sqrt{2/pi}} ]dx //                &=& /log{(/sqrt{2/pi})}+/frac{1}{2} = H(f_0)                /end{eqnarray*}

 


類似地,記 $/overline{/overline{D}}=/{f /in D,                /int_{0}^{/infty} xf(x) = /frac{1}{/lambda} /}$ 比照上述證明,我們有

 

命題4-4:
$f_0(x)=/lambda e^{- /lambda x}$,則 $f_0 /in /overline{/overline{D}}$,且

 

/begin{displaymath}                H(f_0) =/mbox{max}/{ H(f): f /in /overline{/overline{D}} /}                =1 -/log{/lambda}                /end{displaymath}

 

上述兩命題,可推廣到下述一般情形。設 $g/in L^{/infty}$,給定約束

 

/begin{displaymath}                /int_{x} g(x)f(x)dx = /overline{g}                /end{displaymath}

 

H(f)在此約束下,最大值的密度函數應為

 

/begin{displaymath}                f_0(x) = /frac{e^{- rg(x)} }{/int_X e^{-rg(x)}dx}                /end{displaymath}

 

其中r為一常數。同樣,若有兩個約束

 

/begin{displaymath}                /int_{X} g_1(x)f(x)dx = /overline{g_1}                /end{displaymath}

 


 

/begin{displaymath}                /int_{X} g_2(x)f(x)dx = /overline{g_2}                /end{displaymath}

 

則密度函數

 

/begin{displaymath}                f(x)= /frac{e^{-(r_1g_2(x)+r_2g_2(x))}}                {/int_X e^{-(r_1g_2(x)+r_2g_2(x))} dx }                /end{displaymath}

 

給出了H(f)在這兩個約束下的最大值H(f0),其中r1,r2為兩常數。更一般地,我們有

 

命題4-4:
$(X,/Sigma,/mu)$ 為一測度空間,非負函數 $g_1,/cdots,g_m /in L^{/infty}(X)$ 及正常數 r1,…,rm 滿足條件

 

/begin{displaymath}                /frac{/int_{X} g_i(x) /prod_{i=1}^{m} e^{-r_jg_j(x)} d /mu}                ...                ...{m} e^{-r_jg_j(x)} d /mu }                =/overline{g_i}                ,/quad i=1./cdots,m                /end{displaymath}

 

H(f) 在約束

 

/begin{displaymath}                /int_{X} g_i(x)f(x) dx = /overline{g}_i,/quad i=1,/cdots,m                /end{displaymath}

 

下最大密度值函數為

 

/begin{displaymath}                f_0(x)=                /frac{/prod_{i=1}^{m} e^{-r_i}{g_i(x)}}                {/int_{X} /prod_{i=1}^{m} e^{-r_ig_i(x)} d /mu }                /end{displaymath}

 

 

證明:
為簡單起見,令 $z= /int_X /prod_{i=1}^{m}e^{-r_ig_i(x)} d /mu $,則 $f_0(x)= z^{-1} /prod_{i=1}^{m} e^{-r_i}{g_i(x)}$。不難算出

 

/begin{displaymath}                H(f_0)= /log{z}+ /sum_{i=1}^{m} r_i /overline{g}_i                /end{displaymath}

 

任給密度函數 f 滿足上述約束條件,由不等式(4-1)知,

 

/begin{eqnarray*}                H(f)                &/leq& -/int_X f(x) /log{[z^{-1} /prod_{i=1}^{m} e^{-r_ig...                ...] d/mu //                &=& /log{z} + /sum_{i=1}^{m} r_i/overline{g}_i=H(f_0)                /end{eqnarray*}

 


特別,當 m=1 時,若 g(x) 看成是系統的能量時, f0(x)= z-1 e-rg(x) 恰好就是 Gibbs 典型分怖函數,且 $z=/int_X e^{-rg(x)d/mu}$ 為其分析函數,而對應的最大熵 $H(f_0)=/log{z}+r/overline{g}$ 恰好就是眾所周知的熱力學熵。