版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

[科普中國]-最大熵原理

科學(xué)百科
原創(chuàng)
科學(xué)百科為用戶提供權(quán)威科普內(nèi)容,打造知識科普陣地
收藏

最大熵原理是一種選擇隨機(jī)變量統(tǒng)計(jì)特性最符合客觀情況的準(zhǔn)則,也稱為最大信息原理。隨機(jī)量的概率分布是很難測定的,一般只能測得其各種均值(如數(shù)學(xué)期望、方差等)或已知某些限定條件下的值(如峰值、取值個數(shù)等),符合測得這些值的分布可有多種、以至無窮多種,通常,其中有一種分布的熵最大。選用這種具有最大熵的分布作為該隨機(jī)變量的分布,是一種有效的處理方法和準(zhǔn)則。這種方法雖有一定的主觀性,但可以認(rèn)為是最符合客觀情況的一種選擇。在投資時常常講不要把所有的雞蛋放在一個籃子里,這樣可以降低風(fēng)險(xiǎn)。在信息處理中,這個原理同樣適用。在數(shù)學(xué)上,這個原理稱為最大熵原理。

歷史背景最大熵原理是在1957 年由E.T.Jaynes 提出的,其主要思想是,在只掌握關(guān)于未知分布的部分知識時,應(yīng)該選取符合這些知識但熵值最大的概率分布。因?yàn)樵谶@種情況下,符合已知知識的概率分布可能不止一個。我們知道,熵定義的實(shí)際上是一個隨機(jī)變量的不確定性,熵最大的時候,說明隨機(jī)變量最不確定,換句話說,也就是隨機(jī)變量最隨機(jī),對其行為做準(zhǔn)確預(yù)測最困難。

從這個意義上講,那么最大熵原理的實(shí)質(zhì)就是,在已知部分知識的前提下,關(guān)于未知分布最合理的推斷就是符合已知知識最不確定或最隨機(jī)的推斷,這是我們可以作出的不偏不倚的選擇,任何其它的選擇都意味著我們增加了其它的約束和假設(shè),這些約束和假設(shè)根據(jù)我們掌握的信息無法作出。

可查看《淺談最大熵原理和統(tǒng)計(jì)物理學(xué)》

——曾致遠(yuǎn)(Richard Chih-Yuan Tseng)

研究領(lǐng)域主要為古典信息論,量子信息論及理論統(tǒng)計(jì)熱物理學(xué),臨界現(xiàn)象及非平衡熱力學(xué)等物理現(xiàn)象理論研究古典信息論在統(tǒng)計(jì)物理學(xué)中之意義及應(yīng)用1。

發(fā)展過程早期的信息論其中心任務(wù)就是從理論上認(rèn)識一個通信的設(shè)備(手段)的通信能力應(yīng)當(dāng)如何去計(jì)量以及分析該通信能力的規(guī)律性。但是信息論研究很快就發(fā)現(xiàn)利用信息熵最大再附加上一些約束,就可以得到例如著名的統(tǒng)計(jì)學(xué)中的高斯分布(即正態(tài)分布)。這件事提示我們高斯分布又多了一種論證的方法,也提示了把信息熵最大化是認(rèn)識客觀事物的規(guī)律性的新角度。

把熵最大(對應(yīng)我們的復(fù)雜程度最大)做為一種原則或者方法應(yīng)用于各個科技領(lǐng)域的旗手是杰尼斯E.T.Jaynes 。他從1957年就在這個方向做了開創(chuàng)性的工作。他給出了利用最大熵方法定量求解問題的一般技術(shù)途徑;論證了統(tǒng)計(jì)力學(xué)中的一些著名的分布函數(shù)從信息熵最大的角度也可以得到證明。這不僅使信息論知識與統(tǒng)計(jì)物理知識實(shí)現(xiàn)了連通,也使熵概念和熵原理走出了熱力學(xué)的領(lǐng)域。

20世紀(jì)60年代Burg在時間序列的分析中提出了用信息熵最大求頻譜的技術(shù)。用這種方法得到的譜的準(zhǔn)確性比過去的方法好,人們把它稱為最大熵譜。80年代這個方法在我國也得到了廣泛應(yīng)用。40多年以來,盡管“利用最大熵的方法解決科技問題”在信息論的理論中不是主流,但是利用信息熵最大幫助解決很多科技問題已經(jīng)形成了獨(dú)立的一股學(xué)術(shù)和技術(shù)力量,而且是碩果累累了。80年代以來在美國等地每年都召開一次討論最大熵方法應(yīng)用的學(xué)術(shù)會議,并且有一冊會議文集出版。這成為他們的重要學(xué)術(shù)活動形式。2

特點(diǎn)最大熵方法的特點(diǎn)是在研究的問題中,盡量把問題與信息熵聯(lián)系起來,再把信息熵最大做為一個有益的假設(shè)(原理),用于所研究的問題中。由于這個方法得到的結(jié)果或者公式往往(更)符合實(shí)際,它就推動這個知識在前進(jìn)和曼延。我國學(xué)者(后來去了加拿大)吳乃龍、袁素云在本領(lǐng)域有成就,而且也在所著的《最大熵方法》(湖南科學(xué)技術(shù)出版社1991年出版)一書中向國人就這個方法做了很全面的介紹。

把最復(fù)雜原理與信息論中的最大熵方法聯(lián)系起來,既是自然的邏輯推論也顯示最復(fù)雜原理并不孤立。這樣,最大熵方法過去取得的一切成就都在幫助人們理解最復(fù)雜原理的合理性。而最復(fù)雜原理的引入也使人們擺脫對神秘的熵概念和熵原理的敬畏。在理解了最復(fù)雜原理來源于概率公理以后,我們終于明白,神秘的熵原理本質(zhì)上僅是“高概率的事物容易出現(xiàn)”這個再樸素不過的公理的一個推論。

發(fā)展?fàn)顩r前段時間,Google 中國研究院的劉駿總監(jiān)談到在網(wǎng)絡(luò)搜索排名中,用到的信息有上百種。更普遍地講,在自然語言處理中,我們常常知道各種各樣的但是又不完全確定的信息,我們需要用一個統(tǒng)一的模型將這些信息綜合起來。如何綜合得好,是一門很大的學(xué)問。

讓我們看一個拼音轉(zhuǎn)漢字的簡單的例子。假如輸入的拼音是"wang-xiao-bo",利用語言模型,根據(jù)有限的上下文(比如前兩個詞),我們能給出兩個最常見的名字“王小波”和“王曉波”。至于要確定是哪個名字就難了,即使利用較長的上下文也做不到。當(dāng)然,我們知道如果通篇文章是介紹文學(xué)的,作家王小波的可能性就較大;而在討論兩岸關(guān)系時,臺灣學(xué)者王曉波的可能性會較大。在上面的例子中,我們只需要綜合兩類不同的信息,即主題信息和上下文信息。雖然有不少湊合的辦法,比如:分成成千上萬種的不同的主題單獨(dú)處理,或者對每種信息的作用加權(quán)平均等等,但都不能準(zhǔn)確而圓滿地解決問題,這樣好比以前我們談到的行星運(yùn)動模型中的小圓套大圓打補(bǔ)丁的方法。在很多應(yīng)用中,我們需要綜合幾十甚至上百種不同的信息,這種小圓套大圓的方法顯然行不通。1

相關(guān)模型最漂亮的辦法是最大熵(maximum entropy)模型,它相當(dāng)于行星運(yùn)動的橢圓模型?!白畲箪亍边@個名詞聽起來很深奧,但是它的原理很簡單,我們每天都在用。說白了,就是要保留全部的不確定性,將風(fēng)險(xiǎn)降到最小。讓我們來看一個實(shí)際例子。

有一次,我去 AT&T 實(shí)驗(yàn)室作關(guān)于最大熵模型的報(bào)告,我?guī)チ艘粋€色子。我問聽眾“每個面朝上的概率分別是多少”,所有人都說是等概率,即各點(diǎn)的概率均為1/6。這種猜測當(dāng)然是對的。我問聽眾們?yōu)槭裁矗玫降幕卮鹗且恢碌模簩@個“一無所知”的色子,假定它每一個朝上概率均等是最安全的做法。(你不應(yīng)該主觀假設(shè)它象韋小寶的色子一樣灌了鉛。)從投資的角度看,就是風(fēng)險(xiǎn)最小的做法。從信息論的角度講,就是保留了最大的不確定性,也就是說讓熵達(dá)到最大。接著,我又告訴聽眾,我的這個色子被我特殊處理過,已知四點(diǎn)朝上的概率是三分之一,在這種情況下,每個面朝上的概率是多少?這次,大部分人認(rèn)為除去四點(diǎn)的概率是 1/3,其余的均是 2/15,也就是說已知的條件(四點(diǎn)概率為 1/3)必須滿足,而對其余各點(diǎn)的概率因?yàn)槿匀粺o從知道,因此只好認(rèn)為它們均等。注意,在猜測這兩種不同情況下的概率分布時,大家都沒有添加任何主觀的假設(shè),諸如四點(diǎn)的反面一定是三點(diǎn)等等。(事實(shí)上,有的色子四點(diǎn)反面不是三點(diǎn)而是一點(diǎn)。)這種基于直覺的猜測之所以準(zhǔn)確,是因?yàn)樗『梅狭俗畲箪卦怼?/p>

最大熵原理指出,當(dāng)我們需要對一個隨機(jī)事件的概率分布進(jìn)行預(yù)測時,我們的預(yù)測應(yīng)當(dāng)滿足全部已知的條件,而對未知的情況不要做任何主觀假設(shè)。(不做主觀假設(shè)這點(diǎn)很重要。)在這種情況下,概率分布最均勻,預(yù)測的風(fēng)險(xiǎn)最小。因?yàn)檫@時概率分布的信息熵最大,所以人們稱這種模型叫“最大熵模型”。我們常說,不要把所有的雞蛋放在一個籃子里,其實(shí)就是最大熵原理的一個樸素的說法,因?yàn)楫?dāng)我們遇到不確定性時,就要保留各種可能性。

回到我們剛才談到的拼音轉(zhuǎn)漢字的例子,我們已知兩種信息,第一,根據(jù)語言模型,wang-xiao-bo 可以被轉(zhuǎn)換成王曉波和王小波;第二,根據(jù)主題,王小波是作家,《黃金時代》的作者等等,而王曉波是臺灣研究兩岸關(guān)系的學(xué)者。因此,我們就可以建立一個最大熵模型,同時滿足這兩種信息。匈牙利著名數(shù)學(xué)家、信息論最高獎香農(nóng)獎得主希薩(Csiszar)證明,對任何一組不自相矛盾的信息,這個最大熵模型不僅存在,而且它們都有同一個非常簡單的形式 --指數(shù)函數(shù)。

理論方法離散情形這是一個約束極值問題,通過Lagrange乘數(shù)法可以求得其最優(yōu)解,從熵作為系統(tǒng)不確定性的度量的角度來看,等可能系統(tǒng)的不確定性是最大的,這一結(jié)果與我們的直觀是一致的。更進(jìn)一步,許多問題都附帶一些實(shí)際的限制,也可以理解為在解決問題之前,我們可以獲得一些已知信息。由此,(1)可以深化為

為各階統(tǒng)計(jì)矩函數(shù),,表示實(shí)際觀測到的各階統(tǒng)計(jì)矩的期望值。這里由于為一正常數(shù),為簡便記,取。同(1),仍然可以利用Lagrange乘數(shù)法來求解。做Lagrange函數(shù):

解出最優(yōu)解。但當(dāng)較大時,往往計(jì)算困難。姜昱汐提出了一個解決此問題的方法[5]。利用對偶規(guī)劃理論,可得問題(2)的求解相當(dāng)于求解:

其中,(3)是凸規(guī)劃(2)的對偶規(guī)劃,優(yōu)勢在于(3)是一個變量個數(shù)較(2)少的無約束規(guī)劃,可以直接利用軟件求解。

連續(xù)情形對于連續(xù)系統(tǒng),記為一連續(xù)隨機(jī)變量,概率密度函數(shù)為。此系統(tǒng)的熵定義為[6]。在一些條件的約束下,使得系統(tǒng)熵最大的問題一般有下面形式:

其中為一些約束,右端為觀測值。這是一個有

個約束的泛函極值問題。關(guān)于這一問題有如下定理。

定理2.1[7]若在條件約束下目標(biāo)泛

使得滿足泛函,所給出的歐拉方程組

由此方程組可解出目標(biāo)。

應(yīng)用實(shí)例例1:為一隨機(jī)變量,利用最大熵原理來估計(jì) 。

解:系統(tǒng)的熵值

約束條件為

構(gòu)造Lagrange函數(shù)

求解6元方程組(將作為變量)

沒有約束條件時的最大熵分布為

此時的熵為。由于約束條件提供了更多的信息,減小了系統(tǒng)的不確定性。

例:2:

解:由定理2.1,作泛函其歐拉方程為

解得:

將這一結(jié)果回代入兩個約束條件當(dāng)中,可解得使目標(biāo)泛函達(dá)到極值的概率密度

這是正態(tài)分布的概率密度。

得泛函 取極值的概率密度 應(yīng)滿足

對應(yīng)此式的輔助泛函

可解得:

可回代上式入約束條件解出。

連續(xù)熵的極大問題比較復(fù)雜,約束條件多種多樣整形約束、微分約束、等周約束等等??赡苡行﹩栴}還會附加一些邊界條件,上面的例子只是一些基本算例。對于復(fù)雜問題,在誤差允許范圍內(nèi)進(jìn)行數(shù)值計(jì)算也是解決問題的一個途徑。3

本詞條內(nèi)容貢獻(xiàn)者為:

胡啟洲 - 副教授 - 南京理工大學(xué)