版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

AIGC大模型可解釋性理論基礎(chǔ)-貝葉斯重整化?

中啟行
企業(yè)致力于科技新聞媒體及科普教育傳播
收藏

AIGC大模型可解釋性理論基礎(chǔ)-貝葉斯重整化?

摘 要

在這篇文章中,我們提出了一種受貝葉斯統(tǒng)計(jì)推斷啟發(fā)的完全信息理論的重整化方法,我們稱之為貝葉斯重整化。貝葉斯重整化的主要觀點(diǎn)是,F(xiàn)isher度量定義了一個(gè)相關(guān)長度,它起到了一個(gè)突現(xiàn)的RG(重整化群)尺度的作用,量化了概率分布空間中鄰近點(diǎn)之間的可區(qū)分性。這個(gè)RG尺度可以被解釋為在統(tǒng)計(jì)推斷實(shí)驗(yàn)中可以對(duì)給定系統(tǒng)進(jìn)行的唯一觀測(cè)的最大數(shù)量的代理。貝葉斯重整化方案的作用是隨后為給定系統(tǒng)準(zhǔn)備一個(gè)有效的模型,其精度由上述尺度限定。在貝葉斯重整化對(duì)物理系統(tǒng)的應(yīng)用中,突現(xiàn)的信息理論尺度自然與當(dāng)前實(shí)驗(yàn)設(shè)備可以探測(cè)到的最大能量相一致,因此貝葉斯重整化與普通重整化是一致的。然而,貝葉斯重整化具有足夠的通用性,即使在沒有直接物理尺度的情況下也能應(yīng)用,從而為數(shù)據(jù)科學(xué)環(huán)境中的重整化提供了一種理想的方法。為此,我們提供了關(guān)于貝葉斯重整化方案如何與現(xiàn)有的數(shù)據(jù)壓縮和數(shù)據(jù)生成方法(如信息瓶頸和擴(kuò)散學(xué)習(xí)范式)相關(guān)的見解。

介紹

在[1]中提出了一個(gè)問題:當(dāng)我們獲得更多的數(shù)據(jù)時(shí),我們對(duì)系統(tǒng)的理解是如何提高的? 自然語言表述這個(gè)問題是通過統(tǒng)計(jì)推斷。從統(tǒng)計(jì)推理的角度來看,我們對(duì)系統(tǒng)的理解是編碼在我們針對(duì)系統(tǒng)如何工作的貌似合理解釋的概率中。這些解釋被形式化為根據(jù)各種參數(shù)界定的可觀察數(shù)據(jù)的概率模型。分配給這些模型中的每個(gè)模型的概率隨后被編碼到一個(gè)稱為貝葉斯后驗(yàn)分布的對(duì)象中,該對(duì)象可以被認(rèn)為是可觀測(cè)數(shù)據(jù)所有可能概率分布的概率分布。就這些概念而言,我們通過推導(dǎo)出一個(gè)顯式方程,將后驗(yàn)分布的演變作為收集數(shù)據(jù)量的函數(shù),成功地表述了上述問題的答案。我們將這個(gè)方程以及更廣泛地使用貝葉斯推理動(dòng)態(tài)更新一個(gè)人的信念的想法,稱為動(dòng)態(tài)貝葉斯推理(Dynamic Bayesian Inference,或Dynamical Bayes,DB)。DB的一個(gè)核心觀察是,隨著新數(shù)據(jù)的收集,“當(dāng)前”最可能的模型流經(jīng)“可能模型”的空間,流向真正負(fù)責(zé)生成觀測(cè)數(shù)據(jù)的概率分布。

“學(xué)習(xí)”在模型空間中引發(fā)流動(dòng)的想法立即喚起了一種不同類型的“元”理論:重整化群(RG)。RG是一組廣泛關(guān)注形式化尺度在我們對(duì)物理理論的理解和表述中的作用的思想和策略。在最初的形式中,正如Kadanoff 和Wilson[2-4]所設(shè)想的那樣,重整化群包括一個(gè)由大量自由度描述的系統(tǒng),并執(zhí)行粗粒度操作,其中自由度子集被組合在一起平均,以形成新的集體變量。在物理應(yīng)用中,粗粒化鄰域是基于與局部性相關(guān)的考慮來確定的——也就是說,在物理空間中鄰近的自由度被連接在一起。出于這個(gè)原因,重整化群將描述系統(tǒng)任意小尺度行為的理論,轉(zhuǎn)變成為一個(gè)新理論,該理論僅描述受典型粗粒度鄰域大小約束的距離尺度上的行為。出于我們的目的,我們將對(duì)一種相對(duì)現(xiàn)代的重整化形式感興趣,它通常被稱為精確重整化群(ERG:Exact Renormalization Group)[5-14]。ERG試圖以一種更嚴(yán)格的數(shù)學(xué)方式形式化重整化的思想,將ERG流表述為由(泛函)微分方程控制的單參數(shù)理論族。

將物理理論視為構(gòu)成系統(tǒng)的任何可觀察自由度的概率分布,因此RG 粗粒度方案的效果是在可能的理論空間中誘導(dǎo)流動(dòng)-就像在DB中一樣。然而,與通過模型空間流向數(shù)據(jù)生成模型的學(xué)習(xí)情況相反,RG流從數(shù)據(jù)生成模型(UV完整理論,注:在物理學(xué)術(shù)語中,我們說,重整化群流將UV理論(即在任意小尺度上或等效的任意高能量上,有效的理論)轉(zhuǎn)化為IR理論(即僅在相對(duì)大的距離上或等效的相對(duì)低的能量上,有效的理論))開始,流向一些不太完整的模型,該模型僅對(duì)原始自由度的一個(gè)子集保持準(zhǔn)確。這一觀察激發(fā)了這樣一種想法,即重整化群流可以被視為與動(dòng)態(tài)貝葉斯過程“逆”過程,前者將數(shù)據(jù)生成模型降低到近似模型,后者將近似模型帶回?cái)?shù)據(jù)生成模型。這個(gè)想法在[15]中被形式化了,我們?cè)谄渲嘘U明,如果我們將流的方向反轉(zhuǎn),那么控制動(dòng)態(tài)貝葉斯的方程在形式上相當(dāng)于精確重整化群(ERG)流。更明確地說,通過丟棄數(shù)據(jù)而不是觀察數(shù)據(jù)來反向執(zhí)行動(dòng)態(tài)貝葉斯定義了一個(gè) ERG方案,我們將其稱為動(dòng)態(tài)貝葉斯重整化群方案(DB-RG)或簡單的貝葉斯重整化。

在這篇文章中,我們的目標(biāo)是充實(shí)貝葉斯重整化。特別是,我們想強(qiáng)調(diào)DB-RG方案是如何將重整化從對(duì)物理局部性的依賴中解放出來的。正如我們?cè)谏厦嫣岬降?,?dāng)對(duì)物理系統(tǒng)進(jìn)行重整化,可以實(shí)現(xiàn)由物理局部性直接驅(qū)動(dòng)的粗粒度方案,例如,可以通過匯集包含在公共空間鄰域中的自由度來定義集體變量,或者可以積分在特定高能截止點(diǎn)以上的動(dòng)量殼層上支持的自由度。在任何一種情況下,物理尺度層次結(jié)構(gòu)的存在,及其在定義RG方案中的作用確保了我們可以將ERG流解釋為從UV理論開始并在某個(gè)IR 固定點(diǎn)結(jié)束。但是,如果我們感興趣的重整化物理系統(tǒng)具有非局域相互作用,我們?cè)撛趺崔k呢?或者更糟糕的是,如果我們感興趣的是對(duì)一個(gè)根本沒有物理解釋的模型進(jìn)行重整化,該怎么辦?這種情況在最近的工作中出現(xiàn),這些工作試圖將重整化的機(jī)制引入數(shù)據(jù)科學(xué)環(huán)境中,作為執(zhí)行數(shù)據(jù)壓縮和提高高維模型的可解釋性和性能的工具[16-25]。

貝葉斯重整化克服了明顯缺乏“真實(shí)”尺度的問題,它配備了自己的突現(xiàn)尺度——模型的可區(qū)分性。換句話說,模型的空間具有Fisher度量所賦予的自然信息幾何結(jié)構(gòu)[26-28],F(xiàn)isher度量是一對(duì)概率分布之間相對(duì)熵的無限小度量。正如我們將演示的那樣,DB-RG方案以一種尊重模型空間局部性的方式自動(dòng)實(shí)現(xiàn)粗?;?,這是由Fisher度量規(guī)定的。這一事實(shí)是在推崇DB-RG用于重新規(guī)范化數(shù)據(jù)科學(xué)模型的實(shí)用性時(shí)偶然發(fā)現(xiàn)的新事物。在數(shù)據(jù)壓縮任務(wù)和模型構(gòu)建考慮中,F(xiàn)isher度量被用來區(qū)分所謂的“粗糙sloppy”和“堅(jiān)實(shí)stiff”參數(shù)。前者與模型輸出的協(xié)變很弱,因此對(duì)應(yīng)于Fisher度量的小特征值,而后者與模型輸出的協(xié)變非常強(qiáng),因此對(duì)應(yīng)于Fisher度量的大特征值。因此,為了磨練模型的可解釋性和泛化性,人們可能會(huì)對(duì)這樣一種方案感興趣,這種方案系統(tǒng)地拋棄了粗糙的參數(shù),轉(zhuǎn)而支持只依賴于嚴(yán)格參數(shù)的模型。從費(fèi)雪幾何的角度來看,這可以明確地認(rèn)為是一種“UV正則化方案”;一種一致的方法來處理這樣一個(gè)事實(shí),即我們無法在模型空間中分辨出任意小的距離,這是識(shí)別模型所必需的,這些模型在沿著由粗糙參數(shù)協(xié)調(diào)的方向不同[29,30]。因此,解釋DB-RG方案的一種方法是將其視為一種自動(dòng)數(shù)據(jù)壓縮算法,該算法以與物理RG積分大動(dòng)量殼層相同的方式依次積分“高能”參數(shù)(例如與Fisher 度量的小特征值相關(guān)的參數(shù))。

把前面的討論變成更物理的語言,堅(jiān)實(shí)和粗糙的參數(shù)是數(shù)據(jù)科學(xué)對(duì)相關(guān)和不相關(guān)算子概念的回答。在感興趣的模型確實(shí)擁有“真實(shí)”尺度的情況下,這種類比就變得明確了。例如,在物理學(xué)文獻(xiàn)[31]中觀察到,在共形場(chǎng)論的空間中,F(xiàn)isher度量與Zamolodchikov度量重合,因此后者的頻譜所規(guī)定的相關(guān)和不相關(guān)算子的層次與前者所規(guī)定的堅(jiān)實(shí)和粗糙參數(shù)的層次重合。以類似的脈絡(luò),但以相反的方向研究[32]發(fā)現(xiàn),信息瓶頸形式化認(rèn)為的對(duì)數(shù)據(jù)壓縮最重要的參數(shù)[33]與傳統(tǒng) RG 意義上最相關(guān)的算子相吻合,前提是被壓縮的模型是由局部統(tǒng)計(jì)場(chǎng)論給出的。

鑒于這些觀察結(jié)果和DB-RG中突現(xiàn)尺度的信息理論特征,本文的另一個(gè)中心目標(biāo)是鼓勵(lì)讀者將重整化視為一個(gè)明顯的信息理論過程。例如,考慮兩種理論,它們的不同之處在于存在于某些可觀測(cè)動(dòng)量尺度(即UV截止)之上的模態(tài)。對(duì)于所有的意圖和目的,這些理論是等效的,因?yàn)闆]有現(xiàn)有的實(shí)驗(yàn)可以進(jìn)行區(qū)分。正如我們現(xiàn)在所建立的,在廣泛的數(shù)據(jù)科學(xué)背景下有一個(gè)明確的類比:一個(gè)人有兩個(gè)模型,它們只是沿著模型流形中的“粗糙方向”不同。粗糙的參數(shù)不能被調(diào)整,除非觀測(cè)的數(shù)量和/或精度由于實(shí)驗(yàn)限制而無法實(shí)現(xiàn)。因此,再一次,這樣的模型應(yīng)該被視為實(shí)際上是等效的。最終,這種思想表明,RG通用性類應(yīng)該對(duì)應(yīng)于所有模型/理論的集合,這些模型/理論產(chǎn)生的等效預(yù)測(cè)低于一個(gè)閾值,這個(gè)閾值是由可以收集到的有關(guān)系統(tǒng)的有用信息的數(shù)量設(shè)定的。從這個(gè)角度來看,尺度的相關(guān)概念始終是模型/理論空間中的可分辨性,恰好相同的信息可以在物理情況下以能量尺度進(jìn)行交流,因?yàn)檫@種尺度限制了我們的實(shí)驗(yàn)?zāi)芰Α?/p>

本文的組織結(jié)構(gòu)如下。在2.1節(jié)中,我們回顧了其原始物理背景下的精確重整化。我們強(qiáng)調(diào)ERG方案的一個(gè)有用子類構(gòu)成泛函擴(kuò)散方程的觀點(diǎn),正如最初被[37]推崇的那樣,并認(rèn)識(shí)到物理尺度在定義這種擴(kuò)散性 ERG 方面所起的作用。基于重整化和擴(kuò)散是等價(jià)的觀點(diǎn),我們?cè)诘?2.2節(jié)中將擴(kuò)散視為一種有用的設(shè)備,即使沒有物理尺度,也可以對(duì)數(shù)據(jù)模型進(jìn)行重整化。這種基于擴(kuò)散的一般數(shù)據(jù)模型重整化的圖景相當(dāng)于有影響力的擴(kuò)散學(xué)習(xí)范式[38],其中難以處理的分布通過擴(kuò)散通道運(yùn)行,以便為數(shù)據(jù)生成任務(wù)生成可處理的模型。然而,在沒有物理尺度的情況下,人們無法控制模型中粗粒度的信息,與物理重整化方案相反,物理重整化方案總是在真實(shí)能量尺度的層次中刪除信息。這激發(fā)了第3節(jié)中介紹的貝葉斯重整化方案。在回顧了支撐貝葉斯推理的Fisher幾何(第3.1節(jié))和動(dòng)態(tài)貝葉斯推理方案(第3.2節(jié))之后,我們?cè)诘?.3節(jié)和第3.4節(jié)中明確地推導(dǎo)了DB-RG方案。DB-RG方案可以理解為擴(kuò)散重整化的一種特定形式,其中因擴(kuò)散而丟失的信息由Fisher度量控制。因此,DB-RG是我們所尋求的擴(kuò)散學(xué)習(xí)的精確形式,其中由Fisher 度量引起的距離度量的逆在ERG的目的中起著能量標(biāo)度的作用。最后,我們?cè)诘?節(jié)中進(jìn)行了討論,其中我們回顧了我們對(duì)重整化的新觀點(diǎn),并提出了DB-RG在數(shù)據(jù)科學(xué)任務(wù)中的應(yīng)用以及作為一種新的理論工具的未來方向。

譯者注:篇幅緣故,編譯時(shí)略去了第二第三部分的詳細(xì)推導(dǎo),側(cè)重介紹這種新思想以及其在數(shù)據(jù)科學(xué)中的應(yīng)用潛力。

討論

在這篇文章中,我們概述了一個(gè)關(guān)于重整化的新視角,它本質(zhì)上是完全信息論的。因此,這種重整化方法適用于任意概率模型,而不僅僅是那些具有物理解釋的模型。我們提出的主要見解是,F(xiàn)isher度量應(yīng)該被解釋為在模型空間中定義一個(gè)相關(guān)長度,該模型通過概率分布的可區(qū)分性定義了一個(gè)突現(xiàn)尺度。從這個(gè)角度來看,貝葉斯重整化方案中的 UV截止可以理解為固定的可以對(duì)系統(tǒng)進(jìn)行的最大可能測(cè)量數(shù)量,從而限制了在推理實(shí)驗(yàn)中可以訪問有關(guān)數(shù)據(jù)生成模型的信息的精度。這種重整化的觀點(diǎn)與更熟悉的物理圖景是一致的,在物理圖景中,可以收集到的關(guān)于一個(gè)理論的數(shù)據(jù)量是由可以在實(shí)驗(yàn)中探測(cè)到的能量尺度限制的。因此,再一次,UV截止決定了一組可能的獨(dú)立測(cè)量。更嚴(yán)格地說,這種觀測(cè)可以通過觀察到KL散度是ERG單調(diào)來量化[37],或者即使在具有物理尺度的RG方案中,ERG核也可以用理論空間上的Fisher 度量來識(shí)別[64]。

重整化的信息理論方法允許在重整化和數(shù)據(jù)科學(xué)中的技術(shù)(如模型選擇、數(shù)據(jù)壓縮和數(shù)據(jù)生成)之間建立非常令人滿意的聯(lián)系。使用Fisher度量來定義突現(xiàn)的RG尺度所產(chǎn)生的最重要的見解之一是,“高能模式”自然地被識(shí)別為“粗糙的”參數(shù),這些參數(shù)被系統(tǒng)地丟棄,以制定僅依賴于“嚴(yán)格”參數(shù)的“低能量”有效理論。在這方面,我們將貝葉斯重整化視為一種信息幾何啟發(fā)的粗粒化方案。已經(jīng)通過所謂的信息瓶頸研究了重整化與數(shù)據(jù)壓縮之間關(guān)系的相關(guān)視角,關(guān)于該主題的代表性論文樣本見[16- 18,32] 。這里的基本思想是,信息瓶頸確定了一組低維有效自由度,這些自由度有效地編碼了包含在數(shù)據(jù)實(shí)現(xiàn)的高維空間中的數(shù)據(jù)。從原始自由度到有效自由度的移動(dòng)涉及到一個(gè)隨機(jī)映射(條件概率分布),它可以被解釋為一種基于粗粒度的重整化形式。除了與數(shù)據(jù)壓縮的聯(lián)系之外,貝葉斯重整化作為隨機(jī)擴(kuò)散過程的框架允許人們將其解釋為[38]中引入的有影響力的擴(kuò)散學(xué)習(xí)范式的細(xì)化。在未來的工作中,我們計(jì)劃利用這些見解來實(shí)現(xiàn)貝葉斯重整化作為數(shù)據(jù)科學(xué)應(yīng)用的有效工具。

雖然我們主要關(guān)注的是貝葉斯重整化在數(shù)據(jù)科學(xué)背景下的信息理論特征的價(jià)值,但我們?cè)诮Y(jié)束時(shí)注意到,這種重整化方法也可能在物理背景下提供新的見解。對(duì)于初學(xué)者來說,貝葉斯重整化的信息理論方法使其成為識(shí)別和量化在RG流下丟失的精確信息的理想工具。通過這種方式,人們應(yīng)該能夠使用貝葉斯重整化來解釋和構(gòu)建RG單調(diào)性定理[65-70]。另一方面,如果不包括糾纏/全息重整化(Entanglement/HolographicRenormalization),重整化的現(xiàn)代視角將是不完整的:[40,71-77]。將本文描述的貝葉斯重整化與上述作品中發(fā)展的重整化全息描述結(jié)合起來,是未來工作的一個(gè)挑戰(zhàn)。與此相關(guān)的是全息背景下正則能量與費(fèi)雪度量之間的關(guān)系:[78-81]。最后,物理系統(tǒng)中能量隨熵縮放的不同方式告訴我們通?;趧?dòng)量的重整化的有效性。有人可能會(huì)問一個(gè)有趣的問題,是否有一種不同的方式來執(zhí)行重整化,更適合粗粒信息。特別是,對(duì)于引力理論來說,大動(dòng)量殼層可能不是正確的“粗糙參數(shù)”?;叵胍幌拢χ徐嘏c能量的標(biāo)度不同于局部量子場(chǎng)論。這是允許引力具有全息特性的關(guān)鍵因素。這里提出的觀點(diǎn)是,能量切斷實(shí)際上是信息切斷。因此,這種信息理論的觀點(diǎn)表明,人們可能會(huì)考慮一種不同于QFT的引力截止方案。這就是貝葉斯重整化原理的強(qiáng)大之處:它通過費(fèi)雪度量自動(dòng)編碼相關(guān)和不相關(guān)自由度的適當(dāng)指定,從而確?!皬哪P椭蟹e分”的自由度與粗糙參數(shù)精確對(duì)應(yīng),無論它們是什么。

致謝

我們感謝Jonathan Heckman在動(dòng)態(tài)貝葉斯方面的合作,這激發(fā)了本文中的許多想法。我們也感謝SemonRezchikov和MirandaCheng在Stringdata2022期間提出的相關(guān)工作的評(píng)論,并感謝Leenoy Meshulam,AdamKline和MichaelAbbott在APS2023年3月會(huì)議上就重整化和數(shù)據(jù)科學(xué)之間的交叉點(diǎn)進(jìn)行了有益的對(duì)話。最后,我們要感謝SamuelGoldman和RobertLeigh就精確重整化及其與糾纏重整化的關(guān)系進(jìn)行的啟發(fā)性討論。DSB和AGS感謝PierreAndurand在本研究過程中的支持。MSK得到了伊利諾伊大學(xué)厄巴納-香檳分校物理系的支持。

作者:王慶法

作者:David S.Berman, Marc S.Klinger, Alexander G.Stapleton

編譯:王慶法

譯者注:本文作者開創(chuàng)性的定義了貝葉斯重整化,并推導(dǎo)論證了貝葉斯重整化具有足夠的通用性,即使在沒有直接物理尺度的情況下也能應(yīng)用,從而為數(shù)據(jù)科學(xué)環(huán)境中的重整化提供了一種理想的方法。為從理論上解釋AIGC預(yù)訓(xùn)練與生成式大模型,建立了科學(xué)的理論基礎(chǔ)。此文可以作為“系列文章深度解析ChatGPT獲得智能的數(shù)學(xué)物理機(jī)理“中提到的第15項(xiàng) “Bayesian重整化”的理論參考。

評(píng)論
????
貢士級(jí)
學(xué)習(xí)了
2023-10-23