版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

GPT4技術(shù)原理一:學(xué)習(xí)語言需要相變

企業(yè)致力于科技新聞媒體及科普教育傳播
收藏

GPT4技術(shù)原理一:學(xué)習(xí)語言需要相變

作為“系列文章深度解析ChatGPT獲得智能的數(shù)學(xué)物理機(jī)理“ 開篇:”學(xué)習(xí)語言需要相變“,筆者決定從女兒最近的一篇習(xí)作談起,習(xí)作是一篇讀后感:

敦行故遠(yuǎn) —— 讀《莫高窟》有感

敦行曰華,煌焜曰夏。

從公元三六六年的第一個石窟開始,經(jīng)歷了一千六百多年,見證了滄桑巨變。它連通東西的血脈,打破時空的格局,穿越千年的歷史,沉淀歲月的文明。時間與空間,東方與西方,都凝匯在這里,莫高窟,圣潔的地方。

從小喜歡莫高窟,認(rèn)為它意義非凡。讀了《莫高窟》之后,便更是對它留下不可磨的印象。歷史上的人們也和我一樣,惦念著它,熱愛著它。自從第一個洞窟開工以來,遠(yuǎn)近佛教信士就紛紛來朝拜圣景。年長日久,新的洞窟也一一挖出,上至王公,下至平民,或者獨(dú)筑,或者合資,全向山坡鑿進(jìn),從此工匠斧鑿的叮當(dāng)聲,成了這個山巒的歷史。

皆是出于信仰。

漸漸地,這一切都與中華歷史接通了血脈。一幅幅的壁畫完成了,一座座的佛像立起來了,西域文明開始了。莫高窟的確有層次豐富的底蘊(yùn),彰顯了歲月最絢爛的色彩??茨切┎灰坏姆鹣窈捅诋?,色澤濃厚得如同立體,筆觸奔放得如同劍戟。流動、快捷、顛簸,一切都在飛奔,一切都在旋轉(zhuǎn),是只屬于莫高窟的豪放與瘋狂。通過《莫高窟》我懂得了,莫高窟不僅僅是一個供人欣賞的景點(diǎn),也是虔誠的信仰,千年的文明,西域文化的遺留。

《文化苦旅》中有一句話:“看莫高窟,不是看死了一個千年的標(biāo)本,而是看活了一千年的生命?!笔前?。

透過唐宋元明清千年不朽的文物,能窺見一方天地,看看塞北大漠的煙塵浩蕩,聽聽樓蘭古國的烈酒離歌。茫茫大漠,滔滔流水,于世無奇。唯有大漠中如此一灣,風(fēng)沙中如此一靜,荒涼中如此一景,高坡后如此一跌,才深得天地之韻律,造化之機(jī)巧,讓人神醉情馳。以此推衍,人生、世界、歷史,莫不如此。給浮囂以寧靜,給急躁以清冽,給高蹈以平實(shí),給粗獷以明麗,唯其這樣,人生才見靈動,世界才顯精致,歷史才有風(fēng)韻。莫高窟,生生不息,吐納百代的歷史勝跡,一個民族波瀾壯闊的文明。這個沙漠深處的陡坡,因華美而矜持,因富有而遠(yuǎn)藏。莫高窟,深深地吸納了無量的才情,沉淀了深邃的歷史,變得神秘又安詳。

敦,大也;煌,盛也。敦行故遠(yuǎn)。

陪伴女兒成長,從她呀呀學(xué)語,到認(rèn)識第一個漢字,到去動物園不看動物看路牌上的字,到順暢的互動溝通,再到小學(xué)四年級開始不斷出現(xiàn)的范文作文,然后就是現(xiàn)在初一年級這樣的文字。我試圖觀察和發(fā)現(xiàn)人類幼崽學(xué)習(xí)的奧秘,卻沒有成功。

很多學(xué)者認(rèn)同人類的學(xué)習(xí)是小樣本學(xué)習(xí),不同于機(jī)器學(xué)習(xí)需要海量的數(shù)據(jù)。其實(shí)如果親自仔細(xì)觀察過娃娃們學(xué)習(xí)的過程,或許會發(fā)現(xiàn)這個認(rèn)知是粗淺的。孩子們的學(xué)習(xí)是一個多模態(tài)立體的認(rèn)知過程:嘗、嗅、觸摸、聽、看,都在從不同的側(cè)面獲取信息,因而孩子們獲取的是多模態(tài)多方位相互關(guān)聯(lián)的連續(xù)的樣本,大還是小呢?

樣本本身的大小通常是按照采樣點(diǎn)的數(shù)量來衡量的,多少固然重要,但樣本本身蘊(yùn)含的信息是否足夠豐富才是決定認(rèn)知的關(guān)鍵。孩子們從立體的連續(xù)的多方位的信息中,不斷提取所需的特征信息,只要這些特征信息足夠豐富,豐富到可以表征所要認(rèn)知的事物的客觀屬性,學(xué)習(xí)就是成功的,反之即是失敗。

筆者在“站在香農(nóng)與玻爾茲曼肩上,看深度學(xué)習(xí)的術(shù)與道”一文中,曾總結(jié)自己的頓悟:“事物由不同層次的隨機(jī)變量展現(xiàn)出來的信息來表達(dá),不同層次上的隨機(jī)變量攜帶不同的信息,共同組合影響上一層的隨機(jī)變量的信息表達(dá),而隨機(jī)變量對外表達(dá)的信息則取決于該隨機(jī)變量的條件概率分布”。娃娃們學(xué)習(xí)過程似乎應(yīng)該是,從周圍多方位立體的連續(xù)的信息中,提取特征,辨識潛變量,形成參數(shù)概率分布,記憶,模仿,推演。這一過程不斷迭代,一開始是父母耐心校準(zhǔn)的有監(jiān)督學(xué)習(xí),到達(dá)一定程度后轉(zhuǎn)為無監(jiān)督學(xué)習(xí),而在某個時點(diǎn)逐步完成認(rèn)知的飛躍 “可以講出以前從未聽過的句子”。

無奈人類學(xué)習(xí)認(rèn)知的過程太復(fù)雜了,學(xué)界并沒有弄清楚這一過程?!爸v出以前從未聽過的句子”是人類學(xué)習(xí)過程中的相變嗎?我們來看2019年來自Philip Ball在physics.aps.org的一篇報道:

語言學(xué)中一個長期存在的難題是,兒童如何學(xué)習(xí)他們的語言的基本語法結(jié)構(gòu),從而能夠創(chuàng)造出他們以前從未聽過的句子。一項(xiàng)新的研究表明,這個過程涉及一種相變,即當(dāng)語法規(guī)則被學(xué)習(xí)者直覺地理解時,一種語言的“深層結(jié)構(gòu)”會突然結(jié)晶出來。在這個相變點(diǎn),一種語言從看起來像是隨機(jī)的單詞混合體轉(zhuǎn)變?yōu)橐粋€高度結(jié)構(gòu)化的、富含信息的通信系統(tǒng)。

麻省理工學(xué)院的美國語言學(xué)家諾姆·喬姆斯基曾經(jīng)著名地提出人類天生具有語法的普遍結(jié)構(gòu)規(guī)則的先天知識。這個想法受到了強(qiáng)烈的批評,但這些規(guī)則是如何被理解的仍然是個謎。

在所有人類語言中,單詞之間的關(guān)系和它們組合的語法規(guī)則形成了一種類似樹狀的網(wǎng)絡(luò)。例如,一個句子可以被細(xì)分為一個名詞短語和一個動詞短語,而每個短語又可以被分解成更小的單詞組合。這些細(xì)分都表示為樹型圖中的一個分支點(diǎn)。這個樹的“葉子”是最終的節(jié)點(diǎn),即實(shí)際的單詞:泛化類別的具體實(shí)例,如“名詞”、“動詞”、“代詞”等。這種語法最簡單的類型被稱為無上下文文法(CFG),幾乎所有人類語言都具備這種類型的語法。

巴黎高等師范學(xué)校(école Normale Supérieure)的物理學(xué)家Eric DeGiuli認(rèn)為,CFG可以被視為物理對象,其“表面”包括所有可能的單詞排列方式,包括原則上無意義的句子。他的想法是,當(dāng)兒童接觸到樹的“表面”(他們聽到的句子)時,他們本能地推斷出“深層”的語法規(guī)則。他表示,學(xué)習(xí)使一些句子成立但其他句子不成立的規(guī)則相當(dāng)于孩子分配分支的權(quán)重,并不斷根據(jù)他聽到的語言調(diào)整這些權(quán)重。最終,導(dǎo)致不合語法的句子的分支獲得非常小的權(quán)重,這些句子會被識別為不太可能的。DeGiuli表示,這些許多單詞組合就像統(tǒng)計(jì)力學(xué)中的微觀態(tài)-一個系統(tǒng)的組成粒子的所有可能的排列方式。

在所有節(jié)點(diǎn)的權(quán)重都相等的CFG中,所有可能的句子同等可能,語言與隨機(jī)單詞組合無異,沒有意義的信息。問題是,在所有可能的CFG中,什么樣的權(quán)重分布區(qū)分產(chǎn)生隨機(jī)單詞句子和產(chǎn)生信息豐富句子的CFG?

DeGiuli的理論分析——使用統(tǒng)計(jì)力學(xué)技術(shù)——顯示出兩個關(guān)鍵因素:權(quán)重如何“剪枝”層次樹的深處,以及在表面(具體的句子出現(xiàn)的地方)如何剪枝。在這兩種情況下,這種分支的稀疏性扮演了類似于統(tǒng)計(jì)力學(xué)中溫度的角色。在表面和內(nèi)部降低溫度都意味著降低更多的權(quán)重。

當(dāng)降低深度溫度時,意思是內(nèi)部樹變得更稀疏,DeGiuli看到CFG從隨機(jī)和雜亂無序的CFG突然轉(zhuǎn)變?yōu)榫哂懈咝畔⒘康腃FG。這種轉(zhuǎn)變類似于水的結(jié)冰過程。他認(rèn)為,這種轉(zhuǎn)變可能解釋了為什么在發(fā)展的某個階段,孩子學(xué)習(xí)如何快速構(gòu)造語法正確的句子。

此時,單詞不再是單純的標(biāo)簽,而是具有復(fù)雜結(jié)構(gòu)和含義的句子的成分。這種轉(zhuǎn)變不依賴于獲得所有正確的權(quán)重;孩子們會繼續(xù)完善他們對語言的理解。DeGiuli的理論中使用的歸納和概率推理與兒童語言習(xí)得中觀察到的一致。

DeGiuli希望這種抽象過程最終能與神經(jīng)水平的觀察相聯(lián)系。或許研究人員可以了解什么可能會阻止有學(xué)習(xí)障礙的孩子轉(zhuǎn)換到豐富的語言。

英國愛丁堡大學(xué)的統(tǒng)計(jì)物理學(xué)家 Richard Blythe 表示:“關(guān)于孩子如何從一系列例子中提取語法的問題在廣泛討論,而這篇論文提出了一種可能的機(jī)制。我認(rèn)為這是一個非常有趣的想法,并且理論上它可以做出定量預(yù)測,所以它有可能被測試?!?/p>

統(tǒng)計(jì)力學(xué)真的會改變一個人的世界觀。筆者不知道是該慶幸還是懊悔,在研究生時候系統(tǒng)學(xué)習(xí)了這門學(xué)問。從此陷進(jìn)去不可自拔,什么事情都希望探究一下其背后運(yùn)轉(zhuǎn)的機(jī)理,什么事情都希望看到從微觀到宏觀的轉(zhuǎn)換??雌饋鞤eGiuli教授也是中了招,期望通過統(tǒng)計(jì)力學(xué)以及相變的理論去描述和刻畫語言學(xué)習(xí)。不過這的確是一個新穎的角度,在筆者看來,已經(jīng)可以在GPT 這類語言模型的成功中,捕捉到這個理論解釋隱約的影子。

在“ChatGPT是第一個真正意義的人工通用智能”中,筆者提到“在大語言模型領(lǐng)域,模型規(guī)模跨越某個閾值,處理任務(wù)能力突然性增長,被稱為涌現(xiàn)能力(Emergent Ability)。只要針對某個特定問題或任務(wù)的相關(guān)領(lǐng)域,模型“足夠”大,注入足夠的信息量,相變就可能發(fā)生,即開始涌現(xiàn)。”這像極了人類幼崽語言關(guān)鍵期后的爆發(fā),這些大模型真的能夠“講出以前從未聽過的句子”,而這些句子在上下文中合乎情理。不管人們認(rèn)不認(rèn)同GPT已經(jīng)獲得了智能,已經(jīng)再也沒有人稱他們”人工智障“了。有些冷門知識他們回答不好,或許可以解釋為:這一領(lǐng)域的樣本量不足以實(shí)現(xiàn)相變。

下篇我們深入了解一下這個”相變“。

作者:王慶法 麻省理工學(xué)院物理系學(xué)者,數(shù)據(jù)領(lǐng)域?qū)<?,首席?shù)據(jù)官聯(lián)盟專家組成員

評論
????
貢士級
學(xué)習(xí)了
2023-10-23
撫松縣新屯子鎮(zhèn)中學(xué)康志明
大學(xué)士級
2023-10-23