近日,關(guān)于谷歌工程師 Blake Lemoine 的文章、采訪和其他類型的媒體報(bào)道已經(jīng)鋪天蓋地、數(shù)不勝數(shù)。因?yàn)?Lemoine 對(duì)外宣稱,人工智能(AI)大語(yǔ)言模型 LaMDA 在與用戶對(duì)話的過(guò)程中具有了“感知能力”,甚至“像一個(gè)七八歲的孩子”。
圖|谷歌工程師 Blake Lemoine(來(lái)源:The Washington Post)
在閱讀了關(guān)于這一話題的十幾種不同的觀點(diǎn)后,我不得不說(shuō),媒體對(duì)當(dāng)前 AI 技術(shù)的炒作已經(jīng)(有點(diǎn))失望了。很多人都在討論為什么深度神經(jīng)網(wǎng)絡(luò)不是“有感知的”或“有意識(shí)的”。與幾年前相比,這是一個(gè)進(jìn)步,因?yàn)楫?dāng)時(shí)新聞媒體還在制造聳人聽(tīng)聞的故事,稱 AI 系統(tǒng)發(fā)明了自己的語(yǔ)言,接管了人類的所有工作,并正在加速向通用人工智能(AGI)發(fā)展。
但是,人們正在討論“感知”和“意識(shí)”的這一事實(shí),也再次強(qiáng)調(diào)了一個(gè)重要的觀點(diǎn):盡管如今的大語(yǔ)言模型變得越來(lái)越有說(shuō)服力,但依然會(huì)被科學(xué)家們?cè)诓煌瑘?chǎng)合指出這樣或那樣的根本缺陷。自 20 世紀(jì) 60 年代 ELIZA 聊天機(jī)器人出現(xiàn)以來(lái),“AI 愚弄人類”(AI fooling humans)的話題就一直在被討論,但今天的大語(yǔ)言模型確實(shí)是在另一個(gè)層面上。如果你不知道語(yǔ)言模型是如何工作的,Lemoine 與 LaMDA 的對(duì)話看起來(lái)是很離奇的——即使這些對(duì)話是被經(jīng)過(guò)精心挑選和編輯過(guò)的。
但是,“感知”和“意識(shí)”并不是有關(guān)大語(yǔ)言模型和當(dāng)前 AI 技術(shù)的最好討論,更重要的討論應(yīng)該是人類相容性(compatibility)和信任(trust),特別是當(dāng)這些技術(shù)正越來(lái)越多地集成到人類日常應(yīng)用程序中時(shí)。
大語(yǔ)言模型,不會(huì)“人類語(yǔ)言”
在過(guò)去一周,神經(jīng)網(wǎng)絡(luò)和大語(yǔ)言模型的工作原理已經(jīng)被討論很多遍了。在這篇文章中,我將從人類語(yǔ)言開(kāi)始,對(duì)當(dāng)前這種情況給出一個(gè)更宏觀(zoomed-out)的看法。
對(duì)于人類來(lái)說(shuō),語(yǔ)言是傳達(dá)我們大腦中發(fā)生的復(fù)雜、多維活動(dòng)的一種手段。例如,當(dāng)兩個(gè)兄弟在交談時(shí),其中一個(gè)說(shuō)“媽媽”,這個(gè)詞與大腦不同部位的許多活動(dòng)有關(guān),包括對(duì)媽媽的聲音、臉、感覺(jué)的記憶,以及從遙遠(yuǎn)的過(guò)去到最近的不同經(jīng)歷。但事實(shí)上,他們大腦中的表現(xiàn)方式可能存在巨大差異,這取決于他們各自的經(jīng)歷。然而,“媽媽”這個(gè)詞提供了一種簡(jiǎn)潔的、有代表性的近似值,可以幫助他們?cè)谕粋€(gè)概念上達(dá)成一致。
當(dāng)你在與陌生人的對(duì)話中使用“媽媽”這個(gè)詞時(shí),經(jīng)歷和記憶之間的差異就會(huì)變得更大。但是,你們還是基于頭腦中共有的概念達(dá)成了共識(shí)。
把語(yǔ)言想象成一種有助于把大腦中的海量信息傳遞給另一個(gè)人的算法。從環(huán)境中的物理互動(dòng)到與他人的社會(huì)互動(dòng),語(yǔ)言的進(jìn)化與我們?cè)谑澜缟系慕?jīng)歷息息相關(guān)。
語(yǔ)言建立在我們?cè)谑澜缟系墓餐?jīng)歷之上。孩子們甚至在說(shuō)出第一個(gè)單詞之前就知道重力、維度、物體的物理一致性,以及痛苦、悲傷、恐懼、家庭和友誼等人類和社會(huì)中的概念。沒(méi)有這些經(jīng)歷,語(yǔ)言就沒(méi)有意義。這就是為什么語(yǔ)言通常會(huì)忽略對(duì)話者共享的常識(shí)和信息。另一方面,分享經(jīng)驗(yàn)和記憶的程度將決定你與另一個(gè)人交流的深度。
(來(lái)源:Pixabay)
相比之下,大語(yǔ)言模型沒(méi)有物理和社會(huì)經(jīng)驗(yàn)。它們只是接受了數(shù)十億個(gè)單詞的訓(xùn)練,并學(xué)會(huì)通過(guò)預(yù)測(cè)下一個(gè)單詞序列來(lái)回應(yīng)提示。這種方法在過(guò)去幾年中取得了巨大的成果,特別是在引入了 transformer 架構(gòu)之后。
那么,transformer 是如何做出令人信服的預(yù)測(cè)的?它們首先會(huì)將文本轉(zhuǎn)換為“token”和“嵌入”(embedding),即多維空間中單詞的數(shù)學(xué)表示。然后,對(duì)嵌入進(jìn)行處理以添加其他維度,比如文本序列中單詞之間的關(guān)系以及它們?cè)诰渥雍投温渲械淖饔谩Mㄟ^(guò)足夠多的示例,這些嵌入可以創(chuàng)建單詞在序列中應(yīng)該如何出現(xiàn)的良好近似。transformer 架構(gòu)之所以特別受歡迎,是因?yàn)樗强蓴U(kuò)展的:它的準(zhǔn)確性隨著它變得更大、接收更多數(shù)據(jù)而提高,而且它們大多可以通過(guò)無(wú)監(jiān)督學(xué)習(xí)進(jìn)行訓(xùn)練。
但根本的區(qū)別仍然存在。神經(jīng)網(wǎng)絡(luò)通過(guò)將語(yǔ)言轉(zhuǎn)化為嵌入來(lái)處理語(yǔ)言。而對(duì)人類來(lái)說(shuō),語(yǔ)言是思想、感覺(jué)、記憶、物理體驗(yàn)和許多其他我們尚未發(fā)現(xiàn)的關(guān)于大腦的東西的嵌入。
因此,盡管 transformer、大語(yǔ)言模型、深度神經(jīng)網(wǎng)絡(luò)等取得了巨大的進(jìn)步,但依然離人類語(yǔ)言還很遠(yuǎn)。
AI,可以被信任嗎?
當(dāng)前,業(yè)內(nèi)的很多討論都是關(guān)于我們是否應(yīng)該將感知、意識(shí)和人格等屬性賦予 AI 系統(tǒng)。這些討論的問(wèn)題在于,它們關(guān)注的概念定義模糊,對(duì)不同的人有不同的含義。
例如,功能主義者可能會(huì)認(rèn)為神經(jīng)網(wǎng)絡(luò)和大語(yǔ)言模型是有意識(shí)的,因?yàn)樗鼈兓蚨嗷蛏俦憩F(xiàn)出與我們期望從人類身上看到的同類行為,盡管它們建立在不同的基礎(chǔ)上。但其他人可能并不會(huì)認(rèn)同,他們認(rèn)為有機(jī)物才是意識(shí)存在的必要條件,而神經(jīng)網(wǎng)絡(luò)永遠(yuǎn)不會(huì)有意識(shí)。
然而,一個(gè)更實(shí)際的問(wèn)題是,當(dāng)前的神經(jīng)網(wǎng)絡(luò)與人類思維的“相容性”有多高,在關(guān)鍵應(yīng)用場(chǎng)景上能否被人類信任?這是一個(gè)重要的議題,因?yàn)榇笳Z(yǔ)言模型大多會(huì)被公司拿去商用。
例如,只要經(jīng)過(guò)足夠多的訓(xùn)練,黑猩猩就可能學(xué)會(huì)開(kāi)車。但在有行人正將穿過(guò)的道路上,你會(huì)安心讓它開(kāi)車嗎?你不會(huì),因?yàn)槟阒溃还芎谛尚啥嗝绰斆?,它們的思維方式和人類也不一樣,無(wú)法勝任涉及人身安全的任務(wù)。
同樣,鸚鵡也有能力學(xué)會(huì)一些短語(yǔ),但你會(huì)讓它做你的客戶服務(wù)代理嗎?可能也不會(huì)。
(來(lái)源:Pixabay)
即使涉及到人類,認(rèn)知障礙也會(huì)使一些人群失去從事需要人際交往能力或涉及人類安全的工作和任務(wù)的資格。在很多情況下,這些人能夠流利地讀、寫、說(shuō),并在長(zhǎng)時(shí)間的對(duì)話中保持言行一致和合乎邏輯。我們不會(huì)質(zhì)疑他們的感知能力、意識(shí)或人格。但是我們知道,由于他們患有疾病,他們的某些事情上作出的決定可能會(huì)不一致和不可預(yù)測(cè)。
重要的是,你是否可以相信他們會(huì)像普通人一樣思考和作出決定。在很多情況下,我們信任那些身兼重任的人們,因?yàn)樗麄兊母泄傧到y(tǒng)、常識(shí)知識(shí)、感覺(jué)、目標(biāo)和獎(jiǎng)勵(lì)與我們的基本一致,即使他們不會(huì)說(shuō)我們的語(yǔ)言。
那么,回到近期事件上,我們對(duì) LaMDA 又了解多少呢?首先,它感知世界的方式與我們不同。它的語(yǔ)言“知識(shí)”不建立在與我們相同的經(jīng)驗(yàn)之上。它的常識(shí)性知識(shí)建立在一個(gè)不穩(wěn)定的基礎(chǔ)上,因?yàn)闆](méi)有人能保證大量的文本會(huì)涵蓋我們?cè)谡Z(yǔ)言中忽略的所有東西。
考慮到這種不相容性,無(wú)論 LaMDA 和其他大語(yǔ)言模型在生成文本輸出方面有多好,你還能相信它們到什么程度呢?一個(gè)友好、有趣的聊天機(jī)器人程序,只要不把對(duì)話引向一些敏感話題,就可能不是一個(gè)壞主意。搜索引擎也是大語(yǔ)言模型的一個(gè)很好的應(yīng)用領(lǐng)域(谷歌近年來(lái)一直在搜索中使用 BERT)。但是,你能把開(kāi)放式客戶服務(wù)聊天機(jī)器人或銀行顧問(wèn)等敏感任務(wù)交給它們嗎?即使它們已經(jīng)接受過(guò)大量相關(guān)對(duì)話記錄的培訓(xùn)或微調(diào)。
在我看來(lái),我們需要特定于應(yīng)用程序的基準(zhǔn)(application-specific benchmark)來(lái)測(cè)試大語(yǔ)言模型的一致性(consistency),以及它們?cè)诓煌I(lǐng)域與人類常識(shí)的相容性。當(dāng)涉及到真正的應(yīng)用程序時(shí),應(yīng)該始終有明確定義的邊界,來(lái)確定在何處終止大語(yǔ)言模型的對(duì)話, 并交給人類操作員。
對(duì) AI,要足夠小心
實(shí)際上,人類智能(human intelligence)被用來(lái)找到正確的問(wèn)題,而 AI 則被用來(lái)以最有效的方式解決這些問(wèn)題。
我們已經(jīng)一次又一次地看到,計(jì)算機(jī)能夠找到解決復(fù)雜問(wèn)題的捷徑,而不需要具備人類的認(rèn)知能力,而且已經(jīng)在跳棋、國(guó)際象棋、圍棋、編程比賽、蛋白質(zhì)折疊和其他定義明確的問(wèn)題中取得了成功。
自然語(yǔ)言在某些方面與 AI 已經(jīng)解決的所有其他問(wèn)題不同,但也相似。
一方面,transformer 和大語(yǔ)言模型已經(jīng)證明,它們不需要像人類那樣,先探索世界、了解世界的基本規(guī)則,然后才能在共同的知識(shí)基礎(chǔ)上獲得與他人互動(dòng)的語(yǔ)言,它們可以直接產(chǎn)生令人印象深刻的結(jié)果;另一方面,它們?nèi)狈θ祟愒趯W(xué)習(xí)語(yǔ)言過(guò)程中產(chǎn)生的經(jīng)驗(yàn)。
盡管大語(yǔ)言模型可以很好地解決定義明確的語(yǔ)言相關(guān)問(wèn)題,但它們與人類語(yǔ)言處理的相容性是非常有限的。因此,在信任它們這件事上,我們還是要足夠小心。
參考資料:
https://bdtechtalks.com/2022/06/20/lamda-large-language-models-sentient-ai/
https://www.reddit.com/r/artificial/comments/vgl1so/sentience_is_the_wrong_discussion_to_have_on_ai/
https://www.washingtonpost.com/technology/2022/06/11/google-ai-lamda-blake-lemoine/