版權歸原作者所有,如有侵權,請聯(lián)系我們

認知推理:AI的下一個浪潮

北京智譜人工智能科普基地
發(fā)揚科學思辨精神,打造全國人工智能科普基地。
收藏

背景

9月11日,習近平總書記在京主持召開科學家座談會并發(fā)表重要講話,提出“希望廣大科學家和科技工作者肩負起歷史責任,堅持面向世界科技前沿、面向經濟主戰(zhàn)場、面向國家重大需求、面向人民生命健康,不斷向科學技術廣度和深度進軍?!?/p>

為了幫助青年科學家與青年企業(yè)家加強溝通、凝聚共識以應對挑戰(zhàn),9月25日,2020年中國科技峰會系列活動的青年科學家沙龍推出最新一期—“AI學術生態(tài)與產業(yè)創(chuàng)新”。

活動伊始,清華大學計算機系長聘教授、計算機系副主任、清華-工程院知識智能聯(lián)合實驗室主任唐杰教授以“認知推理:AI的下一個浪潮”為題做了主題報告,詳細介紹了AI的發(fā)展歷史、認知智能的現狀及發(fā)展方向、第三代AI、意識AI等重磅前沿領域的發(fā)展,本文是AI Time對報告主要內容的簡單整理,如果想要觀看完整的視頻報告,請在B站關注“AI Time論道”,我們已經將活動視頻上傳。

什么是認知智能

為了幫助大家理解什么是認知智能、認知圖譜,首先用一個例子進行了說明。

假如我們要解決一個問題“哪個導演于2003年在洛杉磯的Quality咖啡館拍過電影(Who is the director of the 2003 film which has scenes in it filmed at The Quality Cafe in Los Angeles)”,人類可能是先搜索相關的文檔(如Quality咖啡館、洛杉磯的相關文檔等),從中找到相關的電影(如Old School),在電影的介紹文檔里面進一步找到該電影的導演Todd Phillips,經過比對電影的拍攝時間(2003年),最終確定答案是Todd Phillips,具體流程如下圖所示。

大家可以看到,人類的大腦在思考問題、追尋答案的過程中其實有幾個過程:(1)根據問題解讀其中的關鍵信息;(2)做出判斷。如果是答案正確,整個推理引擎會輸出最終的答案;如果答案不正確,整個過程會繼續(xù)。這就是一個經典的帶推理的過程。

對于這類問題,機器該怎么做?傳統(tǒng)的方法是會用BERT或者XLNet這樣的相關模型做預訓練,訓練完成以后,我們會簡化復雜的問題。這樣的話,我們給定一個問題以后就可以直接在長文檔中進行匹配,然后找到最終答案并進行輸出。

但是,這樣的過程其實缺乏可解釋性,我們把整個回答問題的過程中變成了一個黑盒子,人很難理解整個過程中輸出的一些結果。

對此,最近也有很多相關的文章試圖把知識概念融入到類似BERT或者XLNet這樣的預訓練模型中,或者將知識圖譜或者知識概念(包括邏輯推理)的一些信息融入到這些識別中。

總體來說,我們可以用圖靈獎獲得者Yoshua Bengio于2019年在NeurIPS大會中的主旨報告來總結:所有的這些模型都屬于人腦認知中的System 1,也就是系統(tǒng)一的感知過程。

在人腦的認知過程中,包括系統(tǒng)一和系統(tǒng)二,系統(tǒng)一更多的是做一個快速的、直覺的、無意識的匹配,給定一個問題時,系統(tǒng)一直接匹配相關的一些答案,并且把這個答案直接輸出出來。這些答案的匹配缺乏推理過程,而且直接用習慣性的結果進行匹配,目前的深度學習做的更多的是這種匹配。

但是,其實人腦認知還有一個叫System 2的過程。System 2相對比較慢,沒有System 1的快速的匹配過程,但它里面帶有更多的邏輯推理和序列推理的過程,我們把它叫作一個有意識的帶規(guī)劃、帶認知的一個過程。這也是Bengio提倡的:希望深度學習模型在未來更多地朝著認知、推理來做。

認知圖譜的理論基礎

有了此背景,我們重新思考一下剛才的推理過程。假如我們用System 2(認知過程)來做,這個過程應該怎么做呢?

我們可以把這個問題跟人的認知過程進行匹配。前面提到了人類認知的雙通道過程,與之對應的,認知科學中還存在雙通道理論,即人有兩個系統(tǒng):System 1、System 2?;诖酥R,我們在求解過程中用System 1模擬知識擴展過程,即找到關鍵信息,并對關鍵信息進行直覺擴展;然后把System 2變成一個決策過程,即判斷信息是不是我們需要的。具體如下圖所示。

下面我們解釋一下怎么用System 1和System 2來求解問題。我們把這個工具叫作認知圖譜(Cognitive Graph)。

對于剛才的問題,認知圖譜更加像一個迭代的過程,它里面有兩個系統(tǒng):一個系統(tǒng)對應System 1,它會抽出里面幾個關鍵詞,從外部資源中找到相關的信息,再從里面抽取出重要的信息;另一個系統(tǒng)對應System 2,它會判斷抽取的信息是否有用,或者本身就是最終的答案。如果不是答案,但有用,System 2就會把這些相關的信息放到System 1中,而System 1會繼續(xù)做這種擴展,System 2會繼續(xù)做判斷,最終輸出我們要的答案,結束整個推理過程就,如下圖所示。

對System 1,可以用原來已有的機器學習的模型,如BERT、XLNet、GPT-3等,先做一個預訓練,然后在預訓練模型的基礎上做一個匹配,最后直接從匹配的結果來做這樣的知識的擴展。

有了System 1以后,可以參考人類的推理過程做System 2。人在拿到相關的信息以后會把這些信息建造成一個知識網絡,然后在知識網絡的基礎上做決策,發(fā)現最終要的答案。在這樣的思路上,我們可以用圖神經網絡對所有的信息進行建模,然后決策、判斷得到的信息是不是我們所要的。

用認知圖譜解決問題的具體過程

對于System 1,我們就直接用BERT來實現,如下圖所示。

對于System 2,我們直接用圖神經網絡把System 1輸出的最相關的信息構造成一個網絡,然后基于每個NTT的上下文信息來做決策,如下圖所示。

為了驗證效果,我們參加了HotpotQA這個多跳、帶推理的競賽。大概在2019年2月份到5月份,我們通過把 BERT和圖神經網絡結合起來構造一個雙通道的認知過程,最終效果相比于使用BERT的系統(tǒng)提高了50%,如下圖所示。我們開放了相關代碼,感興趣的讀者可以嘗試。

更有意思的是我們發(fā)現這個模型的推理能力很強,它可以在多跳的方面取得相對于傳統(tǒng)方法更大的優(yōu)勢,如果用傳統(tǒng)的方法且跳數(特別是推理的跳數)特別少時,傳統(tǒng)的方法跟我們的方法相差不是特別大,但是如果推理過程、跳數很多時,我們的方法相對于傳統(tǒng)的方法的優(yōu)勢就非常加明顯。

此外,還有一個很重要的效果:這個方法對于傳統(tǒng)的方法可以有很強的可解釋性。如針對下面的問題,整個模型可以輸出一個推理的數出來,這個推理數既可能包含這個事實,也可能包含在推理過程中可能得到的一些不正確的答案,比如說這里包含120。所以大家可以看到在這個過程中系統(tǒng)帶有很強的可解釋性,我們把它叫做推理鏈的過程。這時候這個用戶可以把推理過程中正確答案、可能錯誤的答案(次優(yōu)答案)進行對比。因為人在認知的過程中并不是每一次決策一定要選最優(yōu)的,所以整個推理過程對整個人的認知和后續(xù)的作用是非常有用的。

當然,推理過程其實還可以有效的幫助后續(xù)的預測,比如說假如我們沒有做任何推理,而是直接用第一個信息來做推理的話,可能很難判斷。但是通過一層推理拿了更多信息以后,我們可以構造出一個圖神經網絡,這時候我們就有可能很精準地判斷出最重要的答案。所以,可以看到圖神經網絡還可以給出更多的信息,使得我們在推理的過程中有了更多的信息,從而提高了推理的精度,這是另外一方面的優(yōu)勢。

還有一個優(yōu)勢就是在推理過程中加上這個模型以后,我們可以做反饋、做錯誤糾正。比如說這個問題其實是真實的一個例子,我們在這個過程中發(fā)現推理出來的結果其實是不對的,這個時候可以通過這個模型給出一個可解釋性的推理路徑。最后,大家可以看到在整個推理路徑中看到哪些因素導致推理錯誤,哪些是最終使得我們推理得到目前結果的關鍵信息,這個時候用戶可以通過這樣的一個推理路徑來識別和判斷產生推理錯誤的原因。

關于認知圖譜的小結

總結來看,整個模型有幾個很重要的信息:

1、它其實是一個迭代的框架,它里面包含兩個過程,一個是叫作System 1的信息擴展或者信息匹配的過程,另一個是叫作System 2的帶決策和推理的過程。

2、它最大的優(yōu)勢是可以從外面不斷的獲取新的信息,有很強的可解釋性。

3、它利用了雙通道理論中的System 2的推理過程,從感知過程推進到了認知過程。

這樣的過程是不是只能在QA這個問題上用?答案是否定的。因為人的認知推理并不是簡單的只是在QA上體現,所以這個模型是通用的,我們也在其他很多應用上進行了嘗試,比如說知識圖譜的擴展。

這個是不是只能做問答?也不是。它既可以做問答,也可以做知識圖譜的補齊,下圖左邊是一個知識圖譜,右邊是基于剛才的模型來做知識圖譜的一個補齊,這是一個基本的一個思路。整個認知圖譜破有很多相關的一些應用,在我們后續(xù)中可以大量的進行使用。

AI的下個十年

我們非常有信心認為認知圖譜就是AI下個十年非常重要的過程。如果追溯AI的發(fā)展歷史,會發(fā)現AI的發(fā)展包括計算機的整個發(fā)展歷程,從早期的以存儲和計算為主發(fā)展到了當下以感知為主。比如,如果給定一個文本,我們可以快速知道文本中相關內容到底有什么樣的語義信息等,但是,目前的感知都缺少認知。

認知的第一個要素是能夠組織和生成知識,這是非常重要的一個內容。但是目前的認知智能還缺少推理過程,有些同學也許會講GPT-3目前其實已經體現了一定的推理過程,但其實它離人的推理過程還差得很遠。因此,AI發(fā)展的下一步的關鍵也就是認知,怎么把AI從感知推進到認知是目前一個非常重要的發(fā)展趨勢。

如果我們再回顧一下整個機器學習的發(fā)展歷程,會梳理出下圖所示的內容。

從機器學習發(fā)展歷程的幾個重要的里程碑來看,可以看到基于BERT的預訓練模型,其實把機器學習從傳統(tǒng)的有監(jiān)督學習、無監(jiān)督學習、強化學習這樣的模型推到了一個新的高度,也就是通過在大規(guī)模數據、大算力的基礎上預訓練完了以后,可以把它微調到很多子任務上,在子任務上可以不再進行大規(guī)模訓練就得到很好的效果。這是一個非常重要的一個進展。

最近在圖形上還有一些自監(jiān)督學習,比如何愷明等人在2019年提出的MoCo,這時候自監(jiān)督模型的分類結果可能比有監(jiān)督學習的結果還要好。

我們在這個idea的基礎上做了圖形化數據的直接學習,這是我們今年做的一個工作。我們給定一個圖、一個網絡以后,可以在網絡的基礎上自動找到網絡的正例,比如說對于當前節(jié)點可以通過一個隨機游走找到一個子圖,我們把它叫作查詢子圖,同時在這個節(jié)點上再做一次隨機游走,這時候肯定會找到另外一個不相關、不完全一樣、但是跟剛才的子圖非常相似的子圖,我們把兩個字圖匹配形成的度叫作正力度。同時,我們在網絡中隨機找到另外一個節(jié)點,然后從這個節(jié)點上隨機做一個子圖的隨機游走,這時候形成了另外一個子圖和查詢子圖,形成匹配,我們就這個叫做負力。通過正力、負力,我們就可以做一個對比學習。最終我們通過這樣的方法就可以構造一個圖形化數據的自監(jiān)督學習模式,這樣的模型就可以大大增強認知推理過程中System 1快速匹配的過程。

當然,在剛才講的認知推理過程中,System 2的認知推理過程還有所欠缺。用圖神經網絡來實現整個過程還是缺少推理過程,它更多地表現出的是決策過程,這是下一步研究應該重點關注的東西。

第三代AI

如果回顧一下AI的幾個階段,會發(fā)現:

第一代的符號AI在當時構造了符號模型、規(guī)則模型和感知機。

第二代AI更多的是做感知智能,通過在大數據上做統(tǒng)計學習。目前我們初步實現了這種感知智能和識別,這都是System 1做的事情。

在此背景下,張鈸院士在2016年提出了第三代AI的雛形,當時的思想把數據和知識推理兩個融合起來,與人腦認知融合起來,來做下一代的AI。目前急缺的是高質量的超大規(guī)模的知識圖譜(其實也是一個AI的基礎設施),以及面向已經面向知識的一個理解能力(面向認知的深度學習算法)。

那么,AI未來更多地要做什么呢?在國際上,Yoshua Bengio及DeepMind等在推動怎么把認知的過程跟深度學習結合起來做下一代的AI。一個很簡單的思路是把原來的符號系統(tǒng)跟深度學習結合起來,這是超越深度學習的一個最簡單的思路。這個空間非常大,它里面要研究的東西也非常多,我們也需要在里面做更深層次的一些相關的研究。

下一個十年AI最重要的一個方向就是做認知推理,它是實現大數據到知識、到智能的一個關鍵,這也是實現之前知識工程兩個最有代表性的圖靈獎獲得者推崇的從知識到智能的一個關鍵的轉變。

而30年以后的挑戰(zhàn),應該是讓計算機具有自我意識,我們稱其為意識AI。這里面推崇的核心內容是把認知推理跟人的記憶模型、計算機的自我意識聯(lián)合起來,他其實聯(lián)合了認知心理學中的全局工作理論(GWT),我把他的整個思想做了一個解讀,具體如下圖所示。

這其實相當于用計算機模擬了人的全局工作理論的過程。這個方面其實還在進行很多相關的一些研究,還沒有真正輸出一個很有意思的最終的結果。這個方面大家如果有興趣,也可以加入這方面的研究,來一起做相關的一些探索。

最后,我們最近也有一些相關的Paper,大家當然如果有興趣的話,也可以看看。

本次活動由中國科學技術協(xié)會主辦,清華大學計算機系、AI TIME、智譜·AI承辦,并得到了清華-中國工程院知識智能聯(lián)合研究中心、清華大學AI研究院、北京市智源AI研究院、阿里巴巴、微眾銀行、學術頭條、學堂在線等組織的大力支持。

評論
春雨631fc6a2
進士級
已閱讀
2022-11-30