·“大模型發(fā)展到今天,像GPT4.0已經(jīng)能力非常強大,但其實也還存在很多問題,我們要找到其中的問題,去思考還可以做些什么。一個公認的遠遠沒有解決的問題是多模態(tài),除了文本以外,首先就是圖像和計算機視覺?!?/em>
IDEA研究院(粵港澳大灣區(qū)數(shù)字經(jīng)濟研究院)創(chuàng)院理事長、美國國家工程院外籍院士沈向洋在深圳舉行的2023 IDEA大會上。
“在大模型蓬勃發(fā)展的今天,我們要問自己幾個問題,還有什么機會?我們還能做些什么?”
11月22日,IDEA研究院(粵港澳大灣區(qū)數(shù)字經(jīng)濟研究院)創(chuàng)院理事長、美國國家工程院外籍院士沈向洋在深圳舉行的2023 IDEA大會上表示,“大模型發(fā)展到今天,像GPT4.0(OpenAI研發(fā)的大語言模型)已經(jīng)能力非常強大,但其實也還存在很多問題,我們要找到其中的問題,去思考還可以做些什么。一個公認的遠遠沒有解決的問題是多模態(tài),除了文本以外,首先就是圖像和計算機視覺?!?/p>
推出視覺提示模型T-Rex
那么視覺大模型還有沒有機會?沈向洋認為,計算機視覺有許多自己的特點,第一是場景非常長尾,可以理解為“有一百個場景,就得有一百個模型”。第二是問題碎片化,而非結(jié)構化。這一方面意味著問題間差異大,另一方面則是互聯(lián)網(wǎng)的數(shù)據(jù)并不足夠?qū)⒂嬎銠C視覺需要檢測的場景都覆蓋。這就意味著,像GPT之于語言理解領域一樣,要解決這樣的問題,計算機視覺領域也需要通用的視覺大模型。
今年4月,IDEA研究院曾推出“一句話檢測、分割、生成一切”的工具Grounded SAM,其通過文字提示即可實現(xiàn)精準的目標檢測,還可以利用Stable Diffusion模型對分割出來的區(qū)域做可控的文圖生成,泛化能力極強。當時這個項目一經(jīng)發(fā)布就在GitHub引起廣泛討論,基于生成模型其還可以做更多的拓展應用,如多領域精細化編輯、高質(zhì)量可信的數(shù)據(jù)工廠的構建等。
沈向洋介紹研究團隊帶來的新作:視覺提示模型T-Rex。
此次大會上,沈向洋介紹同個研究團隊帶來的新作:視覺提示模型T-Rex。T-Rex是一個開箱即用的模型,無需重新訓練或微調(diào),即可檢測模型在訓練階段從未見過的物體。產(chǎn)品研究團隊表示,在真實應用場景中,許多罕見、復雜物體難以用文字充分描述,視覺提示的加入能夠有效解決這一痛點。直觀的視覺反饋與強交互性,也有助于提升檢測的效率和精準度。
除此之外,沈向洋認為,大模型目前存在的另一個大問題即“一本正經(jīng)地胡說八道”,“因為大模型整體是數(shù)據(jù)驅(qū)動,基本上可以把它想象為一個統(tǒng)計工具,所以其中一個最大的問題就是‘coherent nonsense’(有條理的胡謅)?!?/p>
如果真正要解決這個問題,提高大模型的深度推理能力,沈向洋認為必須要思考的是:第一大模型不擅長深度推理,相對較膚淺;第二大模型很自信講出來的知識不可以溯源,所以真的是‘胡說八道’生成的;同時還有實時更新問題,目前通常用歷史上的知識訓練大模型,當有新的知識更新時,代價也比較大。
據(jù)沈向洋介紹,IDEA研究院的幾個團隊都在試圖解決這一問題。在主題演講中,他特別提到的一個思路是讓大模型和知識圖譜完成互補,即Think-on-Graph(思維圖譜)技術??傮w而言,大模型更擅長意圖理解和自主學習,而知識圖譜因其結(jié)構化的知識存儲方式,則更擅長邏輯鏈條推理,具有更佳的可解釋性與可實時更新性。Think-on-Graph通過實現(xiàn)兩者的緊耦合交互,使大模型在知識圖譜上“思考”,通過逐步搜索推理出最優(yōu)答案(即在知識圖譜的關聯(lián)實體上一步一步搜索推理)。
據(jù)IDEA研究院執(zhí)行院長、AI金融與深度學習研究中心負責人郭健介紹,“和ChatGPT相比,Think-on-Graph已經(jīng)在七個典型的知識問答數(shù)據(jù)集上取得了SOTA(在特定時間實現(xiàn)的總體發(fā)展的最高水平)。除了深度推理能力提升外,還有一個天然優(yōu)勢即知識可追溯。”
“AI將對中低端人才形成沖擊”
事實上,隨著人工智能技術的快速發(fā)展,對于技術的擔憂也越來越多。一個常常被討論的問題是——這項技術發(fā)展到最后,將對人類意味著什么,會不會帶來很多問題?
沈向洋也某種程度上間接做了回應,“如果在歷史的長河中去思考,答案是非常簡單也非常明確的。因為人類的存在在宇宙的發(fā)展中只是很短暫的一部分,人類的誕生是非常偶然的事情。”
更具體而言,當機器能寫代碼寫論文,還能當醫(yī)生以后,人類還能做什么?
對此,沈向洋提出兩個觀點:第一,現(xiàn)在人工智能的發(fā)展對尖端人才的要求跟以前沒有太多的差距,但會對中端和低端人才形成沖擊,比如簡單準備收集資料的工作就可以由大模型完成。第二,沈向洋此前和他在微軟的同事寫過一本書《The Future Computed(計算未來)》,其中一個觀點是,“如果未來的工具越來越好,生產(chǎn)力越來越高,人類的空余時間也會越來越多。就像以前一個星期工作7天,后來工作6天、5天,歐洲某些地方甚至只需要工作4天。同時空余時間多了以后,對于技能和人才也慢慢會出現(xiàn)新的定義。”
中國工程院院士高文也在對談中回應道,相比AI,人更為擅長的地方是適應性強,“適應能力最強的科學家是最頂級、最優(yōu)秀的科學家?!?/p>
高文認為,大模型出來后,隨著人工智能的發(fā)展,對科學家、工程師的要求水漲船高,需要大家盡快調(diào)整,適應新情況。他舉例說,“比如說寫代碼,已經(jīng)不需要人從底層一點點往上寫,更需要從中間或者更高層再往上寫,所以就需要調(diào)整自己,盡快把以前那些自己覺得最驕傲的東西拋掉。在已有的基礎上,能做得更好、與時俱進,才是更優(yōu)秀的人才?!?/p>