科技巨頭谷歌的新大模型Gemini一夜爆紅,受到市場看好,但有分析指出,谷歌在Gemini的宣傳資料中存在夸大宣傳的嫌疑。
當(dāng)?shù)貢r間12月6日,谷歌宣布推出“最大、最強、最通用”的新大型語言模型Gemini。Gemini將是首個直接在手機上運行的大模型,被應(yīng)用于谷歌Pixel 8 Pro智能手機和聊天機器人Bard。Gemini被視為對于AI(人工智能)新銳巨頭OpenAI旗下最新大模型GPT-4的直接回應(yīng),也象征著一度因聊天機器人ChatGPT而處于被動狀態(tài)的谷歌終于正式?jīng)_回賽道。
據(jù)谷歌介紹,Gemini在MMLU(大規(guī)模多任務(wù)語言理解)的得分率達到90.0%,是第一個在MMLU測試中超過人類專家的模型。Gemini將包括一套三種不同規(guī)模的模型,其中,Gemini Ultra被定位為GPT-4的競爭對手,Gemini Pro的性能優(yōu)于GPT-3.5,Gemini Nano則用于特定任務(wù)和移動設(shè)備。
憑借強大的性能,Gemini一夜爆紅,引來了華爾街的關(guān)注。12月7日,谷歌母公司Alphabet(Nasdaq:GOOG)的股價漲5.31%,收于136.93美元,迎來自今年8月29日以來表現(xiàn)最好的一天,總市值達到1.72萬億美元。
美國銀行的分析師在6日指出,由于人們對于谷歌的AI能力感到擔(dān)憂,Alphabet今年承受了一定的壓力,而一款“具有良好品牌形象的、競爭力較強的模型”可能會吸引更多消費者使用谷歌搜索,并對云服務(wù)的銷售產(chǎn)生積極影響:“數(shù)據(jù)顯示谷歌擁有一流的、不可復(fù)制的AI能力,這可能對公司在2024年上半年的股票走勢產(chǎn)生積極影響?!?/p>
摩根大通的分析師在6日的一份報告中寫道,盡管市場在當(dāng)天沒有對Gemini給出明顯的反應(yīng),能夠看到谷歌在“這一主要技術(shù)轉(zhuǎn)變”中的進展還是十分“鼓舞人心”。然而,摩根大通也指出,大模型在“搜索領(lǐng)域的貨幣化路徑存在不確定性”,可能會在未來帶來一些阻力。
在7日的報告中,摩根大通的分析師寫道:“雖然現(xiàn)在還處于其發(fā)展早期,但Gemini的推出象征著在生成式AI獲得廣泛商業(yè)化并得到廣泛傳播的第二年中,谷歌做出了重大創(chuàng)新?!?/p>
目前看來,谷歌如何在整體業(yè)務(wù)、尤其是最重要的搜索業(yè)務(wù)中將Gemini進行商業(yè)化是備受華爾街關(guān)注的一點。目前,谷歌計劃在本月晚些時間通過谷歌云將Gemini授權(quán)給客戶,并將在未來幾個月與谷歌服務(wù)中的其他產(chǎn)品集成,但還沒有公布后續(xù)的商業(yè)化策略。
富國銀行(Wells Fargo)的分析師表示,Gemini的推出應(yīng)該足以平息關(guān)于“谷歌在AI領(lǐng)域究竟應(yīng)該何去何從”的爭論,不過,關(guān)鍵問題在于谷歌如何利用Gemini獲得營利:“簡而言之,我認為谷歌證明了他們?nèi)匀痪哂幸恍└偁幜Α!?/p>
而KeyBanc的分析師也表示,Gemini是谷歌今年眾多AI公告的“頂峰”,但要讓AI對谷歌的業(yè)績增長和盈利能力產(chǎn)生積極影響需要時間:“Gemini仍在努力進入搜索等核心產(chǎn)品,因此我們建議耐心觀察其影響。”
不同于華爾街的整體看好,在科技領(lǐng)域中有聲音指出,Gemini或許存在“夸大宣傳”的質(zhì)疑。
在Gemini于6日推出后不久,就有網(wǎng)友指出了宣傳資料中的一些不妥之處。例如,當(dāng)谷歌稱Gemini的MMLU的得分率高于GPT-4時,顯示GPT-4的得分率是86.4%,但根據(jù)谷歌發(fā)布的60頁技術(shù)報告,Gemini Ultra的MMLU測試結(jié)果下有“CoT@32”的小字注釋,表示其使用了思維鏈提示技巧,嘗試了32次并從中選擇最好結(jié)果。而作為對比的GPT-4卻是無提示詞技巧給5個示例,在這個標(biāo)準(zhǔn)下,Gemini Ultra的測試結(jié)果其實是83.7%,低于GPT-4的86.4%。
如果是同樣使用CoT@32的方法,雖然成績?nèi)缘陀贕emini Ultra,GPT-4的得分率達到了87.29%。
Gemini和GPT在各種條件下的MMLU測試分數(shù)比較。來源:谷歌
如果像谷歌DeepMind首席科學(xué)家杰夫·迪恩(Jeff Dean)回應(yīng)的那樣,這種寫法只是為了顯示兩種不同方法間的比較,對于Gemini測試視頻的質(zhì)疑則顯得更加難以反駁。
在推出Gemini后,谷歌發(fā)布了一個時長六分鐘的演示視頻,展現(xiàn)了測試員和Gemini的一些有趣互動,其中包括讓Gemini識別圖片并用多種語言描述、讓Gemini利用一張地圖設(shè)計智力問答、和Gemini玩杯子游戲和推理小游戲等等。在整個過程中,Gemini的反應(yīng)速度都非??欤€會生成音頻和圖片來輔助回答,并用上一些口語化乃至幽默化的表達,可謂是讓人大開眼界。
然而,很快就有網(wǎng)友從視頻開篇的文字免責(zé)聲明中發(fā)現(xiàn)了問題,認為其可能暗示了視頻中展示的是精心挑選的好結(jié)果,不是實時錄制,而經(jīng)過剪輯的。隨后,谷歌在一篇博客文章中解釋了多模態(tài)交互過程,基本上也間接承認了只有使用靜態(tài)圖片和多段提示詞拼湊,才能達成演示視頻中的效果。
例如,在文章中,谷歌承認,不同于視頻中對于猜拳手勢的快速反應(yīng),只有在向Gemini同時展示這三個手勢并提示其這是游戲時,Gemini才會得出猜拳游戲的結(jié)論。官網(wǎng)截圖
有分析指出,這和谷歌在視頻中所暗示的可以說是完全不同,因為從視頻看來,Gemini可以實時觀察周圍的世界并做出反應(yīng),用戶可以與Gemini進行流暢的語音對話。沃頓商學(xué)院教授伊?!つ耍‥than Mollick)也在X平臺上進行了演示,如果是使用靜態(tài)圖片和多段提示詞,完全可以通過ChatGPT Plus來復(fù)制Gemini的表現(xiàn)。
伊?!つ私oChatGPT Plus同時展示谷歌演示視頻中的多張截圖,ChatGPT Plus也能給出類似的答案。
在質(zhì)疑發(fā)酵后,谷歌DeepMind產(chǎn)品副總裁伊萊·柯林斯(Eli Collins)對外媒回應(yīng)稱,視頻中的畫鴨子演示(畫一個鴨子的簡筆畫,Gemini可以對每一步驟做出正確的解釋)確實是研究級別的功能,至少目前還沒有出現(xiàn)在谷歌的實際產(chǎn)品中。
谷歌DeepMind研究和深度學(xué)習(xí)負責(zé)人副總裁奧里奧爾·維尼亞爾斯(Oriol Vinyals)也在X(原推特)平臺上發(fā)布長文,解釋了團隊是如何制作該視頻的:“視頻中的所有用戶提示和輸出都是真實的,只是為了簡潔而進行了縮短。”維尼亞爾斯還表示:“該視頻展示了使用Gemini構(gòu)建的多模態(tài)用戶體驗是什么樣子。我們這樣做是為了激勵開發(fā)人員。”
然而,維尼亞爾斯的回應(yīng)引發(fā)了更多的爭議。有網(wǎng)友評論道:“如果你想激勵開發(fā)者,為什么不發(fā)布真實的內(nèi)容呢?被縮短的用戶提示就不算‘真實’。這樣做既不真誠,又具有誤導(dǎo)性?!?/p>
有谷歌員工對外媒透露,他們認為這段視頻描繪了一幅“不切實際的畫面”。有員工表示,對這種夸張的演示并不感到驚訝,因為員工們已經(jīng)習(xí)慣了公司會對產(chǎn)品在某種程度上進行夸大營銷:“我認為大多數(shù)使用過大語言模型技術(shù)的員工都知道,要對(演示中的)這一切持保留態(tài)度。”
有外媒認為,谷歌“龐大的官僚體系和各級產(chǎn)品經(jīng)理使其直到現(xiàn)在都無法像OpenAI那樣敏捷地推出產(chǎn)品”。對于正在應(yīng)對AI轉(zhuǎn)型影響的社會而言,這并不是壞事。但對于谷歌最近這種迅速推進的表現(xiàn),應(yīng)該保持一定的保留態(tài)度。