作者:何曉東 博士、京東集團技術(shù)副總裁、人工智能研究院常務副院長、華盛頓大學(西雅圖)等院校兼職教授。曾任多個國際一流學術(shù)期刊編委,發(fā)表了100多篇論文, 谷歌學術(shù)論文引用超過1.5萬次。
本文談談我在語言與視覺的跨模態(tài)智能研究與產(chǎn)業(yè)應用方面的一些思考。
在人工智能領域中,模態(tài)是指智能體接收和輸出信息的特定方式。當前人工智能領域研究的主要模態(tài)包括語音、文本、圖像、視頻等。近30年來,計算機及相關(guān)技術(shù)的高速發(fā)展產(chǎn)生了大量的不同模態(tài)的信息(語音、文本、圖像、視頻,以及多樣的結(jié)構(gòu)化數(shù)據(jù)等),并進而催生出針對不同模態(tài)的專業(yè)領域研究,例如人類語言技術(shù)(Human Language Technology,HLT)、計算機視覺(Computer Vision,CV)等。
近年來,基于深度學習技術(shù),語言和視覺等單一模態(tài)研究領域取得了突破性的進展,比如在人臉識別、物體識別與檢測,圖像生成,語音識別與合成,語義理解、機器翻譯,機器應答及對話系統(tǒng)等單模態(tài)方向智能體的表現(xiàn)已經(jīng)在很多特定的數(shù)據(jù)集上達到與人相當?shù)乃健_@些研究成果也已在現(xiàn)實生活中落地成為重要的應用。但另一方面,隨著單一模態(tài)的基礎問題逐步得到解決,研究人員也意識到更高層次的人工智能任務往往涉及到更復雜的跨多個模態(tài)的信息處理問題,需要對跨模態(tài)信息處理進行研究。同時,單一模態(tài)專業(yè)領域的研究往往局限于某種特定模態(tài)的信息,未能充分利用跨模態(tài)信息的優(yōu)勢,而人類對復雜的智能任務的處理往往也是基于不同神經(jīng)中樞聯(lián)動地處理各種模態(tài)信息進行的,不只是單單地利用某一種中樞進行任務處理。鑒于此,跨模態(tài)研究順其自然地受到越來越多的關(guān)注,并逐步成為人工智能領域下一階段的重要研究課題。
鑒于跨模態(tài)研究方向的重要性,本文將從表征學習、跨模態(tài)信息融合和典型應用三個角度簡要介紹近年來跨模態(tài)領域,特別是語言與視覺跨模態(tài)領域的主要研究方向及相關(guān)研究進展,并探討論跨模態(tài)方向未來的研究趨勢。
研究發(fā)展狀況
語言與視覺跨模態(tài)領域的研究主要包括以下3個方面.
1. 跨模態(tài)表征學習(Multimodal Representation Learning)。研究將多個模態(tài)數(shù)據(jù)所蘊含的語義信息投影到連續(xù)向量表征空間以進行信息融合和推理(見圖1)。與單模態(tài)表征學習(如文本表征模型Deep Structured Semantic Models(DSSM)、Bidirectional Encoder Representations for Transformers(BERT)等)往往只關(guān)注單一模態(tài)數(shù)據(jù)自身的特點不同,跨模態(tài)表征學習需要同時從多個異質(zhì)信息源(例如視覺、文字、語音等)中通過聯(lián)合學習提取被研究對象的特征,并需要將不同模態(tài)的語義信息投影到一個統(tǒng)一的表征空間。之前常用模型包括Deep Multimodal Similarity Models (DMSM)等模型,而近期在單一文本模態(tài)BERT的啟發(fā)下提出的一系列圖像/視頻與文本融合的模型比如VL-BERT等代表了這個方向的最新研究進展??缒B(tài)表征學習還包括通過建立跨模態(tài)的統(tǒng)一的語義空間將信息富集的模態(tài)上學習的知識遷移到信息匱乏的模態(tài),比如跨模態(tài)的零樣本學習、領域自適應等。該研究方向旨在對于缺乏標注數(shù)據(jù)、樣本存在大量噪聲以及數(shù)據(jù)收集質(zhì)量不可靠的情況下,嘗試將其他模態(tài)上學習到的知識遷移到目標模態(tài)以提高其性能。
圖1 跨模態(tài)語義空間與表征學習
2. 跨模態(tài)信息融合(Multimodal Information Fusion)。研究如何融合不同模態(tài)的信息以完成復雜的跨模態(tài)任務。信息融合的研究包括整合不同模態(tài)間的模型與特征,從而得到整合的表征輸出??缒B(tài)融合能獲取更豐富的信息,提高模型的魯棒性與準確性。常見的融合模型包括跨模態(tài)緊致雙線性池化(Multimodal Compact Bilinear Pooling,MCB)等方法。這為下游的具體應用,如視覺問答(Visual Question Answering ,VQA),提供了跨模態(tài)整合后的信息輸入。跨模態(tài)信息融合的研究也包括研究不同模態(tài)之間的元素(比如視覺模態(tài)中的物體、姿態(tài),以及語言模態(tài)中的概念、實體等)的對應關(guān)系。一方面,跨模態(tài)元素的對齊是一種更細粒度的映射關(guān)系,可以有效幫助提升跨模態(tài)映射任務;另一方面,跨模態(tài)數(shù)據(jù)對齊也可以幫助學習更優(yōu)的跨模態(tài)表征。例如從圖像中識別出實體,并與文本里的實體甚至知識圖譜等結(jié)構(gòu)化數(shù)據(jù)構(gòu)建鏈接關(guān)系,以幫助構(gòu)建跨模態(tài)知識,以及更好地提升跨模態(tài)信息理解。常見的跨模態(tài)對齊(grounding)算法往往基于注意力模型(Attention),包括堆棧注意力網(wǎng)絡(Stacked Attention Networks,SAN)),自底向上和自頂向下的雙向注意力模型(Bottom-Up and Top-Down(BUTD)Attention)等。
3. 跨模態(tài)智能應用(Multimodal Applications)。典型的語言和視覺跨模態(tài)任務,包括圖像/視頻轉(zhuǎn)文字(Image/Video Captioning)、文字轉(zhuǎn)圖像(Text-to-Image Synthesis)、視覺問答(VQA)、跨模態(tài)檢索(Cross Modal/Media Retrieval)、語言+視覺導航(Visual Language Navigation)、跨模態(tài)人機對話與交互(Multimodal Dialogue and Interaction)等。這些任務一方面驅(qū)動了跨模態(tài)智能各方面的基礎研究,另一方面也在實際場景中得到了廣泛的應用。隨著跨模態(tài)研究的深入,更多的應用還將被提出。
前景與機遇
在上面提到的研究方向之外,以下3個研究與應用方向在未來也有很大的發(fā)展空間。
1.跨模態(tài)常識知識學習。從海量圖像與視頻內(nèi)容中自動構(gòu)建結(jié)構(gòu)化的常識知識(Common-sense Knowledge)以幫助語義理解。圖像與視頻數(shù)據(jù)往往包含了廣泛的日常事實。以其作為輸入,借助目標檢測、實體鏈接,自底向上和自頂向下的注意力機制(BUTD Attention)和自注意力機制 (如視覺Hierarchical Attention Networks(HAN)) 等技術(shù)挖掘出海量視覺信息中的海量事實,比如實體、動作、屬性、概念、及它們之間的關(guān)聯(lián)等,從而構(gòu)建廣泛的結(jié)構(gòu)化的常識模型。構(gòu)建出的常識模型可以幫助需要常識推理的應用,例如自然語言理解、機器閱讀、視覺問答(VQA)等。該方向的研究重點包括:① 如何定義常識、并構(gòu)造視覺與常識跨模態(tài)數(shù)據(jù)集;② 提出新的跨模態(tài)常識學習算法;③ 構(gòu)造新的認知任務以體現(xiàn)常識的關(guān)鍵作用以驗證算法的進展;④ 常識更新機制等,均是亟待解決的問題。
2.跨模態(tài)情感智能。高級的情感智能是人類特有的一種認知能力。人類的交流天然是情感豐富的,并且往往跨越多個模態(tài)(語言、視覺、結(jié)構(gòu)化知識等)。為建造高度擬人化的人機交互智能體,機器需要能理解與生產(chǎn)跨模態(tài)的情感內(nèi)容,能與人進行有同理心的跨模態(tài)情感交流。這個方面的基礎研究不但可幫助我們理解認知智能機理,也有很大的實際應用價值。比如目前直播,以及短視頻等文娛媒介極大地滿足眾多用戶的情感寄托需求,由此積累了大量用戶,產(chǎn)生巨大商業(yè)價值。跨模態(tài)情感智能的難點在于如何感知和對齊在不同模態(tài)下情感的微妙的表達,并保證不同模態(tài)之間數(shù)據(jù)的一致性與合理性。該任務屬于跨模態(tài)研究的跨模態(tài)融合問題,目前該問題尚未有成熟的相關(guān)研究。
3.大規(guī)模復雜任務導向跨模態(tài)智能人機交互系統(tǒng)。服務產(chǎn)業(yè)智能化對人工智能技術(shù)而言是個巨大的機遇,也是個巨大的挑戰(zhàn)。以電商為例,在業(yè)務不斷拓展的背景下,電商產(chǎn)業(yè)面臨的是超大規(guī)模的數(shù)據(jù)應用和零售全鏈條復雜人機交互的場景,需要對10億級別的用戶提供個性化的高效率的零售服務體驗,所以急需大規(guī)模復雜任務導向跨模態(tài)智能人機交互技術(shù)的支撐。為此,在推動開源開放跨模態(tài)人機交互系統(tǒng)框架,構(gòu)建大規(guī)模數(shù)據(jù)集和算法驗證平臺,開展跨媒體信息智能技術(shù)的基礎研究等幾個方面均充滿機遇,而在這些方面的基礎研究和技術(shù)突破也將為更廣泛的服務產(chǎn)業(yè)的智能化提供支撐。
結(jié)束語
目前跨模態(tài)的研究尚處于初級階段,是新興的研究方向,但卻是人工智能發(fā)展歷程上的重要節(jié)點。如何建造具有多重模態(tài)感知能力的智能體,并利用不同模態(tài)數(shù)據(jù)之間的聯(lián)系來提升智能體對世界的認知能力是一個重要的課題。本文對跨模態(tài)研究的背景和研究方向做了簡單的梳理,希望能進一步激發(fā)人工智能學者對語言與視覺跨模態(tài)研究的興趣,推動這一研究領域的進展。