人工智能與深度學(xué)習(xí)是當(dāng)前的熱門領(lǐng)域,但你聽(tīng)說(shuō)過(guò)“表示學(xué)習(xí)”嗎?據(jù)說(shuō)參與其中還能提高“脫單”幾率?這都是怎么回事>>>
撰文/記者 趙天宇 編輯/劉昭
新媒體編輯/李云鳳
4月25-29日,2022年第10屆國(guó)際表示學(xué)習(xí)大會(huì)(ICLR)以線上的方式召開(kāi),這也是從2020年開(kāi)始,ICLR連續(xù)三年在線上舉辦。但這絲毫不影響這個(gè)只有10年歷史的“年輕”學(xué)術(shù)會(huì)議,被學(xué)術(shù)研究者們廣泛認(rèn)可,成為 “人工智能學(xué)術(shù)會(huì)議領(lǐng)域的一匹黑馬”。
隨著人工智能領(lǐng)域的快速發(fā)展,近年來(lái),深度學(xué)習(xí)在語(yǔ)音識(shí)別、圖像分析和自然語(yǔ)言處理領(lǐng)域得到了廣泛的應(yīng)用和發(fā)展。深度學(xué)習(xí)的基礎(chǔ)是機(jī)器學(xué)習(xí),當(dāng)然對(duì)于機(jī)器學(xué)習(xí)而言,僅學(xué)會(huì)深度學(xué)習(xí)是遠(yuǎn)遠(yuǎn)不夠的,通過(guò)學(xué)習(xí)獲得特征向量的“表示學(xué)習(xí)”才是人工智能的進(jìn)階之路,這也是“表示學(xué)習(xí)”這個(gè)“陌生名詞”近年來(lái)在人工智能領(lǐng)域,逐漸占據(jù)舉足輕重位置的重要原因。
○ ○ ○
傳統(tǒng)機(jī)器學(xué)習(xí)很依賴人工
表示學(xué)習(xí)一詞由英文的“representation learning”而來(lái),也會(huì)被稱為表征學(xué)習(xí),目前業(yè)界還沒(méi)有統(tǒng)一的叫法。
眾所周知,數(shù)據(jù)是機(jī)器學(xué)習(xí)的核心,它決定了機(jī)器學(xué)習(xí)的上限,有至關(guān)重要的作用。在人類和大量數(shù)據(jù)的幫助下,電腦可以表現(xiàn)得十分強(qiáng)大,但是離開(kāi)了這兩者,它甚至都不能分辨一只貓和一只狗。
▲表示學(xué)習(xí)示意圖(圖片來(lái)源/Cloudera)
事實(shí)上,這并非調(diào)侃,因?yàn)閭鹘y(tǒng)的機(jī)器學(xué)習(xí)非常依賴于人工經(jīng)驗(yàn)。
舉個(gè)例子來(lái)說(shuō),在計(jì)算機(jī)當(dāng)中,我們要把一張臉保存起來(lái)并識(shí)別,需要程序員自己編寫一串代碼,用以表示人臉。這種方法雖然理論上可行,但是畢竟是人確定的,人難免會(huì)出錯(cuò),一千張人臉就得寫一千種代碼,與其說(shuō)是人工智能,更像是“人力工程”。
并且,機(jī)器學(xué)習(xí)的模型通用性往往較差,很難像人一樣,能夠進(jìn)行快速靈活地學(xué)習(xí)與應(yīng)用。比如教一個(gè)咿呀學(xué)語(yǔ)的小朋友“什么是蘋果”,大人只需要指著蘋果說(shuō)“蘋果”十幾次甚至幾次,孩子一般就能快速識(shí)別各種顏色和形狀的蘋果。但對(duì)于機(jī)器來(lái)說(shuō),需要看幾千個(gè)甚至幾萬(wàn)個(gè)蘋果的照片才能做到,再?gòu)?fù)雜一些的語(yǔ)音識(shí)別,則可能需要數(shù)百萬(wàn)個(gè)示例。
為什么會(huì)出現(xiàn)這種情況?令人遺憾的是,這些問(wèn)題至今還沒(méi)有確切答案。編碼是處理信息的第一步,那么人類是如何對(duì)圖像進(jìn)行編碼的?他提取了哪些特征可以通過(guò)少量樣本進(jìn)行學(xué)習(xí)?這些我們都還不清楚,但這至少給科研人員確定了一個(gè)方向,必須對(duì)機(jī)器進(jìn)行訓(xùn)練,讓它們自己掌握確定向量的能力,才能向人腦的方向進(jìn)化。
(圖片來(lái)源/Analytics India Magazine)
○ ○ ○
給機(jī)器“授之以漁”
因此,表示學(xué)習(xí)的概念開(kāi)始被引入。簡(jiǎn)單來(lái)說(shuō),在機(jī)器學(xué)習(xí)領(lǐng)域,表示學(xué)習(xí)就是一種將原始數(shù)據(jù),轉(zhuǎn)換成為更容易被機(jī)器學(xué)習(xí)應(yīng)用數(shù)據(jù)的過(guò)程。
表示學(xué)習(xí)中,有兩個(gè)核心問(wèn)題非常關(guān)鍵,一個(gè)是“什么是一個(gè)好的表示”,另外一個(gè)則是“如何學(xué)習(xí)到好的表示”。
表示學(xué)習(xí)的目的,是把復(fù)雜的原始數(shù)據(jù)化繁為簡(jiǎn),把原始數(shù)據(jù)提煉成更好的數(shù)據(jù)表達(dá),使后續(xù)的任務(wù)事半功倍。這與我們耳熟能詳?shù)闹V語(yǔ)“授之以魚(yú)不如授之以漁”頗有些相似,只不過(guò)到了計(jì)算機(jī)領(lǐng)域中,這種“漁”變得更加復(fù)雜和抽象起來(lái)。
清華大學(xué)計(jì)算機(jī)學(xué)院教授鄧志東告訴記者:“表征(表示)就是分層特征向量表達(dá)的意思,所謂表征(表示)學(xué)習(xí),說(shuō)的就是深度卷積神經(jīng)網(wǎng)絡(luò),某種意義上,也可以看成是深度學(xué)習(xí)的另一種說(shuō)法和表述?!?/p>
深度學(xué)習(xí)是當(dāng)前機(jī)器學(xué)習(xí)的一個(gè)熱門領(lǐng)域,也被認(rèn)為是第三次人工智能浪潮發(fā)展的助推器:相對(duì)于淺層學(xué)習(xí)依靠人工經(jīng)驗(yàn)抽取樣本特征,獲得的沒(méi)有層次結(jié)構(gòu)的單層特征而言,深度學(xué)習(xí)通過(guò)對(duì)原始信號(hào)進(jìn)行逐層特征變換,將樣本在原空間的特征表示變換到新的特征空間,自動(dòng)地學(xué)習(xí)得到層次化的特征表示,從而更有利于分類或特征的可視化。
所以從本質(zhì)上來(lái)看,表示學(xué)習(xí)是深度學(xué)習(xí)的進(jìn)階版:“表示學(xué)習(xí)的算法包括了監(jiān)督、半監(jiān)督、強(qiáng)化和無(wú)監(jiān)督學(xué)習(xí)方法等多種,范圍比完全監(jiān)督的深度卷積神經(jīng)網(wǎng)絡(luò)更寬廣,研究的意義也就更深遠(yuǎn)。”鄧志東說(shuō)。
日常生活中,表示學(xué)習(xí)也有不少具體的應(yīng)用案例:例如我們?nèi)粘J褂玫摹靶〖t書(shū)”“大眾點(diǎn)評(píng)”“美團(tuán)”“淘寶”等手機(jī)應(yīng)用,首頁(yè)推薦欄目的內(nèi)容來(lái)源,就是利用表示學(xué)習(xí)的算法特點(diǎn),記錄用戶瀏覽時(shí)的商品特征、狀態(tài)與上下文信息,最終形成的內(nèi)容。
同時(shí),表示學(xué)習(xí)在認(rèn)知過(guò)程當(dāng)中,也發(fā)揮著非常重要的作用。比如人們研究開(kāi)發(fā)自動(dòng)駕駛技術(shù)的核心目的,就是讓機(jī)器認(rèn)知事物,利用機(jī)器代替人類,實(shí)現(xiàn)防止前方碰撞、防止偏離車道、保持車距等。
○ ○ ○
能“解決婚戀”的ICLR
表示學(xué)習(xí)從結(jié)構(gòu)上講是數(shù)據(jù)的一個(gè)預(yù)處理手段,就如同當(dāng)下的人工智能發(fā)展水平,表示學(xué)習(xí)還有很多不盡人意之處,對(duì)它深層次的邏輯和方法,也有很多可以挖掘和探討的內(nèi)容。
因此在2013年,國(guó)際表示學(xué)習(xí)大會(huì)(ICLR)誕生了,ICLR最早從國(guó)際人工智能及統(tǒng)計(jì)會(huì)議中脫胎,是由深度學(xué)習(xí)三大巨頭之二的約書(shū)亞·本吉奧和楊立昆牽頭創(chuàng)辦的。
▲被譽(yù)為“卷積網(wǎng)絡(luò)之父”的楊立昆(Yann LeCun)(圖片來(lái)源/紐約大學(xué)官網(wǎng))
本吉奧是蒙特利爾大學(xué)教授,他領(lǐng)導(dǎo)的蒙特利爾大學(xué)人工智能實(shí)驗(yàn)室(MILA)是世界上最大的人工智能研究中心之一,與谷歌有著密切的合作。楊立昆不僅是Facebook首席人工智能科學(xué)家和紐約大學(xué)教授,還是圖靈獎(jiǎng)獲得者,被譽(yù)為“卷積神經(jīng)網(wǎng)絡(luò)之父”。
在ICLR之前,人工智能、深度學(xué)習(xí)領(lǐng)域的學(xué)術(shù)會(huì)議,還缺乏一個(gè)場(chǎng)所,能讓學(xué)者們交流分享在表示學(xué)習(xí)中所遇到與關(guān)心的話題,而ICLR 的出現(xiàn)恰好彌補(bǔ)了這樣的空白,所以ICLR得到了快速的發(fā)展。
此外ICLR推行的Open Review (公開(kāi)評(píng)審)論文評(píng)審制度,也讓參與者紛紛拍手叫好:根據(jù)規(guī)定,所有提交的論文都會(huì)公開(kāi)姓名等信息,任何學(xué)者都可或匿名或?qū)嵜卦u(píng)價(jià)論文。而在公開(kāi)評(píng)審結(jié)束后,論文作者也能夠?qū)φ撐倪M(jìn)行調(diào)整和修改。
2020年,人們?cè)跒g覽ICLR論文時(shí)“震驚”地發(fā)現(xiàn),一名叫Yu Rong的中國(guó)年輕人論文在致謝部分一本正經(jīng)地寫道:“本研究受國(guó)家科技部重大專項(xiàng)資助。另外,Yu Rong特別要感謝Yunman Huang多年來(lái)的關(guān)愛(ài)和支持,你愿意嫁給我么?”
▲“震驚”網(wǎng)友的ICLR論文致謝(圖片來(lái)源/微博@王威廉)
論文中求婚得到了積極的反饋,被求婚的這位女士在社交媒體平臺(tái)上進(jìn)行了回復(fù):“我就是被求婚的這位!作者已經(jīng)成功了!”隨即網(wǎng)友們也紛紛送上了祝福。
至此ICLR開(kāi)始迅速“出圈”。甚至有人調(diào)侃,在ICLR上發(fā)布論文不僅能夠普及學(xué)術(shù)成果,獲得“科學(xué)食糧”,還能夠增加求婚成功的幾率,高效解決當(dāng)下年輕人婚戀問(wèn)題,播下“愛(ài)情的種子”,可謂一舉多得。
不到10年的時(shí)間,ICLR已經(jīng)成長(zhǎng)為人工智能、深度學(xué)習(xí)領(lǐng)域最具看點(diǎn)的學(xué)術(shù)會(huì)議,未來(lái)可期。這是表示學(xué)習(xí)本身快速發(fā)展的一個(gè)縮影,也從另一方面說(shuō)明,表示學(xué)習(xí)可能正在成為推動(dòng)人工智能新一輪快速發(fā)展的又一“利器”?!?/p>
了解更多學(xué)術(shù)前沿動(dòng)態(tài) 請(qǐng)掃描二維碼
出品:科普中央廚房
監(jiān)制:北京科技報(bào) | 北科傳媒
歡迎分享到朋友圈
未經(jīng)授權(quán)謝絕轉(zhuǎn)載