版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

[科普中國]-生成對抗結(jié)構(gòu)

科學(xué)百科
原創(chuàng)
科學(xué)百科為用戶提供權(quán)威科普內(nèi)容,打造知識科普陣地
收藏

生成對抗結(jié)構(gòu)GAN (Generative adversarial networks)目前已經(jīng)成為人工智能學(xué)界一個熱門的研究方向,GAN的基本思想源自博弈論的二人零和博弈,由一個生成器和一個判別器構(gòu)成,通過對抗學(xué)習(xí)的方式來訓(xùn)練,目的是估測數(shù)據(jù)樣本的潛在分布并生成新的數(shù)據(jù)樣本,在圖像和視覺計(jì)算、語音和語言處理、信息安全、棋類比賽等領(lǐng)域,GAN正在被廣泛研究,具有巨大的應(yīng)用前景。

概述生成對抗結(jié)構(gòu)GAN 是Goodfellow等在2014年提出的一種生成式模型,GAN在結(jié)構(gòu)上受博弈論中的二人零和博弈(即二人的利益之和為零,一方的所得正是另一方的所失)的啟發(fā),系統(tǒng)由一個生成器和一個判別器構(gòu)成,生成器捕捉真實(shí)數(shù)據(jù)樣本的潛在分布,并生成新的數(shù)據(jù)樣本;判別器是一個二分類器,判別輸入是真實(shí)數(shù)據(jù)還是生成的樣本,生成器和判別器均可以采用目前研究火熱的深度神經(jīng)網(wǎng)絡(luò)。GAN的優(yōu)化過程是一個極小極大博弈問題,優(yōu)化目標(biāo)是達(dá)到納什均衡,使生成器估測到數(shù)據(jù)樣本的分布。

在當(dāng)前的人工智能熱潮下,GAN的提出滿足了許多領(lǐng)域的研究和應(yīng)用需求,同時為這些領(lǐng)域注入了新的發(fā)展動力,GAN已經(jīng)成為人工智能學(xué)界一個熱門的研究方向,著名學(xué)者LeCun甚至將其稱為“過去十年間機(jī)器學(xué)習(xí)領(lǐng)域最讓人激動的點(diǎn)子”,目前,圖像和視覺領(lǐng)域是對GAN研究和應(yīng)用最廣泛的一個領(lǐng)域,已經(jīng)可以生成數(shù)字、人臉等物體對象,構(gòu)成各種逼真的室內(nèi)外場景,從分割圖像恢復(fù)原圖像,給黑白圖像上色,從物體輪廓恢復(fù)物體圖像,從低分辨率圖像生成高分辨率圖像等。此外,GAN已經(jīng)開始被應(yīng)用到語音和語言處理、電腦病毒監(jiān)測、棋類比賽程序等問題的研究中。1

GAN的應(yīng)用領(lǐng)域作為一個具有“無限”生成能力的模型,GAN的直接應(yīng)用就是建模,生成與真實(shí)數(shù)據(jù)分布一致的數(shù)據(jù)樣本,例如可以生成圖像、視頻等。GAN可以用于解決標(biāo)注數(shù)據(jù)不足時的學(xué)習(xí)問題,例如無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)等,GAN還可以用于語音和語言處理,例如生成對話、由文本生成圖像等。

圖像和視覺領(lǐng)域GAN能夠生成與真實(shí)數(shù)據(jù)分布一致的圖像,一個典型應(yīng)用來自Twitter公司,Ledig等提出利用GAN來將一個低清模糊圖像變換為具有豐富細(xì)節(jié)的高清圖像。

GAN也開始用于生成自動駕駛場景,Santana等提出利用GAN來生成與實(shí)際交通場景分布一致的圖像,再訓(xùn)練一個基于RNN的轉(zhuǎn)移模型實(shí)現(xiàn)預(yù)測的目的。GAN可以用于自動駕駛中的半監(jiān)督學(xué)習(xí)或無監(jiān)督學(xué)習(xí)任務(wù),還可以利用實(shí)際場景不斷更新的視頻幀來實(shí)時優(yōu)化GAN的生成器。

Gou等提出利用仿真圖像和真實(shí)圖像作為訓(xùn)練樣本來實(shí)現(xiàn)人眼檢測,但是這種仿真圖像與真實(shí)圖像存在一定的分布差距。Shrivastava等提出一種基于GAN的方法(稱為SimGAN),利用無標(biāo)簽真實(shí)圖像來豐富細(xì)化仿真圖像,使得合成圖像更加真實(shí)。引入一個自正則化項(xiàng)來實(shí)現(xiàn)最小化合成誤差并最大程度保留仿真圖像的類別,同時利用加入的局部對抗損失函數(shù)來對每個局部圖像塊進(jìn)行判別,使得局部信息更加豐富。

語音和語言領(lǐng)域目前已經(jīng)有一些關(guān)于GAN的語音和語言處理文章。Li等提出用GAN來表征對話之間的隱式關(guān)聯(lián)性,從而生成對話文本。Zhang等提出基于GAN的文本生成,他們用CNN作為判別器,判別器基于擬合LSTM的輸出,用矩匹配來解決優(yōu)化問題;在訓(xùn)練時,和傳統(tǒng)更新多次判別器參數(shù)再更新一次生成器不同,需要多次更新生成器再更新CNN判別器。SeqGAN基于策略梯度來訓(xùn)練生成器G,策略梯度的反饋獎勵信號來自于生成器經(jīng)過蒙特卡洛搜索得到,實(shí)驗(yàn)表明SeqGAN在語音、詩詞和音樂生成方面可以超過傳統(tǒng)方法。Reed等提出用GAN基于文本描述來生成圖像,文本編碼被作為生成器的條件輸入,同時為了利用文本編碼信息,也將其作為判別器特定層的額外信息輸入來改進(jìn)判別器,判別是否滿足文本描述的準(zhǔn)確率,實(shí)驗(yàn)結(jié)果表明生成圖像和文本描述具有較高相關(guān)性。1

GAN的意義和優(yōu)點(diǎn)GAN對于生成式模型的發(fā)展具有重要的意義,GAN作為一種生成式方法,有效解決了可建立自然性解釋的數(shù)據(jù)的生成難題,尤其對于生成高維數(shù)據(jù),所采用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)不限制生成維度,大大拓寬了生成數(shù)據(jù)樣本的范圍.所采用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)能夠整合各類損失函數(shù),增加了設(shè)計(jì)的自由度。GAN的訓(xùn)練過程創(chuàng)新性地將兩個神經(jīng)網(wǎng)絡(luò)的對抗作為訓(xùn)練準(zhǔn)則并且可以使用反向傳播進(jìn)行訓(xùn)練,訓(xùn)練過程不需要效率較低的馬爾科夫鏈方法,也不需要做各種近似推理,沒有復(fù)雜的變分下界,大大改善了生成式模型的訓(xùn)練難度和訓(xùn)練效率,GAN的生成過程不需要繁瑣的采樣序列,可以直接進(jìn)行新樣本的采樣和推斷,提高了新樣本的生成效率,對抗訓(xùn)練方法摒棄了直接對真實(shí)數(shù)據(jù)的復(fù)制或平均,增加了生成樣本的多樣性.GAN在生成樣本的實(shí)踐中,生成的樣本易于人類理解。例如,能夠生成十分銳利清晰的圖像,為創(chuàng)造性地生成對人類有意義的數(shù)據(jù)提供了可能的解決方法。

GAN除了對生成式模型的貢獻(xiàn),對于半監(jiān)督學(xué)習(xí)也有啟發(fā),GAN學(xué)習(xí)過程中不需要數(shù)據(jù)標(biāo)簽,雖然GAN提出的目的不是半監(jiān)督學(xué)習(xí),但是GAN的訓(xùn)練過程可以用來實(shí)施半監(jiān)督學(xué)習(xí)中無標(biāo)簽數(shù)據(jù)對模型的預(yù)訓(xùn)練過程,具體來說,先利用無標(biāo)簽數(shù)據(jù)訓(xùn)練GAN,基于訓(xùn)練好的GAN對數(shù)據(jù)的理解,再利用小部分有標(biāo)簽數(shù)據(jù)訓(xùn)練判別器,用于傳統(tǒng)的分類和回歸任務(wù)。1

本詞條內(nèi)容貢獻(xiàn)者為:

王沛 - 副教授、副研究員 - 中國科學(xué)院工程熱物理研究所