去噪自編碼器(denoising autoencoder,DAE)是一類接受損壞數(shù)據(jù)作為輸入,并訓(xùn)練來(lái)預(yù)測(cè)原始未被損壞數(shù)據(jù)作為輸入的自編碼器。
簡(jiǎn)介自編碼器(Autoencoder)1的學(xué)習(xí)只是簡(jiǎn)單地保留原始輸入數(shù)據(jù)的信息,并不能確保獲得一種有用的特征表示。因?yàn)樽跃幋a器可能僅僅簡(jiǎn)單地拷貝原始輸入,或者簡(jiǎn)單地選取能夠稍微改變重構(gòu)誤差,卻不包含特別有用信息的特征。為了避免上述情況,并且能夠?qū)W習(xí)更好的特征表示,需要給數(shù)據(jù)表示一定的約束。去噪自編碼器可以通過(guò)重構(gòu)含有噪聲的輸人數(shù)據(jù)來(lái)解決該問(wèn)題。
去噪自編碼器所要實(shí)現(xiàn)的功能就是學(xué)習(xí)疊加噪聲的原始數(shù)據(jù),而它學(xué)習(xí)到的特征與從未疊加噪聲的數(shù)據(jù)學(xué)到的特征幾乎一樣,但去噪自編碼器從疊加噪聲的輸入中學(xué)習(xí)得到的特征更具魯棒性,并且可以避免自編碼器遇到的上述問(wèn)題,簡(jiǎn)單地學(xué)習(xí)相同的特征值。
原理去噪自編碼器(DAE)的訓(xùn)練過(guò)程如圖所示。我們引入一個(gè)損壞過(guò)程,這個(gè)條件代表給定數(shù)據(jù)樣本x產(chǎn)生損壞樣本
概率。
去噪去噪自動(dòng)編碼被訓(xùn)練為從損壞的版本重構(gòu)干凈數(shù)據(jù)點(diǎn)
。這可以通過(guò)最小化損失
實(shí)現(xiàn),其中
是樣本
經(jīng)過(guò)損壞過(guò)程
后得到的損壞版本。通常分布
是因子的分布(平局參數(shù)由前饋網(wǎng)絡(luò)g給出)。
自編碼器根據(jù)以下過(guò)程,從訓(xùn)練數(shù)據(jù)對(duì)中學(xué)習(xí)重構(gòu)分布(reconstruction distribution)
:
1.從訓(xùn)練集中采一個(gè)訓(xùn)練樣本x。
2.從采一個(gè)損壞樣本
。
3.將作為訓(xùn)練樣本來(lái)估計(jì)自編碼器的重構(gòu)分布
。
通常我們可以簡(jiǎn)單地對(duì)負(fù)對(duì)數(shù)似然 進(jìn)行基于梯度法(如小批量梯度下降法)的近似最小化。只要編碼器是確定性的,去噪自編碼器就是一個(gè)前饋網(wǎng)絡(luò),并且可以使用與其他前饋網(wǎng)絡(luò)完全相同的方式進(jìn)行訓(xùn)練。
因此我們可以認(rèn)為DAE是一下期望下進(jìn)行隨機(jī)梯度下降:
其中是訓(xùn)練數(shù)據(jù)的分布
本詞條內(nèi)容貢獻(xiàn)者為:
王慧維 - 副研究員 - 西南大學(xué)