版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

[科普中國(guó)]-去噪自編碼器

科學(xué)百科
原創(chuàng)
科學(xué)百科為用戶提供權(quán)威科普內(nèi)容,打造知識(shí)科普陣地
收藏

去噪自編碼器(denoising autoencoder,DAE)是一類接受損壞數(shù)據(jù)作為輸入,并訓(xùn)練來(lái)預(yù)測(cè)原始未被損壞數(shù)據(jù)作為輸入的自編碼器。

簡(jiǎn)介自編碼器(Autoencoder)1的學(xué)習(xí)只是簡(jiǎn)單地保留原始輸入數(shù)據(jù)的信息,并不能確保獲得一種有用的特征表示。因?yàn)樽跃幋a器可能僅僅簡(jiǎn)單地拷貝原始輸入,或者簡(jiǎn)單地選取能夠稍微改變重構(gòu)誤差,卻不包含特別有用信息的特征。為了避免上述情況,并且能夠?qū)W習(xí)更好的特征表示,需要給數(shù)據(jù)表示一定的約束。去噪自編碼器可以通過(guò)重構(gòu)含有噪聲的輸人數(shù)據(jù)來(lái)解決該問(wèn)題。

去噪自編碼器所要實(shí)現(xiàn)的功能就是學(xué)習(xí)疊加噪聲的原始數(shù)據(jù),而它學(xué)習(xí)到的特征與從未疊加噪聲的數(shù)據(jù)學(xué)到的特征幾乎一樣,但去噪自編碼器從疊加噪聲的輸入中學(xué)習(xí)得到的特征更具魯棒性,并且可以避免自編碼器遇到的上述問(wèn)題,簡(jiǎn)單地學(xué)習(xí)相同的特征值。

原理去噪自編碼器(DAE)的訓(xùn)練過(guò)程如圖所示。我們引入一個(gè)損壞過(guò)程,這個(gè)條件代表給定數(shù)據(jù)樣本x產(chǎn)生損壞樣本概率。

去噪去噪自動(dòng)編碼被訓(xùn)練為從損壞的版本重構(gòu)干凈數(shù)據(jù)點(diǎn)。這可以通過(guò)最小化損失實(shí)現(xiàn),其中是樣本經(jīng)過(guò)損壞過(guò)程后得到的損壞版本。通常分布是因子的分布(平局參數(shù)由前饋網(wǎng)絡(luò)g給出)。

自編碼器根據(jù)以下過(guò)程,從訓(xùn)練數(shù)據(jù)對(duì)中學(xué)習(xí)重構(gòu)分布(reconstruction distribution):

1.從訓(xùn)練集中采一個(gè)訓(xùn)練樣本x。

2.從采一個(gè)損壞樣本。

3.將作為訓(xùn)練樣本來(lái)估計(jì)自編碼器的重構(gòu)分布。

通常我們可以簡(jiǎn)單地對(duì)負(fù)對(duì)數(shù)似然 進(jìn)行基于梯度法(如小批量梯度下降法)的近似最小化。只要編碼器是確定性的,去噪自編碼器就是一個(gè)前饋網(wǎng)絡(luò),并且可以使用與其他前饋網(wǎng)絡(luò)完全相同的方式進(jìn)行訓(xùn)練。

因此我們可以認(rèn)為DAE是一下期望下進(jìn)行隨機(jī)梯度下降:

其中是訓(xùn)練數(shù)據(jù)的分布

本詞條內(nèi)容貢獻(xiàn)者為:

王慧維 - 副研究員 - 西南大學(xué)