版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

[科普中國(guó)]-分段特征

科學(xué)百科
原創(chuàng)
科學(xué)百科為用戶提供權(quán)威科普內(nèi)容,打造知識(shí)科普陣地
收藏

簡(jiǎn)介

分段特征是指將研究對(duì)象的特征分成不同的部分或是指將一個(gè)特征分成不同部分。分段特征是特征工程的一部分,通過分段特征,更好地理解和識(shí)別特征有關(guān)特性,從而更精確地進(jìn)行識(shí)別對(duì)象或特征識(shí)別,例如將圖像轉(zhuǎn)化為空間頻率域,用卷積神經(jīng)網(wǎng)絡(luò)識(shí)別圖像等。

空間頻率域以空間頻率(即波數(shù))為自變量描述圖像的特征,可以將一幅圖像像元值在空間上的變化分解為具有不同振幅、空間頻率和相位的簡(jiǎn)振函數(shù)的線性疊加,圖像中各種空問頻率成分的組成和分布稱為空間頻譜。這種對(duì)圖像的空間頻率特征進(jìn)行分解、處理和分析稱為空間頻率域處理或波數(shù)域處理。和時(shí)間域與頻率域可互相轉(zhuǎn)換相似,空間域與空間頻率域也可互相轉(zhuǎn)換。在空間頻率域中可以引用已經(jīng)很成熟的頻率域技術(shù),處理的一般步驟為:對(duì)圖像施行二維離散傅立葉變換或小波變換,將圖像由圖像空間轉(zhuǎn)換到頻域空間。在空間頻率域中對(duì)圖像的頻譜作分析處理,以改變圖像的頻率特征。即設(shè)計(jì)不同的數(shù)字濾波器,對(duì)圖像的頻譜進(jìn)行濾波。頻率域處理主要用于與圖像空間頻率有關(guān)的處理中。如圖像恢復(fù)、圖像重建、輻射變換、邊緣增強(qiáng)、圖像銳化、圖像平滑、噪聲壓制、頻譜分析、紋理分析等處理和分析中。

卷積神經(jīng)網(wǎng)絡(luò)1962 年,生物學(xué)家 Hubel 和 Wiesel 通過對(duì)貓腦視覺皮層的研究,發(fā)現(xiàn)在視覺皮層中存在一系列復(fù)雜構(gòu)造的細(xì)胞,這些細(xì)胞對(duì)視覺輸入空間的局部區(qū)域很敏感,它們被稱為“感受野”。感受野以某種方式覆蓋整個(gè)視覺域,它在輸入空間中起局部作用,因而能夠更好地挖掘出存在于自然圖像中強(qiáng)烈的局部空間相關(guān)性。被稱為感受野的這些細(xì)胞分為簡(jiǎn)單細(xì)胞和復(fù)雜細(xì)胞兩種類型。根據(jù)Hubel-Wiesel 的層級(jí)模型,在視覺皮層中的神經(jīng)網(wǎng)絡(luò)有一個(gè)層級(jí)結(jié)構(gòu):LGB(外側(cè)膝狀體)→簡(jiǎn)單細(xì)胞→復(fù)雜細(xì)胞→低階超復(fù)雜細(xì)胞→高階超復(fù)雜細(xì)胞。低階超復(fù)雜細(xì)胞與高階超復(fù)雜細(xì)胞之間的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)類似于簡(jiǎn)單細(xì)胞和復(fù)雜細(xì)胞間的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。在該層級(jí)結(jié)構(gòu)中,處于較高階段的細(xì)胞通常會(huì)有這樣一個(gè)傾向:對(duì)刺激模式更復(fù)雜的特征進(jìn)行選擇性響應(yīng);同時(shí)也具有一個(gè)更大的感受野,對(duì)刺激模式位置的移動(dòng)也更不敏感1。1980 年,F(xiàn)ukushima 根據(jù) Huble 和 Wiesel 的層級(jí)模型提出了結(jié)構(gòu)與之類似的神經(jīng)認(rèn)知機(jī)(Neocognitron)。神經(jīng)認(rèn)知機(jī)采用簡(jiǎn)單細(xì)胞層(S-layer,S 層)和復(fù)雜細(xì)胞層(C-layer,C 層)交替組成,其中 S 層與Huble-Wiesel 層級(jí)模型中的簡(jiǎn)單細(xì)胞層或者低階超復(fù)雜細(xì)胞層相對(duì)應(yīng),C 層對(duì)應(yīng)于復(fù)雜細(xì)胞層或者高階超復(fù)雜細(xì)胞層。S 層能夠最大程度地響應(yīng)感受野內(nèi)的特定邊緣刺激,提取其輸入層的局部特征,C層對(duì)來自確切位置的刺激具有局部不敏感性。盡管在神經(jīng)認(rèn)知機(jī)中沒有像 BP 算法那樣的全局監(jiān)督學(xué)習(xí)過程可利用,但它仍可認(rèn)為是 CNN 的第一個(gè)工程實(shí)現(xiàn)網(wǎng)絡(luò),卷積和下采樣分別受啟發(fā)于Hubel-Wiesel 概念的簡(jiǎn)單細(xì)胞和復(fù)雜細(xì)胞,它能夠準(zhǔn)確識(shí)別具有位移和輕微形變的輸入模式。隨后,LeCun 等基于 Fukushima 的研究工作使用誤差梯度回傳方法設(shè)計(jì)并訓(xùn)練了 CNN(該模型稱為L(zhǎng)eNet-5),LeNet-5 是經(jīng)典的 CNN 結(jié)構(gòu),后續(xù)有許多工作基于此進(jìn)行改進(jìn),它在一些模式識(shí)別領(lǐng)域中取得了良好的分類效果。CNN 的基本結(jié)構(gòu)由輸入層、卷積層、取樣層、全連接層及輸出層構(gòu)成。卷積層和取樣層一般會(huì)取若干個(gè),采用卷積層和取樣層交替設(shè)置,即一個(gè)卷積層連接一個(gè)取樣層,取樣層后再連接一個(gè)卷積層,依此類推。由于卷積層中輸出特征面的每個(gè)神經(jīng)元與其輸入進(jìn)行局部連接,并通過對(duì)應(yīng)的連接權(quán)值與局部輸入進(jìn)行加權(quán)求和再加上偏置值,得到該神經(jīng)元輸入值,該過程等同于卷積過程,卷積神經(jīng)網(wǎng)絡(luò)也由此而得名。

特征工程特征工程是機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)重要概念,目前并沒有普遍接受的定義,一般可以認(rèn)為是為機(jī)器學(xué)習(xí)應(yīng)用而設(shè)計(jì)特征集的相關(guān)工作。主要涉及兩個(gè)方面的因素:a)了解要解決的問題和要使用的機(jī)器學(xué)習(xí)算法的優(yōu)勢(shì)和限制;b)進(jìn)行實(shí)踐,通過實(shí)驗(yàn)從而更好地掌握哪種特征更為合理,哪種特征并不符合所處理的問題或所選擇的機(jī)器學(xué)習(xí)方法。這兩方面的影響因素可以是一個(gè)螺旋式迭代過程,對(duì)問題自頂而下的理解有助于實(shí)驗(yàn)工作的展開;同時(shí)在實(shí)驗(yàn)中所獲得的自底而上的信息者會(huì)幫助更好地理解要解決的問題,揭示蘊(yùn)涵的問題本質(zhì)。圖像理解是機(jī)器學(xué)理論的重要應(yīng)用領(lǐng)域,特征工程自然在整個(gè)圖像理解中占有舉足輕重的地位。近年來,圖像整體場(chǎng)景理解雖然在復(fù)雜性和綜合性方面遠(yuǎn)勝于基本圖像理解任務(wù),但其在各項(xiàng)研究和工程實(shí)踐中均展示了卓越的性能,因而成為了當(dāng)前圖像理解研究中的熱點(diǎn)和難點(diǎn)?;诟怕收摵蛨D論的模型能很好地刻畫這種整體性, 成為了當(dāng)前整體場(chǎng)景理解中普遍采用的模型。要利用概率圖模型的方法開展整體場(chǎng)景理解(顯著性檢測(cè)、場(chǎng)景分類、多類圖像分割、模型集成等)研究,獲取整體場(chǎng)景理解所需數(shù)據(jù)即提取相關(guān)特征是其第一項(xiàng)基礎(chǔ)性任務(wù)2。

特征選擇在機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)中,特征選擇(英語:feature selection)也被稱為變量選擇、屬性選擇 或變量子集選擇 。它是指:為了構(gòu)建模型而選擇相關(guān)特征(即屬性、指標(biāo))子集的過程。使用特征選擇技術(shù)有三個(gè)原因:簡(jiǎn)化模型,使之更易于被研究人員或用戶理解,縮短訓(xùn)練時(shí)間3,改善通用性、降低過擬合(即降低方差 )。要使用特征選擇技術(shù)的關(guān)鍵假設(shè)是:訓(xùn)練數(shù)據(jù)包含許多冗余 或無關(guān) 的特征,因而移除這些特征并不會(huì)導(dǎo)致丟失信息。 冗余 或無關(guān) 特征是兩個(gè)不同的概念。如果一個(gè)特征本身有用,但如果這個(gè)特征與另一個(gè)有用特征強(qiáng)相關(guān),且那個(gè)特征也出現(xiàn)在數(shù)據(jù)中,那么這個(gè)特征可能就變得多余。特征選擇技術(shù)與特征提取有所不同。特征提取是從原有特征的功能中創(chuàng)造新的特征,而特征選擇則只返回原有特征中的子集。 特征選擇技術(shù)的常常用于許多特征但樣本(即數(shù)據(jù)點(diǎn))相對(duì)較少的領(lǐng)域。特征選擇應(yīng)用的典型用例包括:解析書面文本和微陣列數(shù)據(jù),這些場(chǎng)景下特征成千上萬,但樣本只有幾十到幾百個(gè)。特征選取方法可以分為包裝(wrapper)、 過濾(filter)和嵌入(embedded)方法。包裝類型方法采用預(yù)測(cè)模型方式,對(duì)每一子集特征通過錯(cuò)誤率進(jìn)行評(píng)分。由于對(duì)每一子集特征都需要進(jìn)行打分, 包裝類型算法往往計(jì)算代價(jià)高, 所以很難被運(yùn)用到大規(guī)模數(shù)據(jù)挖掘分析工作中。過濾類型方法通過一種代理評(píng)價(jià)標(biāo)準(zhǔn)而非錯(cuò)誤率來評(píng)估子集特征。嵌入類型方法將特征選擇技術(shù)嵌入到模型訓(xùn)練中, 比如最小絕對(duì)收縮和選擇算子(least absolute shrinkage and selection operator, LASSO) 在構(gòu)建線性模型時(shí), 通過回歸系數(shù)壓縮特征, 僅選取在這一階段中系數(shù)不為零的特征。

特征學(xué)習(xí)在機(jī)器學(xué)習(xí)中,特征學(xué)習(xí)或表征學(xué)習(xí)是學(xué)習(xí)一個(gè)特征的技術(shù)的集合:將原始數(shù)據(jù)轉(zhuǎn)換成為能夠被機(jī)器學(xué)習(xí)來有效開發(fā)的一種形式。它避免了手動(dòng)提取特征的麻煩,允許計(jì)算機(jī)學(xué)習(xí)使用特征的同時(shí),也學(xué)習(xí)如何提取特征:學(xué)習(xí)如何學(xué)習(xí)。機(jī)器學(xué)習(xí)任務(wù),例如分類問題,通常都要求輸入在數(shù)學(xué)上或者在計(jì)算上都非常便于處理,在這樣的前提下,特征學(xué)習(xí)就應(yīng)運(yùn)而生了。然而,在我們現(xiàn)實(shí)世界中的數(shù)據(jù)例如圖片,視頻,以及傳感器的測(cè)量值都非常的復(fù)雜,冗余并且多變。那么,如何有效的提取出特征并且將其表達(dá)出來就顯得非常重要。傳統(tǒng)的手動(dòng)提取特征需要大量的人力并且依賴于非常專業(yè)的知識(shí)。同時(shí),還不便于推廣。這就要求特征學(xué)習(xí)技術(shù)的整體設(shè)計(jì)非常有效,自動(dòng)化,并且易于推廣。特征學(xué)習(xí)可以被分為兩類:監(jiān)督的和無監(jiān)督的,類似于機(jī)器學(xué)習(xí)。在監(jiān)督特征學(xué)習(xí)中,被標(biāo)記過的數(shù)據(jù)被當(dāng)做特征用來學(xué)習(xí)。例如神經(jīng)網(wǎng)絡(luò),多層感知器,(監(jiān)督)字典學(xué)習(xí)。在無監(jiān)督特征學(xué)習(xí)中,未被標(biāo)記過的數(shù)據(jù)被當(dāng)做特征用來學(xué)習(xí)。例如(無監(jiān)督)字典學(xué)習(xí),獨(dú)立成分分析,自動(dòng)編碼,矩陣分解 ,各種聚類分析及其變形

評(píng)論
科普5d5135acc689c
大學(xué)士級(jí)
分段特征是指將研究對(duì)象的特征分成不同的部分或是指將一個(gè)特征分成不同部分。
2023-04-05