版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

[科普中國(guó)]-梯度下降

科學(xué)百科
原創(chuàng)
科學(xué)百科為用戶提供權(quán)威科普內(nèi)容,打造知識(shí)科普陣地
收藏

簡(jiǎn)介

梯度:對(duì)于可微的數(shù)量場(chǎng),以為分量的向量場(chǎng)稱為f的梯度或斜量。1

梯度下降法(gradient descent)是一個(gè)最優(yōu)化算法,通常也稱為最速下降法**。**

常用于機(jī)器學(xué)習(xí)和人工智能當(dāng)中用來遞歸性地逼近最小偏差模型。

求解過程顧名思義,梯度下降法的計(jì)算過程就是沿梯度下降的方向求解極小值(也可以沿梯度上升方向求解極大值)。

其迭代公式為**,**其中 代表梯度負(fù)方向, 表示梯度方向上的搜索步長(zhǎng)。梯度方向我們可以通過對(duì)函數(shù)求導(dǎo)得到,步長(zhǎng)的確定比較麻煩,太大了的話可能會(huì)發(fā)散,太小收斂速度又太慢。一般確定步長(zhǎng)的方法是由線性搜索算法來確定,即把下一個(gè)點(diǎn)的坐標(biāo)看做是ak+1的函數(shù),然后求滿足f(ak+1)的最小值的 即可。

因?yàn)橐话闱闆r下,梯度向量為0的話說明是到了一個(gè)極值點(diǎn),此時(shí)梯度的幅值也為0.而采用梯度下降算法進(jìn)行最優(yōu)化求解時(shí),算法迭代的終止條件是梯度向量的幅值接近0即可,可以設(shè)置個(gè)非常小的常數(shù)閾值。

應(yīng)用舉一個(gè)非常簡(jiǎn)單的例子,如求函數(shù) 的最小值。

利用梯度下降的方法解題步驟如下:

1、求梯度,

2、向梯度相反的方向移動(dòng) ,如下

,其中, 為步長(zhǎng)。如果步長(zhǎng)足夠小,則可以保證每一次迭代都在減小,但可能導(dǎo)致收斂太慢,如果步長(zhǎng)太大,則不能保證每一次迭代都減少,也不能保證收斂。

3、循環(huán)迭代步驟2,直到 的值變化到使得 在兩次迭代之間的差值足夠小,比如0.00000001,也就是說,直到兩次迭代計(jì)算出來的 基本沒有變化,則說明此時(shí) 已經(jīng)達(dá)到局部最小值了。

4、此時(shí),輸出 ,這個(gè) 就是使得函數(shù) 最小時(shí)的 的取值 。

MATLAB如下。

%% 最速下降法圖示% 設(shè)置步長(zhǎng)為0.1,f_change為改變前后的y值變化,僅設(shè)置了一個(gè)退出條件。syms x;f=x^2;step=0.1;x=2;k=0; %設(shè)置步長(zhǎng),初始值,迭代記錄數(shù)f_change=x^2; %初始化差值f_current=x^2; %計(jì)算當(dāng)前函數(shù)值ezplot(@(x,f)f-x.^2) %畫出函數(shù)圖像axis([-2,2,-0.2,3]) %固定坐標(biāo)軸hold onwhile f_change>0.000000001 %設(shè)置條件,兩次計(jì)算的值之差小于某個(gè)數(shù),跳出循環(huán) x=x-step*2*x; %-2*x為梯度反方向,step為步長(zhǎng),!最速下降法! f_change = f_current - x^2; %計(jì)算兩次函數(shù)值之差 f_current = x^2 ; %重新計(jì)算當(dāng)前的函數(shù)值 plot(x,f_current,'ro','markersize',7) %標(biāo)記當(dāng)前的位置 drawnow;pause(0.2); k=k+1;endhold offfprintf('在迭代%d次后找到函數(shù)最小值為%e,對(duì)應(yīng)的x值為%e\n',k,x^2,x)梯度下降法處理一些復(fù)雜的非線性函數(shù)會(huì)出現(xiàn)問題,如Rosenbrock函數(shù):,其最小值在 處,函數(shù)值為 。但是此函數(shù)具有狹窄彎曲的山谷,最小點(diǎn) 就在這些山谷之中,并且谷底很平。優(yōu)化過程是之字形的向極小值點(diǎn)靠近,速度非常緩慢。

缺點(diǎn)靠近極小值時(shí)收斂速度減慢。

直線搜索時(shí)可能會(huì)產(chǎn)生一些問題。

可能會(huì)“之字形”地下降。

評(píng)論
科普5d5135acc689c
大學(xué)士級(jí)
梯度下降法(gradient descent)是一個(gè)最優(yōu)化算法,通常也稱為最速下降法,常用于機(jī)器學(xué)習(xí)和人工智能當(dāng)中用來遞歸性地逼近最小偏差模型。
2023-04-29