梯度下降法(英語:Gradient descent)是一個一階最優(yōu)化算法,通常也稱為最速下降法。 要使用梯度下降法找到一個函數(shù)的局部極小值,必須向函數(shù)上當(dāng)前點對應(yīng)梯度(或者是近似梯度)的反方向的規(guī)定步長距離點進行迭代搜索。如果相反地向梯度正方向迭代進行搜索,則會接近函數(shù)的局部極大值點;這個過程則被稱為梯度上升法。
簡介梯度下降法(英語:Gradient descent)是一個一階最優(yōu)化算法,通常也稱為最速下降法。 要使用梯度下降法找到一個函數(shù)的局部極小值,必須向函數(shù)上當(dāng)前點對應(yīng)梯度(或者是近似梯度)的反方向的規(guī)定步長距離點進行迭代搜索。如果相反地向梯度正方向迭代進行搜索,則會接近函數(shù)的局部極大值點;這個過程則被稱為梯度上升法。1
描述梯度下降方法基于以下的觀察:如果實值函數(shù)在點
處可微且有定義,那么函數(shù)
在
點沿著梯度相反的方向
下降最快。
因而,如果
對于為一個夠小數(shù)值時成立,那么
。
考慮到這一點,我們可以從函數(shù)F的局部極小值的初始估計出發(fā),并考慮如下序列
使得
因此可得到
如果順利的話序列
收斂到期望的極值。注意每次迭代步長可以改變。
右側(cè)的圖片示例了這一過程,這里假設(shè)F定義在平面上,并且函數(shù)圖像是一個碗形。藍色的曲線是等高線(水平集),即函數(shù)F為常數(shù)的集合構(gòu)成的曲線。紅色的箭頭指向該點梯度的反方向。(一點處的梯度方向與通過該點的等高線垂直)。沿著梯度下降方向,將最終到達碗底,即函數(shù)F值最小的點。1
參閱共軛梯度法
隨機梯度下降法
最優(yōu)化
反向傳播算法
本詞條內(nèi)容貢獻者為:
李宗秀 - 副教授 - 黑龍江財經(jīng)學(xué)院