版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

[科普中國]-可加模型

科學(xué)百科
原創(chuàng)
科學(xué)百科為用戶提供權(quán)威科普內(nèi)容,打造知識科普陣地
收藏
可加模型簡介

可加模型是一種非參數(shù)模型,如果說二維散點(diǎn)圖的平滑是簡單線性回歸模型的一般化,那么加性模型就是多元回歸模型的一般化。加性模型非常具有靈活性,因?yàn)樗幌髤?shù)模型那樣需要假設(shè)某種函數(shù)形式,只要預(yù)測變量對響應(yīng)變量的影響是獨(dú)立即可,也稱為可加和假設(shè)。

擬合

加性模型的擬合是通過一個(gè)迭代過程(向后擬合算法)對每個(gè)預(yù)測變量進(jìn)行樣條平滑。其算法要在擬合誤差和自由度之間進(jìn)行權(quán)衡最終達(dá)到最優(yōu)。在R中可以利用mgcv包中的gam函數(shù)實(shí)現(xiàn)加性模型,我們?nèi)砸詔rees數(shù)據(jù)集作為例子,其中Volume為響應(yīng)變量,Girth和Height為預(yù)測變量。

------------------------

model=gam(Volume~s(Girth)+s(Height),data=trees)

par(mfrow=c(1,2))

plot(model,se=T,resid=T,pch=16)

------------------------

上面顯示的是各預(yù)測變量的偏殘差圖,表示了各預(yù)測變量對響應(yīng)變量的獨(dú)立影響,縱軸括號中的數(shù)字表示EDF(estimated degrees of freedom),Height的估計(jì)自由度為1,即是線性關(guān)系。建模結(jié)果存在model變量中,它同樣可以用summary、predict、anova等泛型函數(shù)作進(jìn)一步處理
  ------------------------
  summary(model)
  Approximate significance of smooth terms:
  edf Ref.df F p-value
  s(Girth) 2.693 3.368 203.8 < 2e-16 ***
  s(Height) 1.000 1.000 16.0 0.000459 ***
  R-sq.(adj) = 0.973 Deviance explained = 97.7%
  GCV score = 8.4734 Scale est. = 7.1905 n = 31

  ------------------------
  從上面的結(jié)果報(bào)告可以觀察到各預(yù)測變量的EDF值,后面的P值表示平滑函數(shù)是否顯著的減少了模型誤差。偽判定系數(shù)R-sq顯示了模型的解釋能力為97.7%。

弱點(diǎn)

加性模型容易被誤用往往是因?yàn)闆]有注意到其前提假設(shè),在本例中樹圍和樹高對樹木體積的影響并非是可加性的,顯然二者之間存在交互作用,應(yīng)該用s(Girth,Height)作為預(yù)測變量。

gam函數(shù)中也能加入線性預(yù)測變量,構(gòu)成半?yún)?shù)加性模型,還可以設(shè)置family參數(shù)實(shí)現(xiàn)廣義加性模型。

此外,加性模型的弱點(diǎn)在于其結(jié)果不象參數(shù)模型那樣容易解釋,但它用于探索性數(shù)據(jù)分析和預(yù)測工作時(shí)是非常有用的分析工具。如果把加性模型當(dāng)作模型擬合工具而非探索性工具時(shí),其平滑參數(shù)的設(shè)定就變得非常重要

線性可加模型

一個(gè)試驗(yàn)觀察值按其變異來源劃分的線性分解式。若從一個(gè)均數(shù)為μ方差為σ2的正態(tài)總體中隨機(jī)抽取的觀察值xi可分解為總體平均和隨機(jī)誤差兩部分,所以其線性可加模型為:1

xi=μ+εi(1)

式中 εi為隨機(jī)誤差服從正態(tài)分布N(0,σ)。假如將上述總體分成k個(gè)亞總體,各施以不同的處理,設(shè)第i處理的效應(yīng)為τi (i=1,2,…,k),則第i亞總體的平均數(shù)為μi=μ+τi。從任一亞總體隨機(jī)抽出的觀察值xij(i=1,2,…,k,j=1,2,…表示觀察序數(shù))的線性可加模型為:

xij=μ+τi+εij(2)

這就是單向分組資料中觀察值的數(shù)學(xué)模型。根據(jù)試驗(yàn)設(shè)計(jì)不同可以有不同的線性可加模型,但它們有一共同特點(diǎn),即各分量都取一次項(xiàng),故稱之為線性可加模型。如雙向分組資料中觀察值xij的線性可加模型為:

xij=μ+τi+ρj+εij(3)

式中 τi為因素A第i水平的效應(yīng),ρj為區(qū)組j的效應(yīng)。在式(2)中,εij服從正態(tài)分布N(0,σ),但根據(jù)τi的性質(zhì)不同,可分為固定模型和隨機(jī)模型。所謂固定模型是指試驗(yàn)的各處理都抽自特定的處理總體,分別遵循正態(tài)分布N(μi,σ),處理效應(yīng)τi=μi-μ是固定的常量,并滿足,試驗(yàn)?zāi)康脑谟谘芯喀觟。如重復(fù)做試驗(yàn),所用的處理將是同一套的,即處理效應(yīng)是固定的。根據(jù)式(2)模型可導(dǎo)出方差分析中誤差均方S是σ2的估值,處理均方St是σ+nki的估值。

所謂隨機(jī)模型是指試驗(yàn)中各處理皆抽自正態(tài)分布N(0,στ)的一組隨機(jī)樣本,即處理效應(yīng)τi是隨機(jī)的遵循正態(tài)分布N(0,στ),試驗(yàn)?zāi)康牟辉谟谘芯喀觟本身的大小,而在于研究τi的變異程度,即στ。所以,方差分析所測驗(yàn)的是H0:στ=0,HA:στ>0,統(tǒng)計(jì)推斷的不是某些供試處理的效應(yīng)大小,而是關(guān)于抽出這些處理的總體情況,這里誤差均方S誤估計(jì)是σ,而處理均方S估計(jì)的是σ+nσr,因此

的估值

在H0:σ=0的假設(shè)下,F(xiàn)才能與F比較。顯然固定模型和隨機(jī)模型的分析重點(diǎn)不同,前者在于對τi的分析,后者在于對σ的分析。農(nóng)化研究的試驗(yàn)資料大多屬于固定模型,如肥料用量試驗(yàn)和肥料品種試驗(yàn)等均為固定模型。連續(xù)多年進(jìn)行的肥料試驗(yàn)中年份效應(yīng)為隨機(jī)模型。

廣義加性模型提出背景

編輯

非參數(shù)回歸不需要模型滿足線性的假設(shè)前提,可以靈活地探測數(shù)據(jù)間的復(fù)雜關(guān)系,但是當(dāng)模型中自變量數(shù)目較多時(shí) ,模型的估計(jì)方差會加大,另外,基于核與光滑樣條估計(jì)的非參數(shù)回歸中自變量與因變量間關(guān)系的解釋也有難度,1985 年 Stone 提出加性模型 (additive models) ,模型中每一個(gè)加性項(xiàng)使用單個(gè)光滑函數(shù)來估計(jì),在每一加性項(xiàng)中可以解釋因變量如何隨自變量變化而變化,很好地解決了上述問題 。 1990 年,Hastie 和 Tibshirani 擴(kuò)展了加性模型的應(yīng)用范圍 ,提出了廣義加性模型(generalized additive models)。[1]

廣義加性模型

經(jīng)典的線性回歸模型假定因變量Y與自變量X1,X2....Xp是線性形式:

其中,通過最小二乘法獲得。

加性模型擴(kuò)展了線性模型:

其中,

,是光滑函數(shù),,

通過backfitting 算法獲得。

廣義加性模型是廣義線性模型的擴(kuò)展:

其中,

,n為線性預(yù)測值,

是非參數(shù)光滑函數(shù) ,它可以是光滑樣條函數(shù)、核函數(shù)或者局部回歸光滑函數(shù) ,它的非參數(shù)形式使得模型非常靈活 ,揭示出自變量的非線性效應(yīng) 。

模型不需要 Y對 X的任何假設(shè) ,由隨機(jī)部分Y(random component) 、加性部分n(additive component) 及聯(lián)結(jié)兩者的連接函數(shù)gi(.)(link function) 組成 ,反應(yīng)變量Y的分布屬于指數(shù)分布族 ,可以是二項(xiàng)分布、Poisson 分布 、Gamma 分布等。

模型中不必每一項(xiàng)都是非線性的 ,可以納入線性等參數(shù)項(xiàng) ,因?yàn)槊總€(gè)解釋變量的關(guān)系如都用非參數(shù)擬合會出現(xiàn)計(jì)算量大 、過擬合等問題 ,有時(shí)因變量與某個(gè)預(yù)測變量的關(guān)系簡化成參數(shù)形式會更便于解釋 ,這樣就出現(xiàn)了半?yún)?shù)廣義加性模型 ( semi-parametric generalized additive models) ,其形式為 :

廣義加性模型優(yōu)缺點(diǎn)

1) 可以引入非線性函數(shù)Sj

2) 非線性可能使得對Y預(yù)測的更準(zhǔn)確

3) 因?yàn)槭恰奔有缘摹?,所以,線性模型的假設(shè)檢驗(yàn)的方法仍然可以使用
  4) 因?yàn)槭恰凹有浴奔僭O(shè),所以GAMs中可能會缺失重要的交互作用Xj×Xk,只能通過手動添加交互項(xiàng)來彌補(bǔ)