版權歸原作者所有,如有侵權,請聯(lián)系我們

[科普中國]-全模型

科學百科
原創(chuàng)
科學百科為用戶提供權威科普內容,打造知識科普陣地
收藏

全模型(Full Model)也稱為飽和模型(Saturated Model),指包含所有自變量的線性回歸模型。在對回歸模型進行一般線性檢驗時,需要先擬合一個全模型,并計算其殘差平方和。然后再擬合一個不包括欲檢驗參數(shù)的線性回歸模型,通常稱作簡模型或選模型,也計算出其殘差平方和,通過全模型和簡模型的殘差平方和之差進行有關參數(shù)的檢驗1。

基本介紹設有一個因變量Y和m個自變量構成的線性回歸模型為:

由于該模型是因變量Y與所有自變量之間的回歸模型,故稱為全模型。實際應用中,有時,尤其是當m較大時,我們可能會舍棄一些變量,只用其中一些自變量建立回歸方程,如從所有可供選擇的m個自變量中選擇其中p個,為了方便起見,我們不妨認為所選擇的p個自變量就是中的前p個,記為,這樣由所選的p個自變量建立的回歸模型為:

我們稱其為選模型2。

自變量選擇對估計和預測的影響我們可以將上面關于自變量的選擇問題看成是選用全模型還是選模型去描述一個實際問題。如果應該用全模型描述實際問題,而我們卻選擇了選模型,則說明我們在建立模型時就丟掉了一些有用的自變量;反之,如果應該用選模型,而我們卻使用了全模型,則說明我們將一些不必要的自變量引進了模型。兩種情況都屬于因自變量而導致的模型設定的錯誤。那么,模型自變量選擇的不當會給參數(shù)估計或模型的應用(如對因變量的預測)帶來什么影響呢2?

為了方便起見,我們把模型(1)的參數(shù)向量和隨機誤差項的估計量記為:

模型(2)的參數(shù)向量的估計量記為:

1)若已知全模型正確而誤用了選模型,當的相關系數(shù)不全為零時,則選模型的回歸系數(shù)的最小二乘估計是全模型相應參數(shù)的有偏估計。

2)若已知全模型正確,當給定新的自變量值時,因變量的估計值為:

但若誤用了選模型,則Y的估計值為:

該預測值是的有偏估計,即。這表明,如果全模型正確,而我們舍掉了m-p個自變量,用剩下的p個自變量建立回歸模型,則參數(shù)估計值是全模型的相應參數(shù)的有偏估計,用其進行預測,預測值也是有偏的。

3)從預測的殘差來看,選模型的預測殘差為:

而全模型的殘差為:

其中

??梢钥吹剑M管選模型所做的預測是有偏的,但是得到的預測殘差的方差下降了。

4)如果選模型正確,從無偏性的角度看,選模型的預測值為:

是因變量的某一值的無偏估計。此時,全模型的預測值則是的有偏估計。

從預測方差的角度看,選模型的預測方差小于全模型的預測方差。從均方預測誤差的角度看,全模型的均方誤差包含預測方差和預測偏差的平方兩部分,而選模型的均方誤差僅包含預測方差這一項,且小于全模型,因而全模型的預測誤差將會更大。

可見,一個好的回歸模型,并不是考慮自變量越多越好或精度越高越好。在建立回歸模型時,選擇自變量的基本指導思想是少而精。有時可能漏掉了一些對因變量Y還有些影響但影響并不十分大的自變量,這時由于選模型估計的回歸系數(shù)的方差,要比由全模型所估計的相應變量的回歸系數(shù)的方差小。此外,對于所預測的因變量的方差來說也是如此,少了一些對因變量y有影響的自變量后,會導致估計量是有偏的。然而,盡管估計量是有偏的,但其預測偏差的方差會下降。

如果保留下來的自變量中有些對因變量不太重要,那么方程中包括這些變量就會導致模型參數(shù)的估計和因變量預測的有偏性與精度的降低。因此,建立回歸模型時,應盡可能剔除那些可有可無的自變量2。

本詞條內容貢獻者為:

劉軍 - 副研究員 - 中國科學院工程熱物理研究所