版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

[科普中國(guó)]-t分布

科學(xué)百科
原創(chuàng)
科學(xué)百科為用戶提供權(quán)威科普內(nèi)容,打造知識(shí)科普陣地
收藏

歷史

在概率論和統(tǒng)計(jì)學(xué)中,學(xué)生t-分布(Student's t-distribution)經(jīng)常應(yīng)用在對(duì)呈正態(tài)分布的總體的均值進(jìn)行估計(jì)。它是對(duì)兩個(gè)樣本均值差異進(jìn)行顯著性測(cè)試的學(xué)生t測(cè)定的基礎(chǔ)。t檢定改進(jìn)了Z檢定(en:Z-test),不論樣本數(shù)量大或小皆可應(yīng)用。在樣本數(shù)量大(超過(guò)120等)時(shí),可以應(yīng)用Z檢定,但Z檢定用在小的樣本會(huì)產(chǎn)生很大的誤差,因此樣本很小的情況下得改用學(xué)生t檢定。在數(shù)據(jù)有三組以上時(shí),因?yàn)檎`差無(wú)法壓低,此時(shí)可以用變異數(shù)分析代替學(xué)生t檢定。2

當(dāng)母群體的標(biāo)準(zhǔn)差是未知的但卻又需要估計(jì)時(shí),我們可以運(yùn)用學(xué)生t-分布。

學(xué)生t-分布可簡(jiǎn)稱為t分布。其推導(dǎo)由威廉·戈塞于1908年首先發(fā)表,當(dāng)時(shí)他還在都柏林的健力士釀酒廠工作。因?yàn)椴荒芤运救说拿x發(fā)表,所以論文使用了學(xué)生(Student)這一筆名。之后t檢驗(yàn)以及相關(guān)理論經(jīng)由羅納德·費(fèi)雪的工作發(fā)揚(yáng)光大,而正是他將此分布稱為學(xué)生分布。

定義由于在實(shí)際工作中,往往σ是未知的,常用s作為σ的估計(jì)值,為了與u變換區(qū)別,稱為t變換,統(tǒng)計(jì)量t 值的分布稱為t分布。1

假設(shè)X服從標(biāo)準(zhǔn)正態(tài)分布N(0,1),Y服從分布,那么的分布稱為自由度為n的t分布,記為

分布密度函數(shù) ,

其中,Gam(x)為伽馬函數(shù)。

擴(kuò)展正態(tài)分布(normal distribution)是數(shù)理統(tǒng)計(jì)中的一種重要的理論分布,是許多統(tǒng)計(jì)方法的理論基礎(chǔ)。正態(tài)分布有兩個(gè)參數(shù),μ和σ,決定了正態(tài)分布的位置和形態(tài)。為了應(yīng)用方便,常將一般的正態(tài)變量X通過(guò)u變換[(X-μ)/σ]轉(zhuǎn)化成標(biāo)準(zhǔn)正態(tài)變量u,以使原來(lái)各種形態(tài)的正態(tài)分布都轉(zhuǎn)換為μ=0,σ=1的標(biāo)準(zhǔn)正態(tài)分布(standard normal distribution),亦稱u分布。3

根據(jù)中心極限定理,通過(guò)上述的抽樣模擬試驗(yàn)表明,在正態(tài)分布總體中以固定n,抽取若干個(gè)樣本時(shí),樣本均數(shù)的分布仍服從正態(tài)分布,即N(μ, )。所以,對(duì)樣本均數(shù)的分布進(jìn)行u變換,也可變換為標(biāo)準(zhǔn)正態(tài)分布N (0,1)。

特征1.以0為中心,左右對(duì)稱的單峰分布;

2.t分布是一簇曲線,其形態(tài)變化與n(確切地說(shuō)與自由度df)大小有關(guān)。自由度df越小,t分布曲線越低平;自由度df越大,t分布曲線越接近標(biāo)準(zhǔn)正態(tài)分布(u分布)曲線,如圖:

t(n)分布與標(biāo)準(zhǔn)正態(tài)N(0,1)的密度函數(shù)。

3.隨著自由度逐漸增大,t分布逐漸接近標(biāo)準(zhǔn)正態(tài)分布。

對(duì)應(yīng)于每一個(gè)自由度df,就有一條t分布曲線,每條曲線都有其曲線下統(tǒng)計(jì)量t的分布規(guī)律,計(jì)算較復(fù)雜。

學(xué)生的t分布(或也t分布) ,在概率統(tǒng)計(jì)中,在置信區(qū)間估計(jì)、顯著性檢驗(yàn)等問(wèn)題的計(jì)算中發(fā)揮重要作用。

t分布情況出現(xiàn)時(shí)(如在幾乎所有實(shí)際的統(tǒng)計(jì)工作)的總體標(biāo)準(zhǔn)偏差是未知的,并要從數(shù)據(jù)估算。教科書(shū)問(wèn)題的處理標(biāo)準(zhǔn)偏差,因?yàn)槿绻环Q為是兩類:

( 1 )那些在該樣本規(guī)模是如此之大的一個(gè)可處理的數(shù)據(jù)為基礎(chǔ)估計(jì)的差異,就好像它是一定的;

( 2 )這些說(shuō)明數(shù)學(xué)推理,在其中的問(wèn)題,估計(jì)標(biāo)準(zhǔn)偏差是暫時(shí)忽略的,因?yàn)檫@不是一點(diǎn),這是作者或?qū)煯?dāng)時(shí)的解釋。

置信區(qū)間假設(shè)數(shù)量A在當(dāng)T呈t-分布(T的自由度為n?1)滿足這與是相同的。A是這個(gè)概率分布的第95個(gè)百分點(diǎn)。3

那么

等價(jià)于

因此μ的90%置信區(qū)間為:。

計(jì)算下表列出了自由度為1-30以及80、100、120等t-分布的單側(cè)和雙側(cè)區(qū)間值。例如,當(dāng)樣本數(shù)量n=5時(shí),則自由度df=4,我們就可以查找表中以4開(kāi)頭的行。該行第5列值為2.132,對(duì)應(yīng)的單側(cè)值為95%(雙側(cè)值為90%)。這也就是說(shuō),T小于2.132的概率為95%(即單側(cè)),記為Pr(?∞

這是根據(jù)分布的對(duì)稱性計(jì)算得到的。1

Pr(T ?2.132) = 1 ? 0.95 = 0.05

因此,

Pr(?2.132

注意 關(guān)于表格的最后一行的值:自由度為無(wú)限大(n=120)的t-分布和正態(tài)分布等價(jià)。

|| ||