離群值的產(chǎn)生原因
離群值的產(chǎn)生原因大致有兩點:
(1)總體固有變異的極端表現(xiàn), 這是真實而正常的數(shù)據(jù), 只是在這次實驗中表現(xiàn)的有些極端,這類離群值與其余觀測值屬于同一總體。
(2)由于試驗條件和實驗方法的偶然性, 或觀測、 記錄、計算時的失誤所產(chǎn)生的結果,是一種非正常的、錯誤的數(shù)據(jù),這些數(shù)據(jù)與其余觀測值不屬于同一總體。
離群值的判斷在一組平行測定所得到的分析數(shù)據(jù)中,有時會出現(xiàn)個別測定值與其他數(shù)據(jù)相差較遠,這些數(shù)據(jù)稱為離群值或逸出值(Qutlier)。
對離群值的處理有一些統(tǒng)計判斷的方法,如chanwennt準則規(guī)定,如果一個數(shù)值偏離觀測平均值的概率小于等于1/(2n),則該數(shù)據(jù)應當舍棄(其中n為觀察例數(shù),概率可以根據(jù)數(shù)據(jù)的分布進行估計)。
發(fā)現(xiàn)離群值可以通過觀察值的頻數(shù)表或直方圖來初步判斷,也可通過統(tǒng)計軟件作觀察值的箱式圖來判斷,如果觀測值距箱式圖底線Q1(第25百分位數(shù))或頂線Q3(第75百分位數(shù))過遠,如超出箱體高度(四分位數(shù)間距)的兩倍以上,則可視該觀測值為離群值。當數(shù)據(jù)近似正態(tài)分布時,有一種較為簡單的方法,可用均數(shù)加減2.5s來判斷,如觀測值在此范圍以外,可視為離群值。
在統(tǒng)計學上也可用線性回歸的方法來對離群值進行判斷。當出現(xiàn)離群值的時候,要慎重處理,要將專業(yè)知識和統(tǒng)計學方法結合起來,首先應認真檢查原始數(shù)據(jù),看能否從專業(yè)上加以合理的解釋,如數(shù)據(jù)存在邏輯錯誤而原始記錄又確實如此,又無法在找到該觀察對象進行核實,則只能將該觀測值刪除。如果數(shù)據(jù)間無明顯的邏輯錯誤,則可將離群值刪除前后各做一次統(tǒng)計分析,若前后結果不矛盾,則該例觀測值可予以保留。
離群值的處理方法離群值處理方法包括:
(1)保留離群值并用于后續(xù)數(shù)據(jù)處理;
(2)在找到實際原因時修正離群值,否則予以保留;
(3)剔除離群值,不追加觀察值;
(4)剔除離群值,并追加新的觀察值或用適宜的插補值代替。
離群值的檢驗方法離群值的檢驗可分為兩大類:一類是標準偏差預先已知的場合;另一類是標準偏差未知的場合。只能利用待檢驗的一組分析數(shù)據(jù)本身來檢驗其中的離群值是否為異常值。
標準偏差預先已知檢驗時使用統(tǒng)計量:
式中, 是被檢驗的離群值,X是一組測定值的算術平均值,σ是由不包括異常值在內(nèi)的其他實驗測定值求得。如果根據(jù)上式計算的T值查表大于舍棄界限中相應置信度下的臨界值,則將
作為異常值舍棄。
標準偏差未知在更多的情況下標準偏差是未知的,只能利用待檢驗的一組分析數(shù)據(jù)本身來檢驗其中的離群值是否應該保留或舍棄。常用的方法有拉依達法、Q檢驗法(狄克松法)、肖維特法、格魯布斯法、t檢驗法、極差法等。
這些方法有著各自的特點和適用范圍:
(1)拉依達法使用方便,不需查表,但有失嚴密,測定次數(shù)較多或要求不高時可以應用它;但測定次數(shù)較少時,在一組測定值中即使混有異常值,有時也無法剔除。
(2)肖維特法比拉依達法有所改善,但從理論上考慮,當n和 趨向無窮大的時候,此時所有的異常值都無法剔除。
(3)而Q檢驗法、格魯布斯法、t檢驗法和極差法等方法則考慮了置信度的因素,概率意義明確,使所得結果更為科學合理。
(4)Q檢驗法的優(yōu)點是方法簡便。當測定次數(shù)較少時,例如3~ 5次測定,Q檢驗法拒絕接受的只是偏差很大的測定值,將非異常值判定為異常值的幾率是很小,但同時把異常值判斷為非異常值的可能性較大。
(5)格魯布斯法不僅設定了一定的置信度,而且引入了平均值和標準偏差,故判斷的準確性比Q檢驗法高,被中國國家標準推薦采用,也被美國實驗材料協(xié)會推薦采用。
(6)t檢驗法在處理數(shù)據(jù)前,預先“剔除”了被檢驗的離群值,保證了計算標準偏差的正確性和獨立性,在理論上得到了較嚴格的結果,提高了測定精度和檢驗的靈敏度。但如果在檢驗之前預先剔除的數(shù)據(jù)也可能不是異常值,而只是極值,這樣就會造成計算的標準偏差偏小,原來位于限界的一些極值這時也可能被作為異常值舍棄。
(7)極差法優(yōu)點是簡便,但在檢驗時,將本來為異常值而作為異常值保留下來的可能性較大1。