版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

無(wú)數(shù)人誤解的P值:統(tǒng)計(jì)上顯著不代表一定正確

返樸
原創(chuàng)
溯源守拙·問(wèn)學(xué)求新?!斗禈恪?,科學(xué)家領(lǐng)航的好科普。
收藏

用一個(gè)簡(jiǎn)單的例子,來(lái)正確理解P值——更確定不等于更重要。

撰文 | 湯姆·芝華士、大衛(wèi)·芝華士

翻譯 | 鄧妍

當(dāng)有女士在場(chǎng)時(shí),男士會(huì)為了給女士留下深刻印象而吃得更多嗎?《每日電訊報(bào)》2015 年的某則新聞的標(biāo)題做了肯定的回答。[1]這一情況后來(lái)也得到了路透社[2]和印度的《經(jīng)濟(jì)時(shí)報(bào)》[3]的報(bào)道。這些報(bào)道稱,男性和女性一起用餐時(shí),會(huì)比和其他男性一起用餐時(shí)多吃93%的比薩餅和86%的沙拉。報(bào)道基于康奈爾大學(xué)食品與品牌實(shí)驗(yàn)室的心理學(xué)家布萊恩·萬(wàn)辛克(Brian Wansink)和另外兩名研究者的研究。[4]

到目前為止,你大概已經(jīng)發(fā)現(xiàn),數(shù)字并非總是完全可信。但這一次肯定不是記者的錯(cuò)。事實(shí)上,是這項(xiàng)研究出現(xiàn)了嚴(yán)重失誤,而這個(gè)失誤能讓我們看到科學(xué)是如何運(yùn)作以及如何出錯(cuò)的。要理解為什么這個(gè)報(bào)道中的統(tǒng)計(jì)數(shù)據(jù)不能信,我們就需要深入了解科學(xué)實(shí)踐的機(jī)制。

只要讀過(guò)任何關(guān)于科學(xué)或數(shù)字的新聞報(bào)道,你基本都會(huì)遇到“統(tǒng)計(jì)顯著性”(statistical significance)這個(gè)詞。如果你誤以為這個(gè)措辭意味著你讀到的統(tǒng)計(jì)數(shù)據(jù)很顯著,也是情有可原??上В冗@要復(fù)雜得多。根據(jù)2019 年一篇論文的定義,統(tǒng)計(jì)顯著性的含義如下[5]:

假設(shè)原假設(shè)(null hypothesis)成立,并且通過(guò)從同一(批)總體中隨機(jī)抽樣來(lái)無(wú)限次重復(fù)同一研究,在所得的所有結(jié)果中,比當(dāng)前結(jié)果更極端的結(jié)果少于5%。

你能看懂嗎?我們?cè)囍鴣?lái)解釋一下。

假設(shè)你想了解某件事,比如閱讀一本名為《數(shù)字一點(diǎn)不老實(shí)》的書能否讓人更好地理解新聞中的統(tǒng)計(jì)數(shù)據(jù)。你可以抽取一個(gè)多達(dá)1000人的大樣本,該樣本將包含這本書的數(shù)百萬(wàn)讀者里的一些人,以及沒(méi)讀過(guò)這本書的一些人。(為了便于討論,我們假設(shè),在誰(shuí)都沒(méi)有讀過(guò)這本書之前,這兩個(gè)群體沒(méi)有差別;即使我們知道,在現(xiàn)實(shí)中,平均而言,買這本書的人肯定遠(yuǎn)比總體人口中的其他人更聰明、更睿智、顏值更高。)

下一步,我們讓樣本中的每個(gè)人都做一個(gè)簡(jiǎn)單的統(tǒng)計(jì)能力小測(cè)驗(yàn),看看讀過(guò)這本書的人是否比沒(méi)讀過(guò)的人做得更好。

我們假設(shè)數(shù)據(jù)顯示這本書的讀者似乎在測(cè)驗(yàn)中表現(xiàn)更好。我們?cè)趺粗肋@并非碰巧?我們?cè)趺粗浪麄冏龅酶檬且驗(yàn)橐恍?shí)實(shí)在在的差異,而不僅僅是隨機(jī)變化?要找出答案,我們可以使用一種名為“顯著性檢驗(yàn)”(significance testing,或稱“假設(shè)檢驗(yàn)”hypothesis testing)的統(tǒng)計(jì)學(xué)方法。

我們先設(shè)想一下如果這本書沒(méi)產(chǎn)生任何效果,我們會(huì)看到怎樣的結(jié)果。這個(gè)假設(shè)就叫“原假設(shè)”。另一種可能性是,這本書確實(shí)產(chǎn)生了一些積極效果——這個(gè)假設(shè)叫“對(duì)立假設(shè)”(alternative hypothesis)。用圖表展示最為直觀。在原假設(shè)下,我們預(yù)期會(huì)看到這樣一條曲線:頂峰位于平均分附近,大部分人位于中部,得分很高和很低的人都是少數(shù)——就像正態(tài)分布曲線。我們預(yù)期讀過(guò)這本書的人的平均分和分布曲線與沒(méi)讀過(guò)的人的幾乎相同。

而在對(duì)立假設(shè)下,讀過(guò)的人的平均分應(yīng)該高于沒(méi)讀過(guò)的人,那么分布曲線將會(huì)向右平移。

但事情沒(méi)這么簡(jiǎn)單。我們的原假設(shè)是說(shuō),這本書不起任何效果,而且兩組人的統(tǒng)計(jì)學(xué)水平還非常不現(xiàn)實(shí)地完全在同一起跑線上,但即便在這樣的假設(shè)下,還是有一些隨機(jī)變化:有些人可能在那一天狀態(tài)不佳?;叵腚娪啊峨p面情人》的情節(jié)可以幫助我們想象:在某一個(gè)宇宙中,格溫妮絲·帕特洛誤了火車,參加測(cè)驗(yàn)遲到了,所以她很慌張,結(jié)果答得很差;在另一個(gè)宇宙中,她準(zhǔn)時(shí)參加了測(cè)驗(yàn),得了高分,并繼續(xù)愛(ài)上了約翰·漢納。隨機(jī)變化也許不足以將她從笨蛋變成統(tǒng)計(jì)天才,但足以影響她的分?jǐn)?shù)。每個(gè)人在測(cè)驗(yàn)中的表現(xiàn)都有一定程度的隨機(jī)性,無(wú)論多么小。

如果有幾個(gè)沒(méi)讀過(guò)這本書的人碰巧得分很低,或者幾個(gè)讀過(guò)這本書的人碰巧得分超高,就可能足以顯著改變平均分,使讀者看上去比非讀者答得更好。

現(xiàn)在我們假定,不管出于什么原因,測(cè)驗(yàn)結(jié)果顯示這本書讀者的得分比非讀者更高。在我們的例子中,原假設(shè)是說(shuō)讀這本書沒(méi)有任何效果,并且任何波動(dòng)都只是隨機(jī)產(chǎn)生的,而如果原假設(shè)成立,你要檢驗(yàn)的就是這樣的測(cè)驗(yàn)結(jié)果(或更極端的結(jié)果)出現(xiàn)的可能性有多大。這就是顯著性檢驗(yàn)。

我們不可以單憑一個(gè)證據(jù)就毫無(wú)疑義地說(shuō)原假設(shè)是錯(cuò)的;理論上,無(wú)論結(jié)果和原假設(shè)的差距多么大,都有可能完全是巧合。但差距越大,巧合的可能性就越小??茖W(xué)家們就把發(fā)生巧合的可能性大小叫“P值”(Probability value,P-value)。

某些結(jié)果隨機(jī)出現(xiàn)的可能性越小,p值就越低。因此,如果說(shuō)讀這本書沒(méi)效果,而100次小測(cè)驗(yàn)里只觀察到1次這么極端或更甚的結(jié)果,那我們就說(shuō)p=0.01,或1/100。(接下來(lái)這一點(diǎn)非常重要,簡(jiǎn)直太,重,要,了,我們甚至想把這個(gè)重要的事情說(shuō)三遍:它的含義并,不,是,說(shuō)測(cè)驗(yàn)結(jié)果有1/100 的概率是錯(cuò)的。我們稍后會(huì)回到這一點(diǎn),但這里需要做個(gè)標(biāo)記。)

在科學(xué)的許多領(lǐng)域有一個(gè)慣例:如果 p≤0.05,即你預(yù)期出現(xiàn)如此極端的結(jié)果的可能性不超過(guò)5%,那么這個(gè)發(fā)現(xiàn)就有“統(tǒng)計(jì)顯著性”,這意味著你可以推翻原假設(shè)。

假設(shè)我們查看結(jié)果時(shí),發(fā)現(xiàn)讀過(guò)這本書的人的平均分確實(shí)高于沒(méi)讀過(guò)的人。如果該結(jié)果的 p 值小于0.05,那我們就說(shuō)我們達(dá)到了統(tǒng)計(jì)顯著水平,可以推翻原假設(shè)(“讀這本書什么用都沒(méi)有”)而支持對(duì)立假設(shè)(“這本書讓你的統(tǒng)計(jì)學(xué)能力變得更好”)。p值告訴我們的是,如果原假設(shè)成立,則我們?nèi)绻M(jìn)行100次檢驗(yàn),就該預(yù)期讀過(guò)這本書的人和沒(méi)讀過(guò)的人相比,獲得和這次測(cè)驗(yàn)差不多的成績(jī)的次數(shù)不超過(guò)5次

統(tǒng)計(jì)顯著性是個(gè)令人困惑的概念,即使對(duì)科學(xué)家來(lái)說(shuō)也是如此。2002年的一項(xiàng)研究發(fā)現(xiàn),100%的心理學(xué)本科生誤解了統(tǒng)計(jì)顯著性,更令人震驚的是,他們的講師也有90%是如此。[7]另一項(xiàng)研究查看了28種心理學(xué)教材,其中25種在定義統(tǒng)計(jì)顯著性時(shí)包含至少一項(xiàng)錯(cuò)誤。[7]

讓我們來(lái)消除一些可能的誤解。首先,我們所說(shuō)的“統(tǒng)計(jì)顯著性”是一種人為的慣用分界點(diǎn),記住這一點(diǎn)很重要。p=0.05沒(méi)有任何神奇之處。你可以把這個(gè)值設(shè)置得更高,然后宣布更多的發(fā)現(xiàn)具有統(tǒng)計(jì)顯著性;也可以把值設(shè)得更低,然后宣布更多結(jié)果不具有統(tǒng)計(jì)顯著性,而很可能是巧合。設(shè)得越高,假陽(yáng)性的風(fēng)險(xiǎn)就越大;設(shè)得越低,假陰性的風(fēng)險(xiǎn)就越大。如果實(shí)際上讀我們的書有效果,但由于設(shè)置了特別嚴(yán)格的 p 值,可能會(huì)導(dǎo)致我們宣稱讀這本書沒(méi)有任何效果——當(dāng)然,反之亦然。

其次,統(tǒng)計(jì)學(xué)的“顯著”也不是這個(gè)詞的通常意義。例如,如果非讀者組的平均分是65分,而讀者組的平均分是68分,這可能達(dá)到了“統(tǒng)計(jì)顯著性”,但你可能不覺(jué)得這有多大的顯著意義?!敖y(tǒng)計(jì)顯著性”衡量的是觀測(cè)結(jié)果乃是巧合的可能性,而非它的重要性。

還有最后一點(diǎn)至關(guān)重要,統(tǒng)計(jì)顯著性不是說(shuō),如果得到一個(gè)p=0.05的結(jié)果,你的假設(shè)就只有1/20的機(jī)會(huì)是錯(cuò)的。這種誤解很常見(jiàn),也是科學(xué)研究出錯(cuò)的重要原因。

問(wèn)題在于,盡管 p≤0.05 的統(tǒng)計(jì)顯著性完全是人為選定的,但科學(xué)家——更重要的是,期刊——經(jīng)常將其視為一個(gè)分界點(diǎn)。如果你的研究發(fā)現(xiàn) p=0.049,它也許就能發(fā)表;如果發(fā)現(xiàn) p=0.051,它很可能不會(huì)被發(fā)表。而科學(xué)家要想獲得資助、獲得終身教職并讓自己的職業(yè)生涯更上一層樓,就需要將自己的研究發(fā)表出去。他們受到極大的激勵(lì)去尋找具有統(tǒng)計(jì)顯著性的結(jié)果。

讓我們回到讀書實(shí)驗(yàn)。我們真的想證明我們的書能提高讀者的統(tǒng)計(jì)能力,這樣我們就可以登上《星期日泰晤士報(bào)》暢銷書排行榜,還能參加所有最棒的雞尾酒會(huì)。但我們進(jìn)行實(shí)驗(yàn)后,只得到了p=0.08。

好吧,我們想,也許只是運(yùn)氣不好。所以我們把實(shí)驗(yàn)又做了一遍。這次得到了0.11。我們一次又一次地進(jìn)行實(shí)驗(yàn),直到最終得到了0.04。太棒了!我們報(bào)告了我們的發(fā)現(xiàn),從此靠這本書的版稅吃飯。但這個(gè)結(jié)果幾乎可以肯定是假陽(yáng)性。如果你把某項(xiàng)實(shí)驗(yàn)做了20次,那么你就該預(yù)期會(huì)看到1/20的巧合結(jié)果。

這不是我們唯一的途徑。我們還可以用多種不同的方法雕琢數(shù)據(jù)。比如說(shuō),除了測(cè)量分?jǐn)?shù)之外,我們還可以測(cè)量人們完成測(cè)驗(yàn)的速度,或者筆跡是否工整。如果讀書組的得分沒(méi)有表現(xiàn)得更高,我們可以看看他們是否完成得更快;如果這也沒(méi)有的話,我們還可以看看他們的字是否變漂亮了。或者,你可以刪除一些比較極端的結(jié)果,并把它們叫“離群值”(outliers)。如果我們測(cè)量了足夠多的東西,用足夠多的方法把它們組合起來(lái),或者對(duì)數(shù)據(jù)做出足夠小且看似合理的調(diào)整,那么我們肯定能夠出于巧合而得出某些發(fā)現(xiàn)。

讓我們回到那些關(guān)于男性吃得更多以給女性留下深刻印象的報(bào)道。2016 年底,萬(wàn)辛克作為主要作者撰寫了一篇博客文章,這篇文章后來(lái)導(dǎo)致他的職業(yè)生涯陷入困境。文章題為《從不說(shuō)“不”的研究生》[8]。

萬(wàn)辛克在文中講了一名新加入他實(shí)驗(yàn)室的土耳其博士生的故事。他說(shuō),他給了她“一份數(shù)據(jù)集,來(lái)自一個(gè)自籌資金的研究,但研究失敗了,沒(méi)有找到任何發(fā)現(xiàn)(這是一項(xiàng)在一家意大利菜自助餐廳中進(jìn)行的研究,為期一個(gè)月,我們給一部分人打了五折優(yōu)惠)”。他告訴她仔細(xì)檢查數(shù)據(jù),因?yàn)椤拔覀兛隙軓倪@里找出點(diǎn)什么”。

在他的授意下,這位博士生以幾十種不同的方式重新分析了數(shù)據(jù),不出所料,發(fā)現(xiàn)了很多相關(guān)性,就像上面假想中的讀書研究那樣,我們大可以盡力雕琢數(shù)據(jù),直到找到一個(gè)p<0.05 的結(jié)果。她和萬(wàn)辛克通過(guò)該數(shù)據(jù)集發(fā)表了五篇不同的論文,其中包括“男性會(huì)為給女性留下深刻印象而多吃”的研究。在這項(xiàng)研究中,他們發(fā)現(xiàn),有女性在場(chǎng)時(shí),男性吃更多比薩餅的 p值為0.02,吃更多沙拉的p值為0.04。

但那篇博客文章引起了科學(xué)家們的警覺(jué)。這樣的行為叫“p值操縱”(p-hacking):“揉捏”數(shù)據(jù),使p值低于 0.05,從而使研究得以發(fā)表。精通方法論的研究者開(kāi)始查看萬(wàn)辛克過(guò)去的所有工作,還有一位消息人士將他的電郵信件泄露給了BuzzFeed新聞的科學(xué)調(diào)查記者斯蒂芬妮·M·李。原來(lái),他讓那位博士生將數(shù)據(jù)分解為“男性、女性、吃午餐的、吃晚餐的、獨(dú)坐的、兩人一桌的、兩人以上一桌的、點(diǎn)酒的、點(diǎn)軟飲的、靠近自助餐區(qū)的、遠(yuǎn)離自助餐區(qū)的等等”。[9]

人們也發(fā)現(xiàn)萬(wàn)辛克過(guò)去的論文存在其他方法論問(wèn)題,更多電子郵件也揭示了他低劣的統(tǒng)計(jì)操作——在一封郵件中,他暗示 :“我們應(yīng)該能從中找出多得多東西……我認(rèn)為為了顯著性和講出好故事而挖掘數(shù)據(jù)乃是好事?!盵10]他希望這項(xiàng)研究能夠“病毒式成名”。

這個(gè)例子比較夸張,但沒(méi)這么夸張的p值操縱比比皆是。它通常不會(huì)造成什么傷害。學(xué)者們迫切希望得到p<0.05,這樣就能發(fā)表論文,于是他們會(huì)重新進(jìn)行試驗(yàn)或重新分析數(shù)據(jù)。你可能聽(tīng)說(shuō)過(guò)“可重復(fù)性危機(jī)”(replication crisis):在心理學(xué)及其他科學(xué)領(lǐng)域,有科學(xué)家得出了重要的發(fā)現(xiàn),但當(dāng)別人去重現(xiàn)這些研究時(shí),發(fā)現(xiàn)許多結(jié)論實(shí)際上并不成立。這是因?yàn)槟切┛茖W(xué)家未能準(zhǔn)確理解一個(gè)問(wèn)題:他們不斷地雕琢數(shù)據(jù)、重新研究,直到發(fā)現(xiàn)具有統(tǒng)計(jì)顯著性的結(jié)果,卻沒(méi)有意識(shí)到這樣做會(huì)使自己的工作變得毫無(wú)意義。

幾位堅(jiān)持科學(xué)原則且具有統(tǒng)計(jì)學(xué)頭腦的研究人員和一位經(jīng)驗(yàn)豐富的科學(xué)記者為了挖掘萬(wàn)辛克的行為,花了幾個(gè)月的時(shí)間。而大多數(shù)時(shí)候,撰寫科學(xué)文章的記者都是基于通稿來(lái)快速撰寫新聞。他們通常沒(méi)有數(shù)據(jù)集,即使有,他們也無(wú)法發(fā)現(xiàn)p值操縱。而經(jīng)p值操縱的研究有一個(gè)不公平的優(yōu)勢(shì):由于這些研究本身就不需要正確,讓它們變得引人注目就更容易。所以這些研究經(jīng)常出現(xiàn)在新聞中。

讀者要在新聞報(bào)道中發(fā)現(xiàn)這一點(diǎn)并不容易。但我們需要明白:某件事僅僅是“統(tǒng)計(jì)上顯著”,并不代表它真的具有顯著、重大的意義,甚至不代表它是正確的。

參考文獻(xiàn)

[1] Helena Horton, Men eat more food when they are trying to impresswomen, study finds, the Daily Telegraph, 2015. https://www.telegraph.co.uk/news/science/12010316/men-eat-more-food-when-they-are-trying-to-impress-women.html

[2] Lisa Rapaport, Men may eat more when women are watchingReuters, 2015. https://wwwreuters.com/article/us-health-psychologymen-overeating/men-may-eat-more-when-women-are-watching.idUSKBNoTF23120151126

[3] Men eat more in the company of women, 2015. Economic Times. https://economictimes.indiatimes.com/magazines/panache/men-eat-more.in-the-company-of-women/articleshow/49830582.cms

[4] Knifin, K. M, Sigirci, O. and Wansink, B., Eating heavily: Men eat morein the company of women, Evolutionary Psychological Science, 2 (2016), pp.38-46. https://doi.org/10.1007/s40806-015-0035-3

[5] Cassidy, S.A, Dimova, R., Giguere, B., Spence, J. R. and Stanley, D. J.Failing grade: 89% ofintroduction-to-psychology textbooks that defineor explain statistical significance do so incorrectly, Advances in Methodsand Practices in Psychological Science, 2(3) (2019), pp. 233-9. https://doi.org/10.1177/2515245919858072

[6] Haller, H. and Kraus, S., Misinterpretations of signifcance: A problemstudents share with their teachers?, Methods of Psychological Research, 7(1)(2002),pp.1-20.

[7] Cassidy et al., 2019.

[8] Brian Wansink, “The grad student who never said “No”, 2016, archived at https://web.archive.org/web/20170312041524/http:/www.brianwansink.comphd-advice/the-grad-student-who-never-said-no

[9] Stephanie M.Lee, Here's how Cornell scientist Brian Wansink turnedshoddy data into viral studies about how we eat, BuzzFeed News, 2018. https://wwwbuzzfeednews.com/article/stephaniemlee/brian-wansink.cornell-p-hacking

[10] Ibid.

作者/譯者簡(jiǎn)介

作者簡(jiǎn)介

湯姆·芝華士(Tom Chivers),科學(xué)作家,曾供職于《每日電訊報(bào)》、BuzzFeed等媒體,2018年起為自由職業(yè)者。2018年獲英國(guó)皇家統(tǒng)計(jì)學(xué)會(huì)“新聞‘統(tǒng)計(jì)性’優(yōu)異獎(jiǎng)”。2017年獲美國(guó)心理學(xué)會(huì)(APA)媒體獎(jiǎng),并列入英國(guó)科學(xué)作者獎(jiǎng)、英國(guó)科學(xué)寫作新聞獎(jiǎng)短名單。

大衛(wèi)·芝華士(David Chivers),英國(guó)杜倫大學(xué)商學(xué)院經(jīng)濟(jì)學(xué)副教授,曾任牛津大學(xué)講師。在優(yōu)秀學(xué)術(shù)期刊上多有發(fā)表。研究領(lǐng)域包括不平等、增長(zhǎng)和發(fā)展等。

譯者簡(jiǎn)介:

鄧妍,心理學(xué)碩士,數(shù)學(xué)、經(jīng)濟(jì)學(xué)與統(tǒng)計(jì)學(xué)綜合學(xué)科碩士。曾任投資分析師。為知名媒體擔(dān)任專職翻譯多年?,F(xiàn)從事筆譯和心理咨詢工作。

本文經(jīng)授權(quán)節(jié)選自《數(shù)字一點(diǎn)不老實(shí)》(九州出版社·理想國(guó),2023年11月)第五章《統(tǒng)計(jì)顯著性:更確定不等于更重要》。

特 別 提 示

1. 進(jìn)入『返樸』微信公眾號(hào)底部菜單“精品專欄“,可查閱不同主題系列科普文章。

2. 『返樸』提供按月檢索文章功能。關(guān)注公眾號(hào),回復(fù)四位數(shù)組成的年份+月份,如“1903”,可獲取2019年3月的文章索引,以此類推。

版權(quán)說(shuō)明:歡迎個(gè)人轉(zhuǎn)發(fā),任何形式的媒體或機(jī)構(gòu)未經(jīng)授權(quán),不得轉(zhuǎn)載和摘編。轉(zhuǎn)載授權(quán)請(qǐng)?jiān)凇阜禈恪刮⑿殴娞?hào)內(nèi)聯(lián)系后臺(tái)。

評(píng)論
smxh676
大學(xué)士級(jí)
統(tǒng)一各種社會(huì)指標(biāo),具有一定數(shù)學(xué)依據(jù)創(chuàng)造數(shù)據(jù)價(jià)值,為社會(huì)服務(wù)!
2024-01-07
剛毅堅(jiān)卓
太師級(jí)
已閱知
2024-01-07
坦 蕩 蕩
太傅級(jí)
我們不可以單憑一個(gè)證據(jù)就毫無(wú)疑義地說(shuō)原假設(shè)是錯(cuò)的;理論上,無(wú)論結(jié)果和原假設(shè)的差距多么大,都有可能完全是巧合。
2024-01-08