最近中文字幕视频大全高清_黑人巨大人精品欧美三区_日本乱人伦电影大全_国产欧美日韩高清91专区_色视频在线观看免费播放_亚洲自拍无码一区_附近24小时随叫随到_日韩 中文字幕 第三页视频_少妇无码一晚三次_亚洲中文在线字幕

[精益生產(chǎn)]統(tǒng)計(jì)學(xué)里“P”的故事:蚊子、皇帝的新衣和不育的風(fēng)流才子

時(shí)間:2017-09-17 21:37:49來源:智天下顧問點(diǎn)擊:709

導(dǎo)讀
衡量統(tǒng)計(jì)真實(shí)性的“黃金標(biāo)準(zhǔn)”——P值,并非眾多科學(xué)家想象的那樣可靠。
簡(jiǎn)介
2010年某個(gè)瞬間,馬特·莫德爾(Matt Motyl)離享受科學(xué)榮譽(yù)僅有一步之遙。那時(shí),他發(fā)現(xiàn)政治極端主義者看到的世界是確實(shí)是非黑即白的。
實(shí)驗(yàn)結(jié)果“非常清楚”。莫德爾這樣回憶道。他是夏洛茨維爾市弗吉尼亞大學(xué)的心理學(xué)博士生。他所做的一項(xiàng)涉及近2000人的研究中的數(shù)據(jù)似乎表明,與左翼或右翼人士相比,政治中立派能更準(zhǔn)確地辨別不同色度的灰色。他說:“實(shí)驗(yàn)的假設(shè)很有趣,而且數(shù)據(jù)也能夠有力支持實(shí)驗(yàn)假設(shè)?!庇脕砗饬拷y(tǒng)計(jì)顯著性的常用指標(biāo)是P值。該實(shí)驗(yàn)中的P值為0.01,通常人們會(huì)認(rèn)為這說明實(shí)驗(yàn)結(jié)果“非常顯著”。莫德爾十分有把握能把自己的論文發(fā)表在高影響因子的刊物上。
但是,現(xiàn)實(shí)無情地粉碎了幻想。由于擔(dān)心實(shí)驗(yàn)結(jié)果陷入再現(xiàn)性爭(zhēng)論,莫德爾和他的導(dǎo)師布萊恩?諾塞克(Brian Nosek)決定重復(fù)實(shí)驗(yàn)。添加了新的數(shù)據(jù)之后,P值變成了0.59,這個(gè)數(shù)字遠(yuǎn)未達(dá)到學(xué)界一般能接受的顯著性水平0.05。莫德爾觀察到的心理學(xué)效應(yīng)沒有了,他年少成名的夢(mèng)也被打碎了。
其實(shí),不是莫德爾的數(shù)據(jù)或分析出了什么問題,而是P值這個(gè)指標(biāo)出了問題。從本質(zhì)上講,這個(gè)指標(biāo)出人意料的不穩(wěn)定,它并不是大多數(shù)科學(xué)家想象的那樣可靠和客觀。“P值沒有起到人們期望的作用,因?yàn)樗鼔焊筒豢赡芷鸬竭@個(gè)作用。”伊利諾伊州芝加哥市羅斯福大學(xué)的經(jīng)濟(jì)學(xué)家斯蒂芬?茲利亞克(Stephen Ziliak)這樣說,他經(jīng)常批評(píng)統(tǒng)計(jì)學(xué)的應(yīng)用方式。
出于對(duì)實(shí)驗(yàn)可重復(fù)性的擔(dān)憂,P值的問題讓很多科學(xué)家特別發(fā)愁。2005年,加州斯坦福大學(xué)的流行病學(xué)家約翰?埃迪尼斯(John Ioanniadis)指出,大多數(shù)公開發(fā)表的科學(xué)發(fā)現(xiàn)都是有問題的。此后,一連串備受矚目的、有可重復(fù)性問題的研究迫使科學(xué)家重新思考該如何評(píng)估研究結(jié)果。
與此同時(shí),統(tǒng)計(jì)學(xué)家也在尋找更好的分析數(shù)據(jù)的方法,以避免科學(xué)家錯(cuò)失重要信息,或在假陽性結(jié)果上浪費(fèi)精力?!爱?dāng)你的統(tǒng)計(jì)思想發(fā)生改變之后,突然,重要的東西也完全變了。”斯坦福大學(xué)物理學(xué)家、統(tǒng)計(jì)學(xué)家史蒂文·古德曼(Steven Goodman)說:“規(guī)則并不是天注定的,它是由我們所采用的統(tǒng)計(jì)方法決定的?!?/span>
對(duì)P值的誤用
人們一直都對(duì)P值批評(píng)不斷。90年前P值誕生以來,被比作過蚊子(因?yàn)檫@東西煩人又揮之不去)、皇帝的新衣(因?yàn)镻值的方法中到處都是顯而易見卻被所有人無視的問題)以及“不育的風(fēng)流才子”手中的工具——這位“才子”強(qiáng)搶了科學(xué)佳人,卻讓科學(xué)佳人后繼無人。一位研究人員表示,應(yīng)該把“統(tǒng)計(jì)推論和假設(shè)檢驗(yàn)”這個(gè)方法改個(gè)名字,叫做“統(tǒng)計(jì)假設(shè)和推論檢驗(yàn)”(statistical hypothesis inference testing),大概因?yàn)檫@個(gè)名字的首字母縮寫更符合它的氣質(zhì)。
諷刺之處在于,20世紀(jì)20年代,英國統(tǒng)計(jì)學(xué)家羅納德·費(fèi)希爾(Ronald Fisher)首次采用P值方法時(shí),并沒有打算把它作為決定性的檢驗(yàn)方法。他本來只是用P值作為一種判斷數(shù)據(jù)在傳統(tǒng)意義上是否顯著的非正式方法,也就是說,用來判斷數(shù)據(jù)證據(jù)是否值得進(jìn)行深入研究。P值方法的思路是先進(jìn)行一項(xiàng)實(shí)驗(yàn),然后觀察實(shí)驗(yàn)結(jié)果是否符合隨機(jī)結(jié)果的特征。研究人員首先提出一個(gè)他們想要推翻的“零假設(shè)”(null hypothesis),比如,兩組數(shù)據(jù)沒有相關(guān)性或兩組數(shù)據(jù)沒有顯著差別。接下來,他們會(huì)故意唱反調(diào),假設(shè)零假設(shè)是成立的,然后計(jì)算實(shí)際觀察結(jié)果與零假設(shè)相吻合的概率。這個(gè)概率就是P值。費(fèi)希爾說,P值越小,研究人員成功證明這個(gè)零假設(shè)不成立的可能性就越大。
將數(shù)據(jù)和背景知識(shí)相結(jié)合得出科學(xué)結(jié)論的過程是流動(dòng)的、非數(shù)值化的。盡管P值的精確性顯而易見,費(fèi)希爾還是希望它只是這個(gè)過程的一部分。但是,科學(xué)家很快就開始利用P值來保證循證決策的嚴(yán)謹(jǐn)與客觀。這一運(yùn)動(dòng)是20世紀(jì)20年代末,由費(fèi)希爾的死對(duì)頭、波蘭數(shù)學(xué)家耶日·內(nèi)曼(Jerzy Neyman)和英國統(tǒng)計(jì)學(xué)家埃貢·皮爾森(Egon Pearson)一手推動(dòng)的。他們采用了一種新的數(shù)據(jù)分析框架,該框架中包括統(tǒng)計(jì)效力、假陽性、假陰性和很多其他如今在統(tǒng)計(jì)學(xué)概論課上耳熟能詳?shù)母拍?。他倆直接無視了P值這個(gè)指標(biāo)。
雙方爭(zhēng)執(zhí)不斷,內(nèi)曼批評(píng)費(fèi)希爾的某些工作從數(shù)學(xué)上講比“毫無用處”還糟糕,而費(fèi)希爾對(duì)內(nèi)曼的方法給出的評(píng)價(jià)是“無比幼稚”、“在西方學(xué)界中簡(jiǎn)直駭人聽聞”。但是,就在雙方爭(zhēng)執(zhí)不下時(shí),其他研究人員的耐心漸漸耗盡了。他們開始給進(jìn)行研究的科學(xué)家們編寫統(tǒng)計(jì)學(xué)指南。但是其中很多作者并非統(tǒng)計(jì)學(xué)家,他們對(duì)兩種方法都缺乏透徹的理解。結(jié)果就是他們把費(fèi)希爾粗略的P值計(jì)算法硬塞進(jìn)了內(nèi)曼和皮爾森二人建立的規(guī)則嚴(yán)密的統(tǒng)計(jì)系統(tǒng)中,創(chuàng)造出了一種混合的方法,然后就出現(xiàn)了像“P值為0.05,即可將統(tǒng)計(jì)結(jié)果視為顯著”這樣的規(guī)則。古德曼說:“統(tǒng)計(jì)學(xué)家從沒打算以現(xiàn)在的方式使用P值?!?/span>
“P值至上”帶來的惡果

這樣做的后果之一就是人們對(duì)P值的意義充滿困惑。我們回過頭來看一下莫德爾關(guān)于政治激進(jìn)者的研究。大多數(shù)科學(xué)家看到實(shí)驗(yàn)最初統(tǒng)計(jì)結(jié)果的P值為0.01,就會(huì)認(rèn)為莫德爾的結(jié)論不成立的概率只有1%。但他們錯(cuò)了。P值無法告訴研究人員這樣的信息。P值能做的,就是在特定的零假設(shè)條件下對(duì)數(shù)據(jù)特征進(jìn)行總結(jié)分析。研究人員不能利用P值通過反向推導(dǎo)對(duì)事實(shí)作出判斷。要對(duì)事實(shí)作出判斷,還需要更多信息,也就是現(xiàn)實(shí)世界中該效應(yīng)客觀存在的概率。忽視了這一點(diǎn),就好像一個(gè)人清晨醒來覺得有點(diǎn)頭痛,然后就斷定自己得了某種罕見的腦瘤。這當(dāng)然不是不可能,只是這事兒攤到你頭上的概率太小,所以你得先拿出更多證據(jù)推翻例如過敏反應(yīng)這樣更為常見的原因。結(jié)論越是令人難以置信(比如心靈感應(yīng)、外星人、順勢(shì)療法),這種驚人的發(fā)現(xiàn)是假陽性的可能性就越大,不管你的P值有多小。
這些都是比較難懂的概念,但是一些統(tǒng)計(jì)學(xué)家試圖用它們來解釋經(jīng)驗(yàn)法則的失靈(見下圖)。根據(jù)應(yīng)用最廣泛的一種計(jì)算方法,如果假設(shè)為該現(xiàn)象存在,那么當(dāng)P值為0.01時(shí),該現(xiàn)象實(shí)際并不存在的概率至少為11%;而當(dāng)P值為0.05時(shí),這一概率則會(huì)上升到29%。因此,莫德爾的發(fā)現(xiàn)是假陽性的概率超過10%。同樣,結(jié)果可重復(fù)的概率也不是大多數(shù)人所想的99%,而是73%左右。而再得到一個(gè)極為顯著的結(jié)果的概率只有50%。換言之,莫德爾的實(shí)驗(yàn)結(jié)果不可重復(fù)的概率高得驚人,就跟拋硬幣猜正面向上,而落下來是反面朝上的概率差不多。

圖中的三個(gè)例子證明,即使計(jì)算得出的P值非常小(具有統(tǒng)計(jì)顯著性),實(shí)驗(yàn)結(jié)果也可能具有極高的不可重復(fù)率。
批評(píng)者也感慨P值會(huì)讓研究人員思維混亂。最重要的一個(gè)例子是,P值容易使研究者錯(cuò)誤的估計(jì)現(xiàn)象的真實(shí)影響。比如去年,一項(xiàng)覆蓋超過19000人的研究顯示,在網(wǎng)上結(jié)識(shí)的夫妻比在現(xiàn)實(shí)生活中結(jié)識(shí)的夫妻離婚的可能性更低(P<0.002),而獲得婚姻滿足感的可能性則更高(P<0.001)。(點(diǎn)擊這里看詳情)。這一現(xiàn)象也許挺讓人印象深刻,但這種現(xiàn)象其實(shí)非常不明顯。網(wǎng)上結(jié)識(shí)的夫婦離婚率為5.96%,而現(xiàn)實(shí)生活中結(jié)識(shí)的夫妻離婚率為7.67%,根據(jù)7分幸福感評(píng)分表測(cè)試中,網(wǎng)上結(jié)識(shí)的夫妻幸福感為5.64分,而現(xiàn)實(shí)生活中結(jié)石的夫妻幸福感為5.48分。澳大利亞墨爾本市拉籌伯大學(xué)的榮譽(yù)心理學(xué)家杰夫·卡明(Geoff Cumming)認(rèn)為:“為了追求很小的P值而忽略背后更大的問題這一現(xiàn)象是“誘人的顯著性”的犧牲品?!钡牵@著性并不意味著實(shí)際中確實(shí)存在相關(guān)性。他說:“我們應(yīng)該問的是,‘某種現(xiàn)象出現(xiàn)的概率有多大?’而不是‘有沒有某種現(xiàn)象?’”
大概,最糟糕的錯(cuò)誤是某種自欺欺人的行為,賓夕法尼亞大學(xué)的心理學(xué)家尤里·西蒙遜(Uri Simonsohn)及其同事給這種行為起名為“P值操縱”(P-hacking)。這種行為也被稱為數(shù)據(jù)挖掘、數(shù)據(jù)窺探、數(shù)據(jù)釣魚、追逐顯著性或者雙重計(jì)算。西蒙遜解釋道:“P值操縱就是不斷地把數(shù)據(jù)量加倍,直到獲得自己想要的結(jié)果?!边@種行為甚至是下意識(shí)的。這可能是在線城市詞典中收錄的第一個(gè)統(tǒng)計(jì)學(xué)詞條,該詞條的例句是:“這一發(fā)現(xiàn)似乎是通過P值操縱做出來的。作者去掉了其中一種條件下的數(shù)據(jù),使總體的P值小于0.05。”或者“她是個(gè)P值操縱者,總是一邊收集數(shù)據(jù)一邊看數(shù)據(jù)好不好。”
這種行為的結(jié)果是,把本應(yīng)帶著質(zhì)疑眼光審視的探索性研究的結(jié)果變得看似確定無疑實(shí)際上卻難以重復(fù)。西蒙遜的計(jì)算機(jī)模擬實(shí)驗(yàn)表明,只需改變研究中的若干數(shù)據(jù)分析方法,就能使假陽性的概率提高到60%。如今的研究都希望能從雜亂的數(shù)據(jù)中發(fā)現(xiàn)并不十分明顯的現(xiàn)象。在這種背景下,尤其容易出現(xiàn)P值操縱。盡管難以估計(jì)這種做法有多普遍,但西蒙遜認(rèn)為這一問題應(yīng)該已經(jīng)很嚴(yán)重了。在一項(xiàng)分析研究中,他發(fā)現(xiàn)有跡象表明,很多公開發(fā)表的心理學(xué)論文中,P值都出人意料地分布在0.05左右——就像研究人員通過P值操縱不斷嘗試,直到得到理想的P值。
解決之道
盡管對(duì)P值提出批評(píng)的大有人在,但統(tǒng)計(jì)方法的變革仍然進(jìn)展緩慢。“費(fèi)希爾、內(nèi)曼和皮爾森提出他們的理論后,統(tǒng)計(jì)學(xué)的基本框架實(shí)質(zhì)上沒有發(fā)生任何改變?!惫诺侣f。1982年,明尼阿波利斯市明尼蘇達(dá)大學(xué)心理學(xué)家約翰·坎貝爾(John Campell)曾經(jīng)抱怨過這個(gè)問題,當(dāng)時(shí)他還是《應(yīng)用心理學(xué)雜志》的編輯。他說:“要把作者的注意力從P值上轉(zhuǎn)移走幾乎是不可能的,P值小數(shù)點(diǎn)后面的零越多,人們就越抓著P值不愿放手?!?989年,馬薩諸塞州波士頓大學(xué)的肯尼斯·羅斯曼(Kenneth Rothman)創(chuàng)辦了《流行病學(xué)》這本雜志,當(dāng)時(shí)他盡力勸阻作者不要使用P值。但是在2001年他離開了雜志社后,這本雜志中又經(jīng)常出現(xiàn)P值了。
埃尼迪斯最近正在PubMed數(shù)據(jù)庫中搜尋數(shù)據(jù),用來研究不同領(lǐng)域的學(xué)者是如何使用P值和其他統(tǒng)計(jì)學(xué)證據(jù)的?!爸恍枰致詾g覽幾篇最近發(fā)表的論文,你就會(huì)發(fā)現(xiàn)P值仍然是非常非常流行的方法?!?/span>
古德曼認(rèn)為,這種根深蒂固的研究文化需要徹底的改革——人們必須改變統(tǒng)計(jì)學(xué)的教授方式、數(shù)據(jù)分析方式以及結(jié)果呈現(xiàn)和解釋的方式;而好在研究人員已經(jīng)開始意識(shí)到自己的問題了。“已公開發(fā)表的眾多科學(xué)發(fā)現(xiàn)都不成立,這給人們敲了個(gè)警鐘?!卑D岬纤沟妊芯空叩难芯拷沂玖死碚摻y(tǒng)計(jì)學(xué)的批評(píng)觀點(diǎn)與統(tǒng)計(jì)學(xué)應(yīng)用上的難題之間的聯(lián)系。古德曼說:“統(tǒng)計(jì)學(xué)家預(yù)言會(huì)出現(xiàn)的問題正是我們當(dāng)前遇到的問題,只是我們還沒有找到全部的解決辦法?!?/span>
統(tǒng)計(jì)學(xué)家提出了幾個(gè)或許可行的方法。比如卡明認(rèn)為,為了避免掉進(jìn)思考結(jié)果是否顯著這個(gè)陷阱,研究人員應(yīng)該在文章中提供效應(yīng)量和置信區(qū)間的相關(guān)數(shù)據(jù)。這些數(shù)據(jù)可以反映P值無法反映的信息,也就是效應(yīng)的規(guī)模及其相對(duì)重要性。
很多統(tǒng)計(jì)學(xué)家還呼吁用基于貝葉斯法則的方法替代P值。這一法則誕生于18世紀(jì),其思想是把概率視為某種結(jié)果的似然性而非出現(xiàn)的頻率。這其中蘊(yùn)含了某種主觀因素,而這也是統(tǒng)計(jì)學(xué)前沿學(xué)者想極力避免的。但是,貝葉斯分析框架能夠使觀察者相對(duì)容易地將自己所知道的內(nèi)容融入結(jié)論,以及計(jì)算出現(xiàn)新數(shù)據(jù)后概率如何變化。
其他人則贊成一種更普遍的方法,即鼓勵(lì)研究人員對(duì)同一套數(shù)據(jù)用多種方法進(jìn)行分析。 盧森堡市公共衛(wèi)生研究中心的統(tǒng)計(jì)學(xué)家史蒂芬·森(Stephen Senn)把這個(gè)方法比作沒法從墻角里繞出來的掃地機(jī)器人。任何數(shù)據(jù)分析方法最終都會(huì)有行不通的時(shí)候,這時(shí)就需要用常識(shí)將分析拖回正軌。他認(rèn)為倘若用不同的方法得到了不同的結(jié)論,“就表明研究者應(yīng)該繼續(xù)開動(dòng)腦筋,努力找到原因”,而這能讓我們更好地理解背后的真相。
西蒙遜認(rèn)為科學(xué)家為自己辯解最有利的武器就是承認(rèn)一切。他鼓勵(lì)作者在論文中寫上這樣一段話:“論文中列出了研究中我們確定樣本大小的方法、所有舍棄的數(shù)據(jù)(如果有的話)以及研究中用到的所有操作和測(cè)量方法?!蓖ㄟ^這種方式表明文章沒有進(jìn)行“P值操縱”。他希望通過披露這些信息,能夠阻止P值操縱行為,或者至少能提醒讀者注意論文中的疑點(diǎn),并自行做出判斷。
紐約市哥倫比亞大學(xué)政治學(xué)家、統(tǒng)計(jì)學(xué)家安德魯·格爾曼(Andrew Gelman)表示,目前另一個(gè)受到關(guān)注的類似方法是兩階段分析法,也叫做“先預(yù)定后重復(fù)法”(preregistered replication)。這種方法中,探索與驗(yàn)證分析通過不同的方式進(jìn)行,而且要在論文中清楚地標(biāo)示出來。例如,研究人員首先做兩個(gè)探索性的小研究,用來發(fā)現(xiàn)可能比較有趣的現(xiàn)象,而又不需要太擔(dān)心假陽性結(jié)論;而不是一下做4個(gè)單獨(dú)的小研究,然后在同一篇論文中寫出所有的結(jié)果。然后,在上述研究結(jié)果的基礎(chǔ)上,作者再?zèng)Q定用什么方法來驗(yàn)證他的發(fā)現(xiàn),并在Open Science Framework這樣的數(shù)據(jù)庫中向公眾提前披露自己的研究意向。然后,他們?cè)龠M(jìn)行重復(fù)實(shí)驗(yàn),并將結(jié)果之前與探索性研究的結(jié)果一同發(fā)表。格爾曼表示這種方法使研究分析更加自由和靈活,同時(shí)也能使研究者保持嚴(yán)謹(jǐn),并降低公開發(fā)表的假陽性結(jié)果的數(shù)量。
古德曼還表示,進(jìn)一步來說,研究人員需要意識(shí)到傳統(tǒng)統(tǒng)計(jì)學(xué)方法的局限性。他們應(yīng)該在研究中融入對(duì)假設(shè)似然性和研究局限性的科學(xué)判斷,而這些內(nèi)容通常情況下會(huì)被放到討論部分——包括相同或類似實(shí)驗(yàn)的結(jié)果、研究人員提出的可能的機(jī)制以及臨床認(rèn)識(shí)等等。馬里蘭州巴爾的摩市約翰霍普金斯大學(xué)布隆伯格公共衛(wèi)生學(xué)院的統(tǒng)計(jì)學(xué)家理查德·羅耶兒(Richard Royall)認(rèn)為,科學(xué)家應(yīng)該在實(shí)驗(yàn)結(jié)束之后思考三個(gè)問題:“支持?jǐn)?shù)據(jù)是什么?”、“我應(yīng)該相信什么樣的數(shù)據(jù)?”以及“下一步應(yīng)該怎么做?” 單一方法無法回答上述全部問題。古德曼說:“數(shù)字僅僅是科學(xué)討論的開始,而不是結(jié)束。”--
祝工作愉快!如需要智天下顧問服務(wù)的,請(qǐng)隨時(shí)與我聯(lián)系!

     陳校強(qiáng)  客戶專員
     手機(jī):15817354063   QQ:2484233064   
     智者無疆   心系天下
深圳市智天下管理顧問有限公司
SHENZHEN CHITAS CONSULTING  CO. LTD.
地址: 深圳市寶安區(qū)西鄉(xiāng)街道銀田路 寶安智谷科技創(chuàng)新園H棟1層
全國咨詢服務(wù)熱線:  400-995-2280
電話:0755-33158791
傳真: 0755-27822567  
網(wǎng)址: http://8090chao.cn/
臺(tái)州公司: 浙江省臺(tái)州市溫嶺市城東街道滬商大廈1705
電話: 0576-8615 1068 / 8615 1069 


延伸閱讀

熱門標(biāo)簽: 行業(yè)新聞
?