800 名科學家聯名主張廢除 p 值

來源：新智元

本文約4800字，建議閱讀8分鐘

本文將探討p值的去與留。

統計顯著性和p值是衡量研究可靠性的重要標準。這個標準是怎麼來的？今年3月Nature上一篇主張廢除p值的文章，為何獲得800位科學家聯名支持？如果沒有p值門檻，研究質量會出現大滑坡嗎？

每年，全球有數百萬學生修讀統計學課程。隨著世界上的數據量越來越大，統計學已成為越來越受歡迎的話題。如果大多數學生都從這門課中記住一點，那可能就是「統計顯著性」和「p值」的概念。

這兩個概念通常用於量化研究結果是否是偶然發生的問題。例如，某公司想要衡量兩個不同廣告投放到Facebook上的影響。他們發現，一個廣告吸引了10％的用戶點擊，而另一個廣告吸引了8％。為了弄清楚這種差異是確有意義，還是偶然發生，就可能會進行統計學測試，看看結果是否「顯著」。如果p值大於0.05，則判定為偶然，否則認為這個差異確有意義。通常，很多商業和醫學上的決策都是基於這個「5％原則」制定的。

「統計顯著」和p值的起源：從「建議」到「金標準」

「顯著」一詞最早見於19世紀80年代，英國經濟學家和統計學家弗朗西斯·埃奇沃思（Francis Edgeworth）在統計檢驗中首次使用該詞。據統計學家格倫·謝弗（Glenn Shafer）稱，當時使用這個詞的方式與今天不同。Edgeworth討論了這個詞有多大幾率「標誌」了有意義的差異。當時Edgeworth將一項發現稱為「可能顯著的」或「一定顯著的」。

羅納德·菲舍爾（Ronald Fisher）

1925 年，英國遺傳學家、統計學家羅納德·菲舍爾（Ronald Fisher）出版《研究者的統計方法》（Statistical Methods for Research Workers）一書。這本書奠定了他現代統計學之父的地位。他在書中著重講到研究人員應如何將統計檢驗理論應用於實際數據，以便基於數據得出他們所發現的結論。當使用某個統計假設來做檢驗時，該檢驗能夠概述數據與其假設的模型之間的兼容性，並生成一個p值。

菲舍爾建議，為方便起見，可以考慮將p值設為0.05。對於這一點，他專門論述道：「在判斷某個偏差是否應該被認為是顯著的時候，將這一閾值作為判斷標準是很方便的。」他還建議，p值低於該閾值的結論是可靠的，因此不要把時間花在大於該閾值的統計結論上。菲舍爾的這一建議被越來越多的人所接受，p<0.05逐漸與「統計顯著性」畫上了等號，成為「顯著」的數學定義。

到20世紀中葉，研究人員開始稱某項結果「高度顯著」或「幾乎不顯著」。「顯著」一詞變得更像是建議，而不是判斷。後來，統計顯著性和p值由於標準明確、計算方便逐漸成為衡量科學研究可靠性的重要標準。

Nature發文：是時候放棄「統計顯著性」了！獲800人簽名支持

今年3月，學者Valentin Amrhein，Sander Greenland和Blake McShane提出，如果沒有這個概念可能會更好。他們希望「統計學顯著」這個概念應該退出歷史舞台，他們的觀點得到很多人的支持。他們在《自然》期刊上撰文，要求將「統計顯著」這個詞從統計學中去掉，此文獲得800多位學者的簽名支持，其中不乏量化和統計學領域的重要人物。

他們的這篇文章名為《科學家們起來反對統計學意義》（Scientists rise up against statistical significance）。

標題猶如戰鬥檄文一樣令人振奮。在文章發出不到24小時，就有250多人簽名支持，一周之內吸引了超過800名研究人員共同反對。

大學裡好不容易聽懂的統計學，會變成一件沒「意義」的事情嗎？

為什麼要放棄統計學顯著性的概念？

幾代人以來，研究人員一直被警告說：統計上不顯著的結果並不能「證明」零假設（即假設各組之間沒有差異，或者某個處理方法對某些測量結果沒有影響）。統計上顯著的結果也不能「證明」其他一些假設。這種誤解用誇大的觀點扭曲了文獻，而且導致了一些研究之間的衝突。

三位統計學家提出一些建議，讓科學家們不至於成為這些誤解的犧牲品。

首先明確必須停止的事：永遠不應該僅僅因為P值大於閾值(如0.05)就得出「沒有差異」或「沒有關聯」的結論；或者，僅僅因為置信區間包含0就得出這樣的結論。

同時，我們也不應該斷定兩項研究之間存在衝突，只因為其中一項研究的結果具有統計學意義，而另一項則沒有。這些錯誤浪費了研究工作，誤導了政策決策。

當區間估計包含嚴重的風險增加時，得出結論認為統計上不顯著的結果顯示「無關聯」是荒謬的；同樣荒謬的是，聲稱這些結果與先前研究中顯示相同觀察效果的結果相反。然而，這些常見的實踐表明，依賴統計意義上的閾值會誤導我們。

謹防錯誤結論

這些錯誤以及類似的錯誤普遍存在。對數百篇文章的調查發現，統計上不顯著的結果被解釋為「沒有差異」或「沒有影響」的約有一半。

Amrhein，Greenland和McShane認為，基於規則的思維是「統計顯著性」的最大問題。他們認為：「麻煩是人為的和認知層面的，而不是統計學上的：將結果分類為'統計顯著'和'統計不顯著'，使人們認為以這種方式劃分的對象屬於不同類別。」

這種對「統計顯著性」的二元化標準的嚴重依賴，可能導致對醫學和社會科學新發現的真實性信心不足甚至喪失。

造成這個問題的重要原因是，統計顯著性的重要性被過分誇大。2015年，可重複性危機項目（現為開放科學中心）開展了一項實驗，對100篇重要的社會心理學論文進行了重複性檢驗，結果發現只有36.1％的論文的結論可以被重複出來。2018年，社會科學可重複性項目評估了《自然》與《科學》在2010年至2015年間發表的21項社會科學實驗研究的可重複性。他們發現，與原研究相比，其中只有13項研究中（約占總研究的62%）的重複實驗產生了顯著結果。

研究人員不應考慮結果是否「統計顯著性」，而是應該對結果進行成本效益分析，因為微不足道的結果可能仍然有用。比如實驗性抗癌藥物與安慰劑之間的差異為陽性，但達不到統計學顯著的標準，這時將該藥物提供給某些患者仍然是值得的，尤其是藥效獲得強理論支持的情況下。也就是說，應該根據結果有用的可能性來討論結果，而不是看是否滿足一些統計閾值。

反對意見：放棄p值，「無可辯駁的廢話」將充斥期刊

不過，並非所有人都認為應該取消「統計顯著性」的概念和p值。統計學家、史丹福大學教授約翰·約阿尼迪斯（John Ioannidis）就是其中之一。他曾對Nature這篇文章表達了明確的質疑，並撰文總結了與該文作者Sander Greenland和Blake McShane的商榷內容。他認為，設立一定的門檻是有必要的，如果沒有「統計顯著性」作為界限，那麼幾乎任何結果都可能會發表，「無可辯駁的廢話」將會占據統治地位。

「放棄統計學意義」真的是個好主意嗎？John Ioannidis列舉了他對Nature那篇引發大討論的文章的不同意見：

1. Natue文章的陳述(以下簡稱「陳述」)：統計上顯著的結果也不能「證明」其他一些假設。這種誤解用誇大的觀點歪曲了文獻，而且導致了一些研究之間的衝突。

該陳述的誤導性在於：完全刪除「統計學意義」將使任何人都可以對任何結果作出任何誇大的說明。如果刪除了統計學意義，也可能有助於在研究之間確實存在衝突時聲稱不存在衝突。

2. 陳述：讓我們明確什麼是必須停止的事情：我們不應該僅僅因為P值大於閾值(如0.05)就得出「沒有差異」或「沒有關聯」的結論；或者，僅僅因為置信區間包含0就得出這樣的結論。

該陳述的誤導性在於：在大多數科學領域，我們需要得出結論，然後傳達我們對結論的不確定性。對於如何得出結論，明確的、預先規定的規則是必要的。否則，任何人都可以一句自己的奇想得出任何結論。在許多情況下，使用足夠嚴格的p值閾值（例如，對於許多學科而言為p = 0.005）是非常有意義的。我們需要做出一些謹慎的選擇，然後繼續前進。嚴格地說，說任何和所有的聯繫都不能被100%排除是正確的，但實際上這是無稽之談。如果廢除了p值，科學將陷入癱瘓，因為我們不能排除所有可能導致任何事情的可能性。

3. 陳述：有XX%的論文將統計上不顯著的結果解釋為「沒有差異」。

該陳述的誤導性在於：在許多/大多數/所有的情況下，這可能都是完全恰當的，我們必須仔細檢查每個case。剩下的100-XX%中的一些/許多沒有被解釋為「沒有差異」，這可能至少是不恰當的。

4. 陳述：編輯們在介紹這期特刊的時候謹慎地說，「不要說』統計意義重大』」。另一篇數十人署名的文章呼籲作者和期刊編輯否認這些言論。我們同意並呼籲放棄統計意義的整個概念。我們並不是要放棄p值，而是呼籲停止以傳統的二分法使用P值——來決定結果是反駁還是支持一項科學假設。

誤導性在於：我認為在討論關於科學方法的議題時呼籲「簽名」是不恰當的。我們確實需要在大多數情況下非黑則白地得出結論：這種基因變異是否會導致抑鬱？我應該花10億美元來開發基於這一途徑的治療方法嗎？這種治療是否有效？污染物是否會致癌?

5. 陳述：例如，得到P = 0.03和P = 0.06之間的差異與一次均勻拋硬幣得到正面和反面之間的差異相同。

誤導性在於：這個例子事實上是錯誤的；只有在我們確定其影響確實是非空的情況下才成立。

6. 陳述：一種實用的方法是將置信區間重新命名為「兼容區間」(compatibility intervals)……

誤導性在於：在當前的混亂局面下，還要添加一個新的、特殊的術語嗎？「兼容」甚至是一個糟糕的選擇，可能比「置信」更糟糕。由於存在偏差，結果可能是完全錯誤的。如果存在偏差，X% CI(無論C代表什麼)可能在很多情況下甚至都不包含真值。

7. 陳述：我們建議作者描述區間內所有值的實際含義，特別是觀察到的效果和極限。

誤導性在於：我認為，更重要的是考慮可能存在哪些偏差，哪個偏差可能導致整個區間偏離，並因此與事實不符。

8. 陳述：與0.05的閾值一樣，用於計算區間的默認95%本身也是一種任意約定。

誤導性在於：確實如此，但這意味著更合適的P值閾值和X％CI區間是更可取的，這些需要預先仔細確定。否則，如果都事後確定，研究者的任何先入之見都是可以「支持」的。

9. 陳述：諸如背景證據、研究設計、數據質量和對潛在機制的理解等因素往往比P值或區間等統計度量更重要。

誤導性在於：雖然聽起來很合理，所有這些因素都很重要，但大多數因素通常都是主觀的。相反，統計分析至少具有一定的客觀性。如果在收集數據和運行分析之前仔細設置規則，那麼基於某些閾值(p值、Bayes因子、FDR或其他)的統計指導可能是有用的。否則，統計推斷也變成了完全是事後的、主觀的。

10.陳述：我們聽到的反對放棄統計學意義的意見最多的是，科學研究需要做出是或否的決定。但是，對於監管、政策和業務環境中經常需要做的選擇，基於成本、收益和所有潛在後果的可能性來做決策總是勝過僅基於統計顯著性做的決策。此外，對於是否進一步做某個研究的決定，p值與後續研究的可能結果之間沒有簡單的聯繫。

誤導性在於：這種說法等同於無稽之談。確實，在大多數情況下需要作出是/否的決定，這就是為什麼刪除統計學意義無濟於事。它會導致「一切皆有可能」的情況。對於需要做出決定的問題，研究設計需要提前(儘可能提前)考慮所有其他參數，並設置一些預先指定的規則，確定哪些是「成功」/可操作的結果，哪些不是。這可以基於p值、貝葉斯因子、FDR或其他閾值或其他函數。但遊戲需要一些規則才能公平。否則，我們將陷入比現在更混亂的局面，因為主觀解釋已經比比皆是了。例如，任何公司都可以聲稱其產品的任何試驗結果確實支持其申請專利。

John Ioannidis教授總結道：Nature的這篇評論基於一種潛在的信念，即在統計學p值之外，還存在無數真實、重要的影響，而我們錯誤地忽略了它們。但主要問題恰恰相反：有無數關於關聯和影響的謬論，一旦發表，就很難擺脫。三位統計學家呼籲放棄「統計學意義」，將使那些試圖通過篡改統計數據來作弊的人非常高興，因為現在他們根本不用擔心統計數據了。完全擺脫統計學意義和預設的、經過仔細考慮的閾值，有可能使謬論變得無可辯駁。

總的來看，目前關於「統計顯著性」的根深蒂固的想法還不會很快消失。統計顯著性對於定量分析仍然非常重要，目前，美國統計協會和英國皇家統計協會的官方期刊都以這個詞（Significance）命名。

參考連結：

https://qz.com/638059/many-scientific-truths-are-in-fact-false/

https://www.nature.com/articles/d41586-019-00857-9?from=singlemessage&isappinstalled=0#ref-CR4

https://statmodeling.stat.columbia.edu/2019/03/20/retire-statistical-significance-the-discussion/

https://qz.com/1729049/the-origins-of-the-concept-of-statistical-significance/

編輯：王菁

校對：林亦霖

— 完 —

關注清華-青島數據科學研究院官方微信公眾平台「THU數據派」及姊妹號「數據派THU」獲取更多講座福利及優質內容。