無數人誤解的P值：統計上顯著不代表一定正確

一個簡單的例子，來正確理解P值——更確定不等于更重要。

撰文 | 湯姆·芝華士、大衛·芝華士

翻譯 | 鄧妍

當有女士在場時，男士會為了給女士留下深刻印象而吃得更多嗎？《每日電訊報》2015 年的某則新聞的標題做了肯定的回答。[1]這一情況后來也得到了路透社[2]和印度的《經濟時報》[3]的報道。這些報道稱，男性和女性一起用餐時，會比和其他男性一起用餐時多吃93%的比薩餅和86%的沙拉。報道基于康奈爾大學食品與品牌實驗室的心理學家布萊恩·萬辛克（Brian Wansink）和另外兩名研究者的研究。[4]

到目前為止，你大概已經發現，數字并非總是完全可信。但這一次肯定不是記者的錯。事實上，是這項研究出現了嚴重失誤，而這個失誤能讓我們看到科學是如何運作以及如何出錯的。要理解為什么這個報道中的統計數據不能信，我們就需要深入了解科學實踐的機制。

只要讀過任何關于科學或數字的新聞報道，你基本都會遇到“統計顯著性”（statistical significance）這個詞。如果你誤以為這個措辭意味著你讀到的統計數據很顯著，也是情有可原。可惜，它比這要復雜得多。根據2019 年一篇論文的定義，統計顯著性的含義如下[5]：

假設原假設（null hypothesis）成立，并且通過從同一（批）總體中隨機抽樣來無限次重復同一研究，在所得的所有結果中，比當前結果更極端的結果少于5%。

你能看懂嗎？我們試著來解釋一下。

假設你想了解某件事，比如閱讀一本名為《數字一點不老實》的書能否讓人更好地理解新聞中的統計數據。你可以抽取一個多達1000人的大樣本，該樣本將包含這本書的數百萬讀者里的一些人，以及沒讀過這本書的一些人。（為了便于討論，我們假設，在誰都沒有讀過這本書之前，這兩個群體沒有差別；即使我們知道，在現實中，平均而言，買這本書的人肯定遠比總體人口中的其他人更聰明、更睿智、顏值更高。）

下一步，我們讓樣本中的每個人都做一個簡單的統計能力小測驗，看看讀過這本書的人是否比沒讀過的人做得更好。

我們假設數據顯示這本書的讀者似乎在測驗中表現更好。我們怎么知道這并非碰巧？我們怎么知道他們做得更好是因為一些實實在在的差異，而不僅僅是隨機變化？要找出答案，我們可以使用一種名為“顯著性檢驗”（significance testing，或稱“假設檢驗”hypothesis testing）的統計學方法。

我們先設想一下如果這本書沒產生任何效果，我們會看到怎樣的結果。這個假設就叫“原假設”。另一種可能性是，這本書確實產生了一些積極效果——這個假設叫“對立假設”（alternative hypothesis）。用圖表展示最為直觀。在原假設下，我們預期會看到這樣一條曲線：頂峰位于平均分附近，大部分人位于中部，得分很高和很低的人都是少數——就像正態分布曲線。我們預期讀過這本書的人的平均分和分布曲線與沒讀過的人的幾乎相同。

而在對立假設下，讀過的人的平均分應該高于沒讀過的人，那么分布曲線將會向右平移。

但事情沒這么簡單。我們的原假設是說，這本書不起任何效果，而且兩組人的統計學水平還非常不現實地完全在同一起跑線上，但即便在這樣的假設下，還是有一些隨機變化：有些人可能在那一天狀態不佳。回想電影《雙面情人》的情節可以幫助我們想象：在某一個宇宙中，格溫妮絲·帕特洛誤了火車，參加測驗遲到了，所以她很慌張，結果答得很差；在另一個宇宙中，她準時參加了測驗，得了高分，并繼續愛上了約翰·漢納。隨機變化也許不足以將她從笨蛋變成統計天才，但足以影響她的分數。每個人在測驗中的表現都有一定程度的隨機性，無論多么小。

如果有幾個沒讀過這本書的人碰巧得分很低，或者幾個讀過這本書的人碰巧得分超高，就可能足以顯著改變平均分，使讀者看上去比非讀者答得更好。

現在我們假定，不管出于什么原因，測驗結果顯示這本書讀者的得分比非讀者更高。在我們的例子中，原假設是說讀這本書沒有任何效果，并且任何波動都只是隨機產生的，而如果原假設成立，你要檢驗的就是這樣的測驗結果（或更極端的結果）出現的可能性有多大。這就是顯著性檢驗。

我們不可以單憑一個證據就毫無疑義地說原假設是錯的；理論上，無論結果和原假設的差距多么大，都有可能完全是巧合。但差距越大，巧合的可能性就越小。科學家們就把發生巧合的可能性大小叫“P值”（Probability value，P-value）。

某些結果隨機出現的可能性越小，p值就越低。因此，如果說讀這本書沒效果，而100次小測驗里只觀察到1次這么極端或更甚的結果，那我們就說p=0.01，或1/100。（接下來這一點非常重要，簡直太，重，要，了，我們甚至想把這個重要的事情說三遍：它的含義并，不，是，說測驗結果有1/100 的概率是錯的。我們稍后會回到這一點，但這里需要做個標記。）

在科學的許多領域有一個慣例：如果 p≤0.05，即你預期出現如此極端的結果的可能性不超過5%，那么這個發現就有“統計顯著性”，這意味著你可以推翻原假設。

假設我們查看結果時，發現讀過這本書的人的平均分確實高于沒讀過的人。如果該結果的 p 值小于0.05，那我們就說我們達到了統計顯著水平，可以推翻原假設（“讀這本書什么用都沒有”）而支持對立假設（“這本書讓你的統計學能力變得更好”）。p值告訴我們的是，如果原假設成立，則我們如果要進行100次檢驗，就該預期讀過這本書的人和沒讀過的人相比，獲得和這次測驗差不多的成績的次數不超過5次

統計顯著性是個令人困惑的概念，即使對科學家來說也是如此。2002年的一項研究發現，100%的心理學本科生誤解了統計顯著性，更令人震驚的是，他們的講師也有90%是如此。[7]另一項研究查看了28種心理學教材，其中25種在定義統計顯著性時包含至少一項錯誤。[7]

讓我們來消除一些可能的誤解。首先，我們所說的“統計顯著性”是一種人為的慣用分界點，記住這一點很重要。p=0.05沒有任何神奇之處。你可以把這個值設置得更高，然后宣布更多的發現具有統計顯著性；也可以把值設得更低，然后宣布更多結果不具有統計顯著性，而很可能是巧合。設得越高，假陽性的風險就越大；設得越低，假陰性的風險就越大。如果實際上讀我們的書有效果，但由于設置了特別嚴格的 p 值，可能會導致我們宣稱讀這本書沒有任何效果——當然，反之亦然。

其次，統計學的“顯著”也不是這個詞的通常意義。例如，如果非讀者組的平均分是65分，而讀者組的平均分是68分，這可能達到了“統計顯著性”，但你可能不覺得這有多大的顯著意義。“統計顯著性”衡量的是觀測結果乃是巧合的可能性，而非它的重要性。

還有最后一點至關重要，統計顯著性不是說，如果得到一個p=0.05的結果，你的假設就只有1/20的機會是錯的。這種誤解很常見，也是科學研究出錯的重要原因。

問題在于，盡管 p≤0.05 的統計顯著性完全是人為選定的，但科學家——更重要的是，期刊——經常將其視為一個分界點。如果你的研究發現 p=0.049，它也許就能發表；如果發現 p=0.051，它很可能不會被發表。而科學家要想獲得資助、獲得終身教職并讓自己的職業生涯更上一層樓，就需要將自己的研究發表出去。他們受到極大的激勵去尋找具有統計顯著性的結果。

讓我們回到讀書實驗。我們真的想證明我們的書能提高讀者的統計能力，這樣我們就可以登上《星期日泰晤士報》暢銷書排行榜，還能參加所有最棒的雞尾酒會。但我們進行實驗后，只得到了p=0.08。

好吧，我們想，也許只是運氣不好。所以我們把實驗又做了一遍。這次得到了0.11。我們一次又一次地進行實驗，直到最終得到了0.04。太棒了！我們報告了我們的發現，從此靠這本書的版稅吃飯。但這個結果幾乎可以肯定是假陽性。如果你把某項實驗做了20次，那么你就該預期會看到1/20的巧合結果。

這不是我們唯一的途徑。我們還可以用多種不同的方法雕琢數據。比如說，除了測量分數之外，我們還可以測量人們完成測驗的速度，或者筆跡是否工整。如果讀書組的得分沒有表現得更高，我們可以看看他們是否完成得更快；如果這也沒有的話，我們還可以看看他們的字是否變漂亮了。或者，你可以刪除一些比較極端的結果，并把它們叫“離群值”（outliers）。如果我們測量了足夠多的東西，用足夠多的方法把它們組合起來，或者對數據做出足夠小且看似合理的調整，那么我們肯定能夠出于巧合而得出某些發現。

讓我們回到那些關于男性吃得更多以給女性留下深刻印象的報道。2016 年底，萬辛克作為主要作者撰寫了一篇博客文章，這篇文章后來導致他的職業生涯陷入困境。文章題為《從不說“不”的研究生》[8]。

萬辛克在文中講了一名新加入他實驗室的土耳其博士生的故事。他說，他給了她“一份數據集，來自一個自籌資金的研究，但研究失敗了，沒有找到任何發現（這是一項在一家意大利菜自助餐廳中進行的研究，為期一個月，我們給一部分人打了五折優惠）”。他告訴她仔細檢查數據，因為“我們肯定能從這里找出點什么”。

在他的授意下，這位博士生以幾十種不同的方式重新分析了數據，不出所料，發現了很多相關性，就像上面假想中的讀書研究那樣，我們大可以盡力雕琢數據，直到找到一個p<0.05 的結果。她和萬辛克通過該數據集發表了五篇不同的論文，其中包括“男性會為給女性留下深刻印象而多吃”的研究。在這項研究中，他們發現，有女性在場時，男性吃更多比薩餅的 p值為0.02，吃更多沙拉的p值為0.04。

但那篇博客文章引起了科學家們的警覺。這樣的行為叫“p值操縱”（p-hacking）：“揉捏”數據，使p值低于 0.05，從而使研究得以發表。精通方法論的研究者開始查看萬辛克過去的所有工作，還有一位消息人士將他的電郵信件泄露給了BuzzFeed新聞的科學調查記者斯蒂芬妮·M·李。原來，他讓那位博士生將數據分解為“男性、女性、吃午餐的、吃晚餐的、獨坐的、兩人一桌的、兩人以上一桌的、點酒的、點軟飲的、靠近自助餐區的、遠離自助餐區的等等”。[9]

人們也發現萬辛克過去的論文存在其他方法論問題，更多電子郵件也揭示了他低劣的統計操作——在一封郵件中，他暗示：“我們應該能從中找出多得多東西……我認為為了顯著性和講出好故事而挖掘數據乃是好事。”[10]他希望這項研究能夠“病毒式成名”。

這個例子比較夸張，但沒這么夸張的p值操縱比比皆是。它通常不會造成什么傷害。學者們迫切希望得到p<0.05，這樣就能發表論文，于是他們會重新進行試驗或重新分析數據。你可能聽說過“可重復性危機”（replication crisis）：在心理學及其他科學領域，有科學家得出了重要的發現，但當別人去重現這些研究時，發現許多結論實際上并不成立。這是因為那些科學家未能準確理解一個問題：他們不斷地雕琢數據、重新研究，直到發現具有統計顯著性的結果，卻沒有意識到這樣做會使自己的工作變得毫無意義。

幾位堅持科學原則且具有統計學頭腦的研究人員和一位經驗豐富的科學記者為了挖掘萬辛克的行為，花了幾個月的時間。而大多數時候，撰寫科學文章的記者都是基于通稿來快速撰寫新聞。他們通常沒有數據集，即使有，他們也無法發現p值操縱。而經p值操縱的研究有一個不公平的優勢：由于這些研究本身就不需要正確，讓它們變得引人注目就更容易。所以這些研究經常出現在新聞中。

讀者要在新聞報道中發現這一點并不容易。但我們需要明白：某件事僅僅是“統計上顯著”，并不代表它真的具有顯著、重大的意義，甚至不代表它是正確的。

參考文獻

[1] Helena Horton, Men eat more food when they are trying to impresswomen, study finds, the Daily Telegraph, 2015. https://www.telegraph.co.uk/news/science/12010316/men-eat-more-food-when-they-are-trying-to-impress-women.html

[2] Lisa Rapaport, Men may eat more when women are watchingReuters, 2015. https://wwwreuters.com/article/us-health-psychologymen-overeating/men-may-eat-more-when-women-are-watching.idUSKBNoTF23120151126

[3] Men eat more in the company of women, 2015. Economic Times. https://economictimes.indiatimes.com/magazines/panache/men-eat-more.in-the-company-of-women/articleshow/49830582.cms

[4] Knifin, K. M, Sigirci, O. and Wansink, B., Eating heavily: Men eat morein the company of women, Evolutionary Psychological Science, 2 (2016), pp.38-46. https://doi.org/10.1007/s40806-015-0035-3

[5] Cassidy, S.A, Dimova, R., Giguere, B., Spence, J. R. and Stanley, D. J.Failing grade: 89% ofintroduction-to-psychology textbooks that defineor explain statistical significance do so incorrectly, Advances in Methodsand Practices in Psychological Science, 2(3) (2019), pp. 233-9. https://doi.org/10.1177/2515245919858072

[6] Haller, H. and Kraus, S., Misinterpretations of signifcance: A problemstudents share with their teachers?, Methods of Psychological Research, 7(1)(2002),pp.1-20.

[7] Cassidy et al., 2019.

[8] Brian Wansink, “The grad student who never said “No”, 2016, archived at https://web.archive.org/web/20170312041524/http:/www.brianwansink.comphd-advice/the-grad-student-who-never-said-no

[9] Stephanie M.Lee, Here's how Cornell scientist Brian Wansink turnedshoddy data into viral studies about how we eat, BuzzFeed News, 2018. https://wwwbuzzfeednews.com/article/stephaniemlee/brian-wansink.cornell-p-hacking

[10] Ibid.

作者／譯者簡介

作者簡介

湯姆·芝華士（Tom Chivers），科學作家，曾供職于《每日電訊報》、BuzzFeed等媒體，2018年起為自由職業者。2018年獲英國皇家統計學會“新聞‘統計性’優異獎”。2017年獲美國心理學會（APA）媒體獎，并列入英國科學作者獎、英國科學寫作新聞獎短名單。

大衛·芝華士（David Chivers），英國杜倫大學商學院經濟學副教授，曾任牛津大學講師。在優秀學術期刊上多有發表。研究領域包括不平等、增長和發展等。

譯者簡介：

鄧妍，心理學碩士，數學、經濟學與統計學綜合學科碩士。曾任投資分析師。為知名媒體擔任專職翻譯多年。現從事筆譯和心理咨詢工作。

本文經授權節選自《數字一點不老實》（九州出版社·理想國，2023年11月）第五章《統計顯著性：更確定不等于更重要》。

特別提示

1. 進入『返樸』微信公眾號底部菜單“精品專欄“，可查閱不同主題系列科普文章。

2. 『返樸』提供按月檢索文章功能。關注公眾號，回復四位數組成的年份+月份，如“1903”，可獲取2019年3月的文章索引，以此類推。

版權說明：歡迎個人轉發，任何形式的媒體或機構未經授權，不得轉載和摘編。轉載授權請在「返樸」微信公眾號內聯系后臺。

單標簽

常見的語句：

form：表單標簽格式

作用：用來收集用戶輸入信息如：登入、注冊、搜索商品等
action：開始網址
method：get和post等等
text （明文）：用戶名格式
password ：（密文）密碼
radio ：單選框性別格式性別是單選,單選類型是radio,注意name要加上sex
checkbox：復選框
textarea：文本框
file：上傳文件
select：下拉選擇框
button：按鈕
reset：重置
submit：提交

詳解：

<!DOCTYPE html>

<html>

<head>

</head>

<body>

<p>

<input type="radio" name="sex" id="" />男

<input type="radio" name="sex" id="" />女

</p>

<p>

<input type="checkbox" name="" id="" value="" />linux

<input type="checkbox" name="" id="" value="" />mysql

<input type="checkbox" name="" id="" value="" />html

<input type="checkbox" name="" id="" value="" />python

</p>

<p>學歷

<option value="">請選擇學歷</option>

</select>

</p>

</p>

</form>

</body>

</html>

TML: HyperText Markup Language 超文本標記語言

HTML代碼不區分大小寫, 包括HTML標記、屬性、屬性值都不區分大小寫;

任何空格或回車鍵在代碼中都無效，插入空格或回車有專用的標記，分別是、<br>

HTML標記中不要有空格，否則瀏覽器可能無法識別。

如何添加注釋(comment:評論;注釋)

<!-- -->
<comment></comment>
<!-- --> 不能留有空格

字符集

<meta http-equiv="Content-Type" content="text/html;charset=#"/>

<base target="_blank">

可以將a鏈接的默認屬性設置為_blank屬性

單個標簽要有最好有結束符(可以沒有結束符)

<br/> <img src="" width="" />

便于兼容XHTML(XHTML必須要有結束符)

HTML標簽的屬性值可以有引號,可以沒有引號,為了提高代碼的可讀性,推薦使用引號(單引號和雙引號)，盡管屬性值是整數，也推薦加上引號。

<marquee behavior="slide"></marquee>

便于兼容XHTML(XHTML必須要有引號)

<marquee behavior=slide></marquee>

經過測試,以上程序都可以正確運行

HTML標簽涉及到的顏色值格式:

color_name 規定顏色值為顏色名稱的文本顏色(比如 "red")。

hex_number 規定顏色值為十六進制值的文本顏色(比如 "#ff0000")。

rgb_number 規定顏色值為 rgb 代碼的文本顏色(比如 "rgb(255,0,0)")。

transparent 透明色 color:transparent

rgba(紅0-255,綠0-255,藍0-255,透明度0-1)

opacity屬性: 就是葫蘆娃兄弟老六(技能包隱身)

css:

div{opacity:0.1} /*取值為0-1*/

英文(顏色值)不區分大小寫

HTML中顏色值：采用十六進制兼容性最好(十六進制顯示顏色效果最佳)

CSS中顏色值：不存在兼容性

紅色 #FF0000

綠色 #00FF00

藍色 #0000FF

黑色： #000000

灰色 #CCCCCC

白色 #FFFFFF

青色 #00FFFF

洋紅 #FF00FF

黃色 #FFFF00

請問后綴 html 和 htm 有什么區別?

答: 1. 如果一個網站有 index.html和index.htm，默認情況下，優先訪問.html

2. htm后綴是為了兼容以前的DOS系統8.3的命名規范

XHTML與HTML之間的關系?

XHTML是EXtensible HyperText Markup Language的英文縮寫,即可擴展的超文本標記語言.

XHTML語言是一種標記語言,它不需要編譯,可以直接由瀏覽器執行.

XHTML是用來代替HTML的, 是2000年w3c公布發行的.

XHTML是一種增強了的HTML,它的可擴展性和靈活性將適應未來網絡應用更多的需求.

XHTML是基于XML的應用.

XHTML更簡潔更嚴謹.

XHTML也可以說就是HTML一個升級版本.(w3c描述它為'HTML 4.01')

XHTML是大小寫敏感的,XHTML與HTML是不一樣的;HTML不區分大小寫,標準的XHTML標簽應該使用小寫.

XHTML屬性值必須使用引號,而HTML屬性值可用引號,可不要引號

XHTML屬性不能簡寫：如checked必須寫成checked="checked"

單標記<br>, XHTML必須有結束符<br/>,而HTML可以使用<br>,也可以使用<br/>

除此之外XHTML和HTML基本相同.

網頁寬度設置多少為最佳?

960px

target屬性值理解

_self 在當前窗口中打開鏈接文件,是默認值

_blank 開啟一個新的窗口打開鏈接文件

_parent 在父級窗口中打開文件,常用于框架頁面

_top 在頂層窗口中打開文件,常用語框架頁面

字符集：

charset=utf-8

Gb2312 簡單中文字符集, 最常用的中文字符

Gbk 簡繁體字符集, 中文字符集

Big5 繁體字符集, 臺灣等等

Utf-8 世界性語言的字符集

ANSI編碼格式編碼格式的擴展字符集有gb2312和gbk

單位問題：

HTML屬性值數值型的一般不帶單位, CSS必須帶單位;

強制刷新

ctrl+F5

在線咨詢

上一篇：什么是HTML5，有必要學習它嗎？
下一篇：HTML字間距如何設置？#html

您的項目需求

*請認真填寫需求信息，我們會在24小時內與您取得聯系。

整合營銷服務商

無數人誤解的P值：統計上顯著不代表一定正確

您的項目需求