統計數字是如何歪曲事實的

統計數字是如何歪曲事實的

想提一下這個話題是由於我在 Bilibili 看到這個視頻html

做者的主要目的是想表達中國的肉類消費數量驚人,可是這個可視化作的真的太有心機了。微信

第一張圖中高聳如雲的那個柱子是中國,下面矮的幾乎看不到的是其它國家。這麼一看感受全世界的肉都被中國吃了。可是仔細看數字,做者給出的中國的數字是 54812000,歐盟的數字是 20613000。中國消費的肉類大概是歐盟的兩倍。也就是說中國這個柱子的左邊應該有一個差很少一半高的歐盟的柱子。可是最後的效果里歐盟的柱子幾乎看不見了。做者故意耍個心機,不看數據還真覺得全世界的豬都被中國吃了呢...(中國的豬肉消費量差很少佔全世界的一半)編輯器

原本應該客觀反應現狀的數據,最後卻誤導人產生錯誤的理解、扭曲真實情況,在現實生活中真的挺常見的。ide

平均數、中位數、衆數?

每次神祕的有關部門發佈平均薪資、平均年收入等等,我都是被平均的那一個😭。好比前兩天看網上的數據顯示杭州平均月薪9484,好多人(包括我)都在吐槽又被平均了,也有不少人由於工資水平不到平均值而焦慮。網站

但是仔細一想,這個平均值真的有意義嗎?spa

若是工資的分佈是正態的,那麼有 50%的人沒達到這個水平,做爲一個上進的人,焦慮一下何嘗不可。可是根據28定律:20%的人掌握了80%的財富。沒到平均水平的人遠超50%。這樣一個平均值,對個體幾乎沒有意義。3d

要想知道個體的收入在整個地區的排名應該用百分位數,這個數字對個體仍是有點用處的。有關部門發佈一個沒啥指導意義的平均數,除了讓部分人誤解本身是落後的那一半外,有別的用處嗎?cdn

刻意隱藏樣本的分佈狀況,誤導數據閱讀者腦補不正確的數據分佈狀況,是用數據歪曲事實的經常使用手段之一。視頻

平均數真的平均嗎?

實際上,我對杭州平均月薪9484也是持懷疑態度的。由於我看到數據來源於某招聘網站,而據我瞭解,這個網站的招聘崗位可能是互聯網企業。衆所周知,互聯網的薪資比較高。從這一點看,如今發佈的杭州平均月薪9484也僅能說明在這個網站上招聘的企業平均月薪9484,並不能說明杭州的平均月薪就是9484。htm

刻意忽略掉樣本的來源信息,誤導數據閱讀者錯誤理解數據覆蓋範圍,是用數據歪曲事實的經常使用手段之二。

我作的圖沒問題,是你理解有問題

上面這個圖初看彷佛右邊的數據是左邊的3倍。仔細一看不過1.18倍。更氣人的是你還不能吐槽圖作錯了,由於它的 y 軸起點不是 0。

更多欺騙性圖表能夠看👉7種最多見的數據可視化錯誤

刻意破壞公認製圖方式,誤導數據閱讀者錯誤理解圖表信息,是用數據歪曲事實的經常使用手段之三。

給你平均值,卻不給你偏差範圍

某公司結合多年數據發現績效分 4.0 是平均水平。U2F 這個月拿了 3.7。它會是績效差的那我的嗎?單從上面的數據看,3.7 的績效分沒有達到平均水平 4.0。U2F 的績效差了。

但是若是我告訴你,3.5 ~ 4.5 是平均水平範圍,他仍是績效差的那我的嗎?

在一些判斷標準中,只給固定的數字而刻意隱藏範圍,讓數據使用者產生誤判,是用數據歪曲事實的經常使用手段之三。

使人迷惑的百分比

若是數據使用者夠仔細,仍能夠很快發現前面各類數據的錯漏。最有迷惑性的還得是百分比。

好比我告訴你今天我發的這篇文章寫的很認真,爲了完成它多花了150% 的時間。你是否以爲我花了不少時間來寫這篇文章嗎?若是我告訴你其實我寫一篇文章就只要花30分鐘,150%也不過45分鐘呢?另外多花了150%也容易讓人誤解,你能夠認爲是原數據的1。5倍,也能夠理解爲原數據的2.5倍。

此外,若是和我寫的最快的一次比較,即便理解爲原數據的250%,也不過是10分鐘罷了。

拋出比較性的數字卻不給出比較的基數,讓數據使用者不自覺的帶入本身指望的比較基數,是用數據歪曲事實的經常使用手段之四。

如何避免被數據欺騙?

數據的加工流程能夠抽象爲:

  • 數據來源
  • 數據處理
  • 數據呈現

按數據加工流程一步步回溯:

  • 數據是怎麼來的?覆蓋的範圍夠大夠合理嗎?
  • 數據是被誰處理的?這份數據的結論是否對他有影響?
  • 數據是如何呈現的,關鍵的數字都有給出嗎?

這樣,能夠很快的發現採集的數據樣本是否具備表明性,在數據處理的過程當中是否會出現一些認爲的傾向性,在數據呈現的圖表中是否有可能讓人產生誤解。

相關文章
相關標籤/搜索