暗數據無所不在?生活裡常見且被遺漏的重要資訊

(圖/Unsplash)
(圖/Unsplash)

前情提要:

我們擁有數據其實從未完整?《暗數據》教你如何做出更好決定

文/大衛‧漢德(David Hand)

你以為你有的數據就是全部?

  顧客推著裝滿商品的推車來到超市結帳櫃台,掃描器逐一掃過商品條碼,收銀機一邊發出電子嗶聲,一邊加總金額,最後顧客拿到帳單,然後付帳──只不過這不是最後的結果:顧客購買的各樣商品及價格都會送到數據庫儲存起來。之後,統計學家和資料科學家會鑽研這些數據,包括顧客買了哪些商品、哪件和哪件商品一起購買,以及購買這些商品是哪類顧客,從中掌握顧客的行為樣態。這樣做肯定沒有數據遺漏了吧?超市必須掌握交易數據,才知道要收顧客多少錢,除非遇到停電、收銀機故障或有人詐騙。

  感覺上,收銀機蒐集到的數據顯然就是我們能蒐集到的所有數據了。它蒐集到的不是部分交易或部分商品的資料,而是超市裡所有顧客購買的所有商品、進行的所有交易的紀錄,就像有些人說的,資料=全部(data=all)

  然而,真是這樣嗎?畢竟這些數據描述的是上週或上個月的事,雖然有用,但要管好一家超市,我們真正想知道的或許是明天、下週或下個月會發生什麼事:哪些商品不快點補貨就可能讓顧客買不到?哪些牌子更受顧客青睞?我們想知道的是還沒被測量到的數據。第七型暗數據(DD-T7:隨時間而異)就是在講時間讓數據變得隱晦的特性。

  其實,撇開這點麻煩不談,我們可能想知道,要是換成其他商品、換個陳列方式或開店時間,顧客會有什麼反應?這些叫作反事實疑問,因為它們和事實相反,討論事實上沒發生的事要是發生了會如何。反事實是第六型暗數據DD-T6:可能會如何。

  想也知道,不是只有超市經理會在意反事實問題。我們都服過藥。你信任開藥給你的醫師,同時認為那些藥經過檢驗,能夠有效緩解症狀。但要是你發現那些藥其實未經檢驗,藥廠並未蒐集那些藥是否有效的數據,甚至吃了其實會讓症狀更嚴重,你會有什麼感覺?或者那些藥確實經過檢驗,也證實有效,但沒有跟「什麼都不做」比較,看是吃藥還是自然痊癒比較快好,你會怎麼想?又或者那些藥並沒有和其他藥物比較過,看它是否更有效,你又會作何感想呢?在粉的例子裡,只要一拿「什麼也不做」來比,就會發現當你什麼也不做,驅離大象的效果跟撒粉一樣好,進而察覺根本沒有大象需要趕跑。

  回到「資料=全部」這個概念。覺得我們可以擁有「全部」數據,這個想法許多時候顯然是無稽之談。就拿你的體重來說吧。你的體重很好量,只要站到體重計上就好。但只要量第二次,就算和第一次時間相隔很短,你也可能得到稍微不同的結果,尤其量到盎司或公克的話。所有物理測量都可能不精確,因為可能有量測誤差或環境細微變動造成的隨機紊變(DD-T10:量測誤差與不確定)。為了克服這個問題,研究人員測量某個現象(例如光速或電子的帶電量)的值都會重複測量數次,然後取平均值。他們可能會記錄十次或一百次的測量值,但顯然不可能記錄「全部」的次數。這種情況下沒有「全部」可言。

  另一型暗數據可以用一個例子來說明,那就是倫敦的大紅。你如果搭過大紅巴士,就知道車上往往擠滿了人,但數據顯示每輛巴士的平均載客數是十七人。這麼明顯的落差要如何解釋?難道有人操弄數據?

  只要稍微想一下,就知道答案很簡單。因為客滿的巴士上乘客較多(「客滿」不就是這個意思嗎?),所以看見巴士客滿的人也比較多。相反地,空巴士不會有乘客看見巴士是空的(當然我沒有把駕駛計算在內),因此也就不會有人提起。這就是第三型暗數據,DDT3:只選擇部分情況。不僅如此,暗數據有時甚至會是蒐集數據時的必然後果,也就是DD-T4:自我選擇。接下來是我最喜歡的兩個例子:一個很重要,一個完全不重要。

  第一個例子是。一名男子看著外的地圖,圖的正中央有個紅點寫著「你在這裡」。那名男子看著地圖心想:「他們怎麼知道的?」畫地圖的人會知道,是因為他們曉得凡是看著紅點的人就站在地圖前。這是高度選擇性的例子,絕對會漏掉所有站在別處的人。

  重點是,想蒐集數據,必須有人或東西(例如測量儀器)去蒐集才行。第二個例子是所謂的人擇原理(anthropic principle)。這個原理主要是說,宇宙只會是我們現在看到的這個樣子,否則我們根本不會存在,觀察不了宇宙。我們不可能蒐集到極為不同的宇宙的數據,因為我們無法存在於那些宇宙,也就無法蒐集數據。因此,不論我們得出任何結論,都只限於我們這個(或這種)宇宙。就如同路面的坑洞,或許還存在著各式各樣的事物,可是我們並不知道。

  這件事替科學上了重要的一課。你的理論可能很切合你的數據,但你的數據肯定有所侷限,或許不適用於極高的溫度、很長的時間或很遠的距離。只要你根據自己的數據跨出侷限做外推,你的理論可能就會完蛋。景氣好時蒐集數據建構出來的理論,用在不景氣時可能天差地遠。牛頓定律只要物體不要太小、速度不要太快或遇到某些極端狀況,就不會出問題。這就是第十五種暗數據,DD-T15:類推到數據之外。

  我有一件T恤上的圖案是xkcd漫畫裡的兩個角色在聊天。其中一人說:「我以前一直以為關聯就代表因果。」下一格,他說:「後來我去上了統計課,就不這麼認為了。」最後一格,另一人說:「看來上課很有用。」那人回答:「也許吧。」

書名:《暗數據》
作者:大衛‧漢德(David Hand)
出版社:大塊文化
出版時間:2021年05月27日

  相關只代表兩個東西會一起變化,例如正相關代表其中一個大,另一個也會大;其中一個小,另一個也會小。這跟因果不同。一個東西如果是另一個東西的因,那麼它一改變就會造成另一個東西改變。例如,觀察兒童入學的頭幾年會發現,字彙量多的小孩通常身高較高。但你不會因此認為,家長如果希望小孩長高一點,就應該請家教讓小孩學會更多字彙。比較可能的情況是有暗數據沒測量到──一個能解釋兩件事為何相關的第三因素,如孩童的年齡。當xkcd漫畫裡的那個人說「也許吧」,代表他知道自己認知改變可能是上了統計課的緣故,但也可能出於別的原因。我們之後還會看到更誇張的例子,這些都屬於第五型暗數據,DD-T5:漏掉關鍵因素。

  我剛才又提了幾型暗數據,但還有非常多。本書目的就在揭露這些暗數據,說明如何辨識它們、觀察它們的影響、化解它們引起的問題,甚至如何善用它們,從中得益。本章結尾會列出這些暗數據,並於第十章概述其內容。(未完)

●本文摘選自出版之《暗數據》


加入 琅琅悅讀 Google News 按下追蹤,精選好文不漏接!
巴士 大象 卡通 火車站 大塊文化 閱讀風向球

逛書店

延伸閱讀

壓力越大越得分辨它從何而來 避免自己陷入有害健康的循環

台灣每4人就有1人胃食道逆流,醫師點名NG飲食及生活習慣

提高專注力和生產力!生活各層面實踐「心流」三步驟

總是活在別人的期待裡?做好5件事為自己的夢想而活

猜你喜歡

udn討論區

0 則留言
規範
  • 張貼文章或下標籤,不得有違法或侵害他人權益之言論,違者應自負法律責任。
  • 對於明知不實或過度情緒謾罵之言論,經網友檢舉或本網站發現,聯合新聞網有權逕予刪除文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。
  • 對於無意義、與本文無關、明知不實、謾罵之標籤,聯合新聞網有權逕予刪除標籤、停權或解除會員資格。不同意上述規範者,請勿下標籤。
  • 凡「暱稱」涉及謾罵、髒話穢言、侵害他人權利,聯合新聞網有權逕予刪除發言文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。