《數字裡的真相》機器、設計、裝置，打造出現代世界的發明

這世界很複雜，若想真正的理解數字，就要結合基本的科學素養與計算能力。
《數字裡的真相》利用容易理解的統計數據和圖表，激發我們對真確事實的關注，突破舊有思維、跨領域的探險，掌握真確無誤的實際狀況。（編按）

文／瓦茲拉夫．史密爾 Vaclav Smil

資料量增加：太多太快

很久以前，資訊只存在於人的腦海裡，古代的吟遊詩人可能會花很長的時間，重複講述戰爭與征服的故事。隨後，外部資料儲存發明出來了。

大約五千年前，美索不達米亞南部的蘇美人（Sumer）發明出記錄用的黏土小圓筒和泥板，上面通常只寫得下十多個楔形文字，相當於幾百（102）位元組。古希臘悲劇詩人埃斯克勒斯（Aeschylus）在公元前五世紀寫的三部曲《奧瑞斯提亞》（Oresteia），儲存量高達約30萬（105）位元組。羅馬帝國的一些有錢元老，坐擁的圖書室藏書上百卷，其中一位的大批藏書至少儲存了100百萬位元組（MB；100 MB即108位元組）。

古騰堡（Johannes Gutenberg）的印刷機使用活動字模，帶來了徹底的轉變。到了1500年，也就是開始使用活字印刷機後不到半個世紀，歐洲印刷業者就發行了超過1.1萬種新書，伴隨這種非比尋常的增長而來的，是其他儲存資訊形式方面的發展。首先是雕刻和木刻的樂譜、插畫與地圖，接著是十九世紀時的照片、錄音和電影。二十世紀時新增了資訊的儲存方式，包括磁帶和LP唱片，而從1960年代開始，電腦把數位化的範圍擴展到醫療影像（數位乳房攝影的儲存量是50 MB）、動畫電影（2 GB至3 GB，GB是十億位元組）、洲際金融移轉，以及垃圾郵件的大量發送（每分鐘送出的訊息超過一億則）。像這樣的數位儲存資訊，迅速超越了所有的印刷資料。莎士比亞的戲劇與詩歌總計達5 MB，相當於一張高解析的照片、30秒的高傳真聲音，或8秒的串流高畫質影片。

因此，印刷資料已縮減到整個全球資訊儲存量的很小一部分。到2000年的時候，美國國會圖書館內的所有書籍儲存超過1013位元組（也就是超過10 TB），但所有的照片、地圖、電影和錄音資料一加進去，它就只占了整個收藏量（1015位元組，實際大約是3 PB）的不到1%。

在二十一世紀，資訊產生的速度愈來愈快。雲端服務公司Domo在針對2018年每分鐘產生資料量的最新調查中，列出以下幾個數字：Netflix訂戶透過串流收看了超過97,000小時的影片，在YouTube觀看了將近450萬支影片，在氣象頻道Weather Channel要求提供了超過1,800萬筆預報，至於其他的網際網路資料，單單在美國就使用了超過3千兆位元組（3.1 PB）。到2016年，全球每年的資料產生速率已經超過16 ZB（1 ZB等於1021位元組），而到2025年，這個數字可望再提高一個數量級，也就是達到大約160 ZB（1023位元組）。根據Domo的調查結果，全球近80億人在2020年每人每秒產生了1.7 MB的資料。

書名：《數字裡的真相》
作者：瓦茲拉夫．史密爾 Vaclav Smil
出版社：天下文化
出版日期：2021年8月30日

這些數量引出幾個明顯的問題。資料洪流裡只有一小部分能夠儲存，但應該是哪個部分呢？資料量如此之大，即使保存下來的不到1%，在儲存上顯然還是挑戰。此外，無論我們決定儲存什麼內容，下個問題會是：資料應該保存多久。沒有哪個資料需要永久儲存，但保存多久最為理想？

在國際單位制中（例如「千」為k = 103，「百萬」為M = 106），代表最高倍數的字首是yotta-（Y = 1024，也就是一兆兆），我們在十年內就會有那麼多位元組的資料，即使把估算數字這種苦差事漸漸丟給電腦處理，但要面對這麼大的數值，工作將會變得愈來愈困難。一旦我們每個人開始每年產生超過50兆位元組的資訊，還會有真正的機會好好利用這些資訊嗎？累積的資料、有用的資訊、有深刻見解的知識，這三者之間畢竟有著根本的差異。

●本文摘選自天下文化出版之《數字裡的真相》，未經同意禁止轉載。