進步時代得活用「後設資料」,加強資訊的連結和透通

書名:《Metadata後設資料》 
作者:傑福瑞.彭蒙藍茲(Jeffrey Pomerantz) 
出版社:經濟新潮社 
出版時間:2021年11月11日
書名:《Metadata後設資料》
作者:傑福瑞.彭蒙藍茲(Jeffrey Pomerantz) 
出版社:經濟新潮社 
出版時間:2021年11月11日

Metadata是「描述資料的資料」,也就是用來描述資料屬性的資訊,例如一個人的姓名、身分證字號、住址、電話號碼,所有對於這個人的描述就是metadata。

本書中詳細介紹metadata發展史、類型和應用,幫助我們認識metadata、培養資訊科學素養。作者提醒我們,metadata已經不只是在用來描述和管理藏書的書卡,也可以用於描述和管理網路資源、應用程式介面、描述影音格式,甚至是藝術品和科學資料集,metadata將會持續演進。(編按)

文/食夢黑貘(洪進吉)

哪些人最該讀這本書:

1. 圖書館相關人士

2. 資料庫管理師

3. 資料科學家/資料工程師

4. 搜尋引擎最佳化(Search Engine Optimization,SEO)專家

5. 對開放資料(Open Data)有興趣的人

一千年前,教育尚未普及,也沒有印刷術,當時創作資訊的人,是最有價值的人。但是,隨著第一家報社的創立,能夠創作的人愈來愈多,傳遞資訊的人,反而成為最有權力的人。

到了網路時代,資訊傳遞的成本愈來愈低,資訊的創作、儲存、傳遞,已經不是問題,能夠找到使用者想要的資訊是最困難的,最後搜尋引擎或是提供閱讀索引的公司無庸置疑的成為市值最高的公司。

從創作、傳播、搜尋,到真正的解讀使用中,還有一個很重要的環節,就是串接這些資訊。只是這些串接起來的因子,不單單是內容而已,有時更重要的是「超乎內容」(Beyond Content),像是創作者的資訊、使用者的觀點、市場的價值、搜尋的情境等等在內容之外的訊息。這些並不是內容本身,但價值不比內容低的就是「後設資料」。

後設資料雖然是當網路成熟後變成顯學,但事實上,當知識被創作、被記錄開始,去蒐集、使用這資料就是很重要的事,這件事情就是圖書館在做的事。所以有人說,圖書館是歷史最悠久的資訊,因為當資訊還去分門別類時,最需要的就是「如何找到資訊」。

事實上,任何人不可能走進圖書館,把所有的資料與內容讀完一遍,從中找到資訊,這時就要靠後設資料。其中目前大家還在用的「索書號」,就是一種不是屬於書本的內容,但若沒有索書號,我們就無法找書、借書、看書。因此,說這些後設資料可能比內容更重要、更實用,一點也不為過。

當然,過了幾百年,現在的後設資料發展已經不像在前網路時期的「出版品預行編目」(Cataloging in Publication,CIP)記載的那麼簡單,更別說當時的分類法對於數位典藏而言已經失去意義。所有的資訊都是網狀連結而不是階層分散,甚至這些後設資料也是模糊並且隨時改變,也會隨著使用者觀點的改變和使用情境而變化。

到了現在,後設資料已經無所不在了,就像是相片中的「可交換圖檔格式」(Exchangeable image file format,Exif),記載著時間、地點之外,還有拍攝時使用的相機、鏡頭、光圈和快門等資訊。雖然這些資訊並不是真正產生影像的資料,但若沒有這些資訊,就很難找資料。現在任何相片整理軟體或服務,都會加註人物、文字、包含影像辨識後的物品內容,這讓使用照片和搜尋照片更方便、更快速。

(圖/Unsplash)

從這個角度來看,後設資料不只是和內容有關的作者、時間,這些在創作出來就被局限的資訊,更包含使用者的使用權限、方式、統計等等資訊,而這個資訊可以說是隨時變化,甚至資料量說不定會比內容多很多倍。

相反地,在資料量非常龐大的大數據(Big Data)中的後設資料,也是有很重要的應用,因為大數據強調的不只是大量資料,而是更快速地從中獲得有用的資料。而要整理出資訊的方法除了內容整理之外,也是要靠後設資料的協助。

就像本書所說,不需要去探討每一通電話的通話內容,而是可以透過通話時間、對象、地點等等通話內容以外的資訊,就可以整理出有價值的資訊。透過內容的後設資料,不只能用「降冪」的方式讓資料大量縮簡為可處理、可整理的有價值資訊,並且可以知道,想去應用或使用資料,需要的不只是資料本身,更需要的是後設資料。

說到大量資料,沒有比網站或網頁更龐大的資訊,網站的資料量目前大到只能用搜尋引擎處理。但若沒有像是Schma.org推動的後設資料,搜尋出來的只是一個個網頁,讀者還是要逐一閱讀網頁,才能從中找出想要的資料。雖然這樣已經讓尋找資料的使用者更方便找到要的資料,但透過後設資料,更可定義出結構化的資訊,找資料時可以知這個資訊的概觀(Outline),甚至可以直接Zero Click在搜尋結果頁(Search Engine Result Page)獲得答案。

這樣的資訊連結靠的不只是後設資料,而是後設資料的開放性與連結性,就像是後設資料的結構化,靠的就是對資料定義上的公開標準,用固定的格式描述,讓所有的資訊都可以連結在一起。甚至透過這樣的連結,讓資訊的透通 (Transparent;編按:使用者直接使用資訊所展現的功能,不必了解轉換碼、系統內部結構、資料間連結和組成架構,或是如何建立這些功能)更快速、更可以溯源,讓資訊的新增和更新觸及更廣,再加上與 應用程式介面(Application Programming Interface,API)的結合,內容資料已經和後設資料無法切割,甚至沒有後設資料的資料,是很難被應用的

(圖/Unsplash)

在人工智慧發展之後,後設資料從結構化資料就像影像辨識出人物那樣更接近內容,透過語意網路的解讀,已經可以摘出內容的重點與摘要。此時,這種更貼近內容的後設資料,更能識別出內容的價值和使用情境。這種接近內容又能配合讀者情境的,有時就像是一個圖書館的讀者諮詢服務那樣,更像在電影《人工智慧》(A.I. Artificial Intelligence)中的萬事通博士(Dr. Know)那樣,可以回答任何問題,此時的後設資料,已將問題和答案緊密相連。

這本書是否實用,可能只有一小部分是有價值的,因為後設資料更是屬於還在發展蓬勃的時代,尤其是 Schema和Google推動的富數據(Rich-Data;編按:意指涵蓋眾多面向的大數據。以襯衫為例,如果得到的是各種襯衫的顏色的巨量資料,這是大數據;若得到的是各種襯衫的尺寸、材質、顏色等等多面向的巨量資料,就是富數據)、知識圖譜(Knowledge Graph;編按:意指連接所有不同種類的訊息而得到的一個關係網絡,提供從關係的角度分析問題的能力,有利於優化搜尋引擎返回的結果,並增強使用者搜尋體驗),隨時增加應用範圍和更新使用情境與呈現。

的確,資訊的價值在於再利用,而創作、傳遞、搜尋還不夠,更需要的是「連結」,要去把資訊給連結起來,是很不容易的事情,甚至這個連結的技術、成本、觀念,大家都還不是很了解。這包含本書最後章節提到的應用程式介面(Application Programming Interface,API),而 API 需要的不只是「網路化」、「數位化」而已,也要將資料「結構化」。更重要的是資訊的連結,也就是資訊的透通,因為資訊的流動最需要的就是對於資料使用的後設資料,如果沒有這些後設資料,所有的資訊都要透過人力,此時資訊使用的成本就很高了。

所以身為圖書館相關人士、資料庫管理師、資料科學家/資料工程師、SEO 專家、對 Open Data 有興趣的你,怎能夠不夠了解後設資料呢?

本篇作者簡介

食夢黑貘(洪進吉)

全端資料科學家(full stack data scientist)、新文易數全端工程師兼創辦人、網路產業與新聞網站顧問

●本文摘自/城邦文化 所出版之《Metadata後設資料》導讀,請勿轉載。


加入 琅琅悅讀 Google News 按下追蹤,精選好文不漏接!
圖書館 經濟新潮社 閱讀風向球

逛書店

延伸閱讀

從《如蝶翩翩》觀察龐大粉絲基礎 如何帶動改編韓劇討論度

別過度追求物質生活!你買的BMW並不會到安養院看你

書店再見,再見書店/書店在未來扮演的角色,決定人文精神的去留

書店再見,再見書店/「閱讀風氣不彰,才更要開書店」:專訪邊譜書店負責人廖英良

猜你喜歡

udn討論區

0 則留言
規範
  • 張貼文章或下標籤,不得有違法或侵害他人權益之言論,違者應自負法律責任。
  • 對於明知不實或過度情緒謾罵之言論,經網友檢舉或本網站發現,聯合新聞網有權逕予刪除文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。
  • 對於無意義、與本文無關、明知不實、謾罵之標籤,聯合新聞網有權逕予刪除標籤、停權或解除會員資格。不同意上述規範者,請勿下標籤。
  • 凡「暱稱」涉及謾罵、髒話穢言、侵害他人權利,聯合新聞網有權逕予刪除發言文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。