快訊

竹市一口氣+4!三民國小學童一家四口皆染疫 感染源不明

台北也能選!1922平台10時起開放第三劑分流預約 8大QA一次看懂

誰能看到我的文件內容?一窺機器翻譯的隱私權保護及資料安全問題

【許慈真/北美智權報 專欄作家】

※如欲轉載本文,請與北美智權報聯絡

免費的線上機器翻譯可說是公眾接觸各種文化和知識的一大利器,尤其在神經機器翻譯技術(Neural Machine Translation, NMT)面世後,機器翻譯能夠正確傳達的語意比例確實有了長足進步。不過,當個人或組織頻繁使用這些機器翻譯工具之際,是否想過上傳文本內容可能潛藏著危機?免費產品從來不是真正免費,其中的隱私權保護與資料安全疑慮值得深思。

使用機器翻譯而導致機密文件和個人資訊洩漏,絕非危言聳聽,2017年便曾發生透過Google搜尋可取得挪威國家石油(Statoil,現改稱Equinor)文件內容的大量資料外洩事件,原因正是有人曾在Translator.com輸入該公司文件。儘管付費的機器翻譯服務相對安全,但鑑於免費的線上機器翻譯容易取用(畢竟大多數使用者並非翻譯從業人員),所引發的隱私權及資料安全風險仍是居高不下,使用者的確有必要了解因使用行為而同意哪些約定。

免費但所費不貲:以Google和Microsoft條款規範為例

Google在服務條款開宗明義提到,若干服務允許使用者上傳、提交、儲存、發送、接收或分享其內容;使用者並無義務向Google服務提供任何內容,且得自由選擇所提供的內容;若使用者選擇上傳或分享內容,應確認其擁有必要權限且該內容為合法。

而在使用Google服務的過程中,Google也就使用者內容取得全球性且免費的使用授權,其範圍包括:

  1. 託管、重製、散布、交流及使用該內容,例如在Google系統儲存該內容並得隨時存取。
  2. 出版、公開表演或公開展示使用者已向第三方揭露的內容。
  3. 修改或依據使用者內容創作衍生著作,例如重新格式化或翻譯。
  4. 轉授權——

    1. 其他使用者,以發揮Google服務效用,例如與使用者選定之人分享照片。
    2. 依據服務條款與Google簽訂協議的承包商,但以下列目的為限:
      • 營運及改善服務,亦即允許Google服務發揮效用並創造新的特性與功能,例如在發送、接收及儲存使用者內容時,利用自動化系統和演算法加以分析,藉此識別垃圾郵件、惡意軟體與非法內容。
      • 利用使用者的公開內容來推廣服務
      • 依據服務條款為Google開發新技術和服務

儘管Google表示前述授權不影響隱私權,牽涉的僅是智慧財產方面,縱然如此,該授權範圍仍是極為廣泛。簡單來說,免費線上機器翻譯的商業模式就是:提供免費服務以換取使用者提交的資料,進而(或委託第三方)直接或間接用於改善服務、行銷或廣告;所提交的資料,其實就是使用服務的對價,合算與否便交由使用者自行斟酌。

反觀屬於付費服務的Google Translate API,即承諾不會將資料轉作他用、與第三方分享、或用以訓練或改善機器翻譯,並且聲明符合歐盟一般資料保護規則(GDPR)。

Microsoft的免費服務也有類似條款規範,不過,在「機密」一節已明確指出,基於改善服務需要,Microsoft Translator應用程式、Translator for Bing、Microsoft Edge和Web Translator都會蒐集使用者提交的語音片段與文本翻譯。而Microsoft隱私權聲明也清楚表示,Microsoft Translator會處理使用者提交的文本、圖像和語音資料,藉此提供Microsoft Translator服務、個人化體驗以及改善產品與服務;此外,Microsoft已採取去識別化的業務及技術措施,例如在隨機抽取文本和音訊樣本時,刪除樣本中所偵得可能包含個人資料的識別碼(identifier)和若干文本,例如電子郵件地址、數列等。

隱私權疑慮:服務條款說了算?

或許有人認為基於契約自由,使用免費服務理當接受供應商所定之條款約束,若不同意,便不應該使用該服務。如此說法不完全正確,因為至少供應商負有遵循法規的義務,隱私權保護即是其中之一,這點與所使用服務是否收費無關。以GDPR規範為例,免費機器翻譯在資料再處理上(指提供翻譯服務以外之處理)可能產生若干問題,例如:

1. 商業性的再處理:用於行銷與廣告

免費機器翻譯供應商若想將使用者提交的資料直接或間接用於行銷與廣告,理論上應告知使用者該使用的詳細資訊,並且徵得其明示同意,因為該使用既不符合GDPR第5(1)(b)條所稱「達成公共利益之目的、科學或歷史研究目的或統計目的所為之進階處理」,亦不屬於第6(1)(f)條「處理係控管者或第三者為追求正當利益之目的所必須者」,並無默示同意的適用空間。然而,即使已充分知會使用者,基於商業目的之再處理能否通過第5(1)(a)條公正性原則的檢驗,仍有疑問。

2. 非商業性的再處理:改善翻譯服務

至於能否利用使用者提交的資料改善翻譯服務,可從兩方面來檢視:

第5(1)(b)條之目的限制

根據GDPR第5(1)(b)條後段規定,「依照第89(1)條規定,為達成公共利益之目的、科學或歷史研究目的或統計目的所為之進階處理,不應視為不符合原始目的」,就文義觀察,翻譯模型改善似有可能落入基於統計及研究目的之處理,但在解釋上,是否符合原始目的之主要評估因素為「資料蒐集的背景以及資料主體對於進階使用的合理預期」,而實際上,使用者大多以為輸入的文本在翻譯完成後會被刪除,再處理顯然並非其合理預期。

再者,第89(1)條要求所定之適當保護措施,「應確保已備妥技術上及組織上之措施,特別是用以確保資料最少蒐集原則之落實⋯⋯措施得包括假名化」,即使認定屬於統計及研究目的之處理,也必須符合「資料最少蒐集原則」甚至「去識別化」處理,前述Microsoft隱私權聲明即提及此點(Google也是),不過問題是,使用者「信任」聲明但能否「驗證」?

第6(1)(f)條之正當利益

根據第6(1)(f)條規定,改善翻譯服務此等再處理可歸類為「控管者或第三者為追求正當利益之目的所必須者」,而且也符合使用者的真實且迫切(real and present)之利益,然而,但書提到「該資料保護之資料主體之利益或基本權與自由優先於該等利益,特別是該資料主體為兒童時,不適用之」,極其明顯,使用者幾乎不可能就再處理向供應商主張GDPR賦予的權利,包括刪除權、被遺忘權等,自然無法符合該條要求。

而實測也能發現,Google帳戶的匯出(take out)或刪除選項並不包含透過Google Translate提交的資料,不過,無法匯出或刪除不代表供應商並未蒐集此類資料。

3. 資料主體同意之取得

根據第4(11)條規定,「資料主體之『同意』係指資料主體基於其意思,透過聲明或明確肯定之行動,所為自主性、具體、知情及明確之表示同意處理與其有關之個人資料」,當所輸入文本僅牽涉到使用者個人資料時,解釋上較無問題,因為使用翻譯服務或可認為是透過行動表示同意。然而,若牽涉到第三方之個人資料,例如收到不熟悉外文撰寫的電子信件,除非明確徵得對方同意,否則難以解釋第三方「默示同意」使用者利用機器翻譯了解信件內容。更何況,就第6(1)(f)條規定之必要性而言,機器翻譯並非控管者(此時為輸入文本的使用者)追求正當利益所必須的處理方式,反而應該交由人工翻譯才是。

結語

使用免費機器翻譯確實會為隱私權及資料安全帶來不小風險,使用者也難以確認供應商取得資料後之處置與相關措施,為減少因此可能發生的危害,本文提供以下兩點建議:

  1. 在委託翻譯之前,務必確保已遮蔽可識別的個人資訊和機密內容,例如合約當事人、價金、標的等(有時甚至包括經手業務的事務所)。如此作法不單是針對機器翻譯的外洩可能,其實,資料在經手或轉包過程中所接觸的人數往往超乎想像,實務上「資訊全都露」的狀況也屢見不鮮——儘管接觸人員受保密協議拘束,但事先預防絕對勝過事後求償,更何況是否提供此類資訊,通常並不影響譯者作業。
  2. 同樣地,若真有需要使用機器翻譯,也必須盡可能做到「去識別化」。此外,企業必須認識到機器翻譯潛藏的風險並非僅涉及譯者,員工也無法排除在外(例如為了解跨國事務),務必提高員工在這方面的安全意識。


【詳細內容請見《北美智權報》297期;歡迎訂閱《北美智權報》電子報

相關新聞

只靠央行打房 效果恐怕相當有限

自金融海嘯開始,央行打房已經有了10多年歷史,只是從各項統計數字來看,台灣房地產市場行情──尤其是一般人最關切的房價還是節節高升。很明顯地,若想要平抑房價,不能夠只靠央行的金融政策。

藻礁公投之後的三大變數

今年12月18日,我國首次「未與公職人員選舉共同舉辦」之四案公民投票,因同意票之票數未超過投票權人總數25%且同意票未超過不同意票,均未通過。依公民投票法第31條及第32條第1項之規定,公民投票案不通過者,主管機關應於投票完畢七日內公告公民投票結果,並通知提案人之領銜人。主管機關公告公民投票之結果起二年內,不得就同一事項重行提出。此為藻礁公投不通過之後的直接法律效果,政府或投下不同意票的選民,或可安心兩年內毋庸再面對同一事項公投。

「元宇宙」概念會如何改變資通訊產業面貌?

近一、二個月來,科技業界關於「元宇宙」的討論從沒消失過,雖然概念內涵、應用商機眾說紛紜,但每個人都同意的是,元宇宙將是網際網路問世這幾十年來,最大的一波變革,我們使用網路、甚至日常生活、工作的方式,都可能與過往大不相同。

醫療產業專題報導/新冠肺炎疫情逐漸流感化 疫苗產業機會在哪裡?

雖然新冠肺炎疫情在年底又有反撲趨勢,但長遠來看,也必然走向流感化,人們也必然得定期接種疫苗來預防感染。這對於疫苗產業來說,固然是個值得投入的商業機會,但本刊前文(提升新冠肺炎疫苗全球普及率,專利強制授權是唯一解?)已經分析過,疫苗產業的運作實務與一般藥品其實大不相同,除了技術開發、臨床試驗之外,又該注意哪些地方?

誰能看到我的文件內容?一窺機器翻譯的隱私權保護及資料安全問題

免費的線上機器翻譯可說是公眾接觸各種文化和知識的一大利器,尤其在神經機器翻譯技術(Neural Machine Translation, NMT)面世後,機器翻譯能夠正確傳達的語意比例確實有了長足進步。不過,當個人或組織頻繁使用這些機器翻譯工具之際,是否想過上傳文本內容可能潛藏著危機?免費產品從來不是真正免費,其中的隱私權保護與資料安全疑慮值得深思。

Unitary Patent怎麼向EPO申請?什麼是歐洲專利Opt-out?

歐盟統合專利法院(Unified Patent Court;UPC)、歐盟單一專利(Unitary Patent;UP)很有機會在2022或2023年啟用,UP怎麼申請?什麼是Opt-out不以UPC作管轄法院?現在該為UP和UPC做些什麼準備?

商品推薦

udn討論區

0 則留言
規範
  • 張貼文章或下標籤,不得有違法或侵害他人權益之言論,違者應自負法律責任。
  • 對於明知不實或過度情緒謾罵之言論,經網友檢舉或本網站發現,聯合新聞網有權逕予刪除文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。
  • 對於無意義、與本文無關、明知不實、謾罵之標籤,聯合新聞網有權逕予刪除標籤、停權或解除會員資格。不同意上述規範者,請勿下標籤。
  • 凡「暱稱」涉及謾罵、髒話穢言、侵害他人權利,聯合新聞網有權逕予刪除發言文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。