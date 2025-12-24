在全球AI快速發展的浪潮下，台灣當然也不能缺席，數位發展部24日發布「台灣主權AI訓練語料庫」，廣納高品質正體中文語料，支援AI模型訓練更貼近臺灣的語言、文化與生活情境，促進AI模型具備更高的本土辨識力與語意理解能力，符合我國社會與產業需求。

目前已有超過200個政府機關投入，上架逾2,000筆資料集、超過6億tokens，收錄各機關具台灣文化特色之高品質資料集，內容涵蓋語言、文化、教育、生物、地理環境等領域，這些資料就像AI的教材，幫助AI模型更了解台灣，學會更自然、更貼近台灣社會的語言表達能力。

文化部表示，文化部上架的公共藝術及文化資產類型資料集，展現台灣豐富、多元的藝文風貌，可作為訓練AI模型認識台灣文化內容的重要素材；教育部則表示，教育部提供的語言辭典資料涵蓋台語、客語及國語等，有助於強化AI模型的用詞精準度與語意理解能力。

同時，為了讓政府機關與民間能夠「放心釋出資料、安心使用語料」，數發部與經濟部智慧財產局合作，共同推出 《台灣主權AI訓練語料授權條款－第1版》，讓語料釋出有明確的授權依據，降低個別著作權商議所要付出的龐大行政成本，減少AI訓練資料可能產生的著作權爭議，藉由授權條款先行機制，全力加速主權AI的發展與應用。

值得一提的是，語料庫串接政府資料開放十餘年努力的成果，將過去累積的豐富文本開放資料同步至語料庫，使用者可依需求查詢及下載所需語料資料，讓語料更容易被查找及應用。

數發部表示，語料庫內容未來還會持續擴充，從中央機關一路推廣至地方政府及民間機構，讓更多人一起參與，透過公私協力共同促進主權AI發展。誠摯邀請AI模型訓練者至語料庫申請，用台灣的語料，打造理解台灣的AI。