快訊

立院大怒神電梯又出包!兩立委受困10分鐘怒批:搞什麼

抓到了!租屋糾紛涉縱火燒屋 台灣女背包客遭澳警逮捕

又漏水!桃機2航廈「室內下雨」美食區、貴賓室都遭殃

科學人/打造最台語言模型! 為何無法從0研發?AI律師、家教將實現?

繁體中文大型語言模型(LLM)在去年由於政治因素,一度鬧得沸沸揚揚。今年4月15日傳出好消息,由國家科學及科技委員會(國科會)主導開發的「可信任人工智慧對話引擎」(Trustworthy AI Dialogue Engine, TAIDE)開源釋出TAIDE-LX-7B模型,是可商用版本。AI示意圖。 鏵德/提供
繁體中文大型語言模型(LLM)在去年由於政治因素,一度鬧得沸沸揚揚。今年4月15日傳出好消息,由國家科學及科技委員會(國科會)主導開發的「可信任人工智慧對話引擎」(Trustworthy AI Dialogue Engine, TAIDE)開源釋出TAIDE-LX-7B模型,是可商用版本。AI示意圖。 鏵德/提供

重點提要

1.台灣產官學界都致力打造繁體中文大型語言模型,接連釋出可商用版本。

2.除了模型之外,尚需建立繁體中文資料庫與評測系統。

繁體中文大型語言模型(LLM)在去年由於政治因素,一度鬧得沸沸揚揚。今年4月15日傳出好消息,由國家科學及科技委員會(國科會)主導開發的「可信任人工智慧對話引擎」(Trustworthy AI Dialogue Engine, TAIDE)開源釋出TAIDE-LX-7B模型,是可商用版本。3月上旬,產業界也傳捷報,隸屬於聯發科技集團的聯發創新基地開源釋出MediaTekResearchBreeze-7B。

然而,不只有產官界投入研發,學界其實也有一組研究團隊正緊鑼密鼓訓練,標榜為最有台灣味的LLM,那就是台灣大學資訊工程系副教授陳縕儂及其博士生林彥廷等人開發的Taiwan-LLM。

簡單來說,打造大型語言模型有兩種做法。一是從零開始研發,例如OpenAI開發的「生成式預訓練轉換模型」(GPT),另一是選用既有的大型語言模型,例如Meta公司釋出的開放源碼LLaMA模型,再透過特定資料增強專才能力。目前台灣各界打造的繁體中文LLM,大多是以開源模型為基礎,運用各自收集的資料庫進行後續的訓練程序,可分成三個階段:連續預訓練(continuous pre-training, cPT,以資料庫進行學習)、監督式微調(supervised fine-tuning, SFT)、基於人類回饋的增強學習(reinforcement learning from human feedback, RLHF,上網蒐集回饋)。

台灣大學資訊工程系副教授陳縕儂及其博士生林彥廷等人開發的Taiwan-LLM,是以LLaMA模型為基礎進行全參數微調,用公開的法律文件、新聞時事、社群討論做為繁體中文訓練資料,來增強繁體中文能力並呈現台灣文化。路透
台灣大學資訊工程系副教授陳縕儂及其博士生林彥廷等人開發的Taiwan-LLM,是以LLaMA模型為基礎進行全參數微調,用公開的法律文件、新聞時事、社群討論做為繁體中文訓練資料,來增強繁體中文能力並呈現台灣文化。路透

Taiwan-LLM是以LLaMA模型為基礎進行全參數微調,用公開的法律文件、新聞時事、社群討論做為繁體中文訓練資料,來增強繁體中文能力並呈現台灣文化。陳縕儂指出,例如發票載具就是一種在地化的文化用語,如果AI模型聽得懂這個詞彙,在應用情境上會更貼近我們的生活。然而,公開取用的繁體中文文本其實來源很少(這也是無法從零開始研發LLM的原因之一),並且受限於著作權,例如小說及書籍必須經過出版社授權。林彥廷說明,不論繁體中文或簡體中文,在網路上,詐騙和內容農場及色情訊息的佔比特別高,這些資料的品質很差,根本不能使用。因此他在後續訓練時,從資料源頭控管,沒有使用非營利組織Common Crawl免費提供的公開網路爬蟲資料集,省去不少微調工作。

打造模型要兼顧彈性

LLM的發展很快,相關技術日新月異。陳縕儂表示,當Meta釋出LLaMA 2,Taiwan-LLM也升級到新版本。這領域不斷推陳出新,若有擁有好的資料集,就可與時俱進,切換到更有彈性的架構。例如Mistral AI推出「混合專家模型」(Mixture of Experts, MoE),透過把單一任務拆分成多個子任務,再交由多個專家網路分頭處理。也就是說,一般模型就像一位專家,MoE則有多位專家組成一個團隊,每次派幾位專家處理不同任務。Taiwan-LLM從開發至今經歷了三個主要版本:Taiwan-LLM-v1.0-13B針對超過50億個詞元(token)進行預訓練,並針對49萬組繁體中文對話進行調整;Taiwan-LLM-v2.0-7B則提高到超過300億個單詞,以及100萬組繁體中文對話;而Taiwan-LLM-v2.0-13B是以130億參數量(即名稱中的13B)的模型進行訓練。

林彥廷指出,在資料蒐集上有兩組人馬分頭行動。一組人不斷擴充資料庫,依據一些小規則與政治立場去收錄資料,這有點像「貓抓老鼠」,因此從文本來源判斷會是比較保險的做法,避免把品質不好的資料餵給模型,減少後續調整;這個階段在訓練模型上所需的時間比較長,也需考量災難性遺忘,也就是AI模型學習新任務時,既有的性能反倒下降。

另一組人持續製作問答,準備問答資料比較費時,但訓練模型的時間相對短。此外,也有一些合作夥伴願意投入訓練資源,例如CPU時間,他們認為Taiwan-LLM這套開源模型對於自家後續應用是有幫助的,因此協助測試模型,回饋需要改善的面向,陳縕儂團隊再補強這面向的資料。

合作夥伴之一是日商優必達(Ubitus),優必達是雲端串流解決服務商,提供雲端運算能力來協助開發Taiwan-LLM。因為Taiwan-LLM的優勢在於開源模型,而且符合台灣當地的應用情境。使用者與業者可以讓開源模型在自家電腦或伺服器運行,避免隱密資料外流,再者可依據自家需求調整模型,後續還可客製化,例如AI新聞主播。

那麼是否很快就會出現AI律師、AI家教等AI產品呢?陳縕儂分享,當LLM讀完法條後,並不會變成AI律師,因為它需要的可能是司法院沒有公開的錄音和逐字稿等記錄,即使有判決書,那等同於只看結論,缺少了重要的答辯過程。所謂的AI律師,需要的可能是台灣各大律師事務所的資料,因此LLM與資料的結合非常重要,這就像讀完書的法律系畢業生必須實際工作過,才有實務上的能力。AI家教也是同樣的情況,需要的不只是課本,也需要評量題目與教學方法。

模型、資料、成本

因此業界在評估AI導入時,需要思考的是模型與資料的垂直整合,也就是拚速度和整合度。另一個需要思考的是成本,LLM與使用者互動的表現可能很好,但傳統技術或許更加成熟。陳縕儂解釋,例如數位客服常遇到的疑問可能有10種,用分類器技術就可以處理,其餘情況再交由LLM應對,如果所有情況都直接讓LLM生成,可能會遇到許多不可控的情況,反而引發公關危機。

然而,現今有一股風潮,認為使用的模型越大越好,但越大的模型意味著需要更多算力及更長的計算時間,所花費的成本勢必也因此提高,企業必須在成本和效力上找尋平衡。

在資料與模型之外,陳縕儂認為,評測標準也是當前業界的一大痛點。大多數研究都是以英文為主,所以英文資料庫非常多樣,但繁體中文的資料庫很少,如何依據資料庫建立動態的評測系統更是一大挑戰。林彥廷說明,依據我們團隊的經驗,預測人類的偏好大約落在七成,因此遇到使用者的偏好時,再好的語言模型也可能「表現不好」。

在繁體中文LLM的開發路上,產官學界在模型、資料庫、評測系統上投入心力、克服萬難。然而,這條路要走得順、要走得遠,仍然需要台灣各大產業的投入,才有可能打造多元的應用,就如AI律師、AI家教、AI客服等AI產品。這一切,都將促使我們繁體中文的AI應用應用更加符合自身需求。

(本文出自2024.05.01《科學人》網站,未經同意禁止轉載。)

AI 台大 台灣 國科會 聯發科 語言

延伸閱讀

微軟與阿聯AI交易 恐致美國先進晶片和技術外流

黃仁勳看好AI生成影片 帶動更多輝達晶片需求

輝達主權AI新業務投資人驚喜 今年預料將達數十億美元 發展空間大

富士山LAWSON想拍就拍!他自製超商模型帶著走 網驚豔:會大賣

相關新聞

籃球冠軍父子檔》他捨台積電高薪 爸爸東方介德悄悄現身冠軍賽 振臂歡呼「以兒子為榮」

從小到大,夫妻倆看著兒子為了打球,竭盡全力、再累也不輕言放棄,他們比誰都更捨不得兒子。兒子想參加選秀,父母沒說出的愛是,將擔憂、不捨的心情轉化為支持的力量。

22歲「蝶王」游進巴黎奧運》王冠閎:感謝爸媽教會我負責 這是我選擇的路 自當全力以赴

國一時參訪日本神社,王冠閎在許願木牌上寫下「To:未來的自己,2015市中運金牌,全中運獎牌,2020東京奧運」。他沒有把許願牌掛在神社,而是把它帶回台灣,藉此時時刻刻提醒自己,朝著目標而努力。

閱讀數學/破解金融市場的數學家(下)

前兩週,我們介紹了西蒙斯的生平,與他開始投入金融市場。他發現數學與電腦計算,是能夠讓純粹的理性運作...

閱讀數學/破解金融市場的數學家(中)

身價超過1兆的數學家吉姆·西蒙斯(J. Simons)於5/10過世,上週我們介紹了他的前半生取得學術成就後...

科學人/不只設備毀損…實驗室遇災損失難修復 清華教授籲做好「這幾點」

4月3日花蓮發生強震後,東華大學理工學院實驗室發生火災,最終導致一棟校舍燒毀,除了儀器設備毀損,師生多年的研究資料更是付之一炬。有鑑於此,研究人員平時該有何防災措施、災害當下該如何應變,才能免於研究心血遭受無可挽回的破壞?

好讀周報/與降雨最相關…潮境公園「逆向斜交坡坍塌」專家分析防治困難點

基隆市知名景點潮境公園入口處的平浪橋旁邊坡,3日發生大規模土石坍塌,導致台二線濱海公路中斷。專家表示,從影片、空拍圖來看...

商品推薦

udn討論區

0 則留言
規範
  • 張貼文章或下標籤,不得有違法或侵害他人權益之言論,違者應自負法律責任。
  • 對於明知不實或過度情緒謾罵之言論,經網友檢舉或本網站發現,聯合新聞網有權逕予刪除文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。
  • 對於無意義、與本文無關、明知不實、謾罵之標籤,聯合新聞網有權逕予刪除標籤、停權或解除會員資格。不同意上述規範者,請勿下標籤。
  • 凡「暱稱」涉及謾罵、髒話穢言、侵害他人權利,聯合新聞網有權逕予刪除發言文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。