快訊

川普關稅大刀嚇壞存股族? 個股、ETF定期定額戶數全面下滑

有錢人是怎麼累積出億萬身家的? 國稅局官員調查遺產稅10年找到真相

今年第一檔!當沖變融券被軋到 IET爆違約交割1631萬元

科學人/打造最台語言模型! 為何無法從0研發?AI律師、家教將實現?

繁體中文大型語言模型(LLM)在去年由於政治因素,一度鬧得沸沸揚揚。今年4月15日傳出好消息,由國家科學及科技委員會(國科會)主導開發的「可信任人工智慧對話引擎」(Trustworthy AI Dialogue Engine, TAIDE)開源釋出TAIDE-LX-7B模型,是可商用版本。AI示意圖。 鏵德/提供
繁體中文大型語言模型(LLM)在去年由於政治因素,一度鬧得沸沸揚揚。今年4月15日傳出好消息,由國家科學及科技委員會(國科會)主導開發的「可信任人工智慧對話引擎」(Trustworthy AI Dialogue Engine, TAIDE)開源釋出TAIDE-LX-7B模型,是可商用版本。AI示意圖。 鏵德/提供

重點提要

1.台灣產官學界都致力打造繁體中文大型語言模型,接連釋出可商用版本。

2.除了模型之外,尚需建立繁體中文資料庫與評測系統。

繁體中文大型語言模型(LLM)在去年由於政治因素,一度鬧得沸沸揚揚。今年4月15日傳出好消息,由國家科學及科技委員會(國科會)主導開發的「可信任人工智慧對話引擎」(Trustworthy AI Dialogue Engine, TAIDE)開源釋出TAIDE-LX-7B模型,是可商用版本。3月上旬,產業界也傳捷報,隸屬於聯發科技集團的聯發創新基地開源釋出MediaTekResearchBreeze-7B。

然而,不只有產官界投入研發,學界其實也有一組研究團隊正緊鑼密鼓訓練,標榜為最有台灣味的LLM,那就是台灣大學資訊工程系副教授陳縕儂及其博士生林彥廷等人開發的Taiwan-LLM。

簡單來說,打造大型語言模型有兩種做法。一是從零開始研發,例如OpenAI開發的「生成式預訓練轉換模型」(GPT),另一是選用既有的大型語言模型,例如Meta公司釋出的開放源碼LLaMA模型,再透過特定資料增強專才能力。目前台灣各界打造的繁體中文LLM,大多是以開源模型為基礎,運用各自收集的資料庫進行後續的訓練程序,可分成三個階段:連續預訓練(continuous pre-training, cPT,以資料庫進行學習)、監督式微調(supervised fine-tuning, SFT)、基於人類回饋的增強學習(reinforcement learning from human feedback, RLHF,上網蒐集回饋)。

台灣大學資訊工程系副教授陳縕儂及其博士生林彥廷等人開發的Taiwan-LLM,是以LLaMA模型為基礎進行全參數微調,用公開的法律文件、新聞時事、社群討論做為繁體中文訓練資料,來增強繁體中文能力並呈現台灣文化。路透
台灣大學資訊工程系副教授陳縕儂及其博士生林彥廷等人開發的Taiwan-LLM,是以LLaMA模型為基礎進行全參數微調,用公開的法律文件、新聞時事、社群討論做為繁體中文訓練資料,來增強繁體中文能力並呈現台灣文化。路透

Taiwan-LLM是以LLaMA模型為基礎進行全參數微調,用公開的法律文件、新聞時事、社群討論做為繁體中文訓練資料,來增強繁體中文能力並呈現台灣文化。陳縕儂指出,例如發票載具就是一種在地化的文化用語,如果AI模型聽得懂這個詞彙,在應用情境上會更貼近我們的生活。然而,公開取用的繁體中文文本其實來源很少(這也是無法從零開始研發LLM的原因之一),並且受限於著作權,例如小說及書籍必須經過出版社授權。林彥廷說明,不論繁體中文或簡體中文,在網路上,詐騙和內容農場及色情訊息的佔比特別高,這些資料的品質很差,根本不能使用。因此他在後續訓練時,從資料源頭控管,沒有使用非營利組織Common Crawl免費提供的公開網路爬蟲資料集,省去不少微調工作。

打造模型要兼顧彈性

LLM的發展很快,相關技術日新月異。陳縕儂表示,當Meta釋出LLaMA 2,Taiwan-LLM也升級到新版本。這領域不斷推陳出新,若有擁有好的資料集,就可與時俱進,切換到更有彈性的架構。例如Mistral AI推出「混合專家模型」(Mixture of Experts, MoE),透過把單一任務拆分成多個子任務,再交由多個專家網路分頭處理。也就是說,一般模型就像一位專家,MoE則有多位專家組成一個團隊,每次派幾位專家處理不同任務。Taiwan-LLM從開發至今經歷了三個主要版本:Taiwan-LLM-v1.0-13B針對超過50億個詞元(token)進行預訓練,並針對49萬組繁體中文對話進行調整;Taiwan-LLM-v2.0-7B則提高到超過300億個單詞,以及100萬組繁體中文對話;而Taiwan-LLM-v2.0-13B是以130億參數量(即名稱中的13B)的模型進行訓練。

林彥廷指出,在資料蒐集上有兩組人馬分頭行動。一組人不斷擴充資料庫,依據一些小規則與政治立場去收錄資料,這有點像「貓抓老鼠」,因此從文本來源判斷會是比較保險的做法,避免把品質不好的資料餵給模型,減少後續調整;這個階段在訓練模型上所需的時間比較長,也需考量災難性遺忘,也就是AI模型學習新任務時,既有的性能反倒下降。

另一組人持續製作問答,準備問答資料比較費時,但訓練模型的時間相對短。此外,也有一些合作夥伴願意投入訓練資源,例如CPU時間,他們認為Taiwan-LLM這套開源模型對於自家後續應用是有幫助的,因此協助測試模型,回饋需要改善的面向,陳縕儂團隊再補強這面向的資料。

合作夥伴之一是日商優必達(Ubitus),優必達是雲端串流解決服務商,提供雲端運算能力來協助開發Taiwan-LLM。因為Taiwan-LLM的優勢在於開源模型,而且符合台灣當地的應用情境。使用者與業者可以讓開源模型在自家電腦或伺服器運行,避免隱密資料外流,再者可依據自家需求調整模型,後續還可客製化,例如AI新聞主播。

那麼是否很快就會出現AI律師、AI家教等AI產品呢?陳縕儂分享,當LLM讀完法條後,並不會變成AI律師,因為它需要的可能是司法院沒有公開的錄音和逐字稿等記錄,即使有判決書,那等同於只看結論,缺少了重要的答辯過程。所謂的AI律師,需要的可能是台灣各大律師事務所的資料,因此LLM與資料的結合非常重要,這就像讀完書的法律系畢業生必須實際工作過,才有實務上的能力。AI家教也是同樣的情況,需要的不只是課本,也需要評量題目與教學方法。

模型、資料、成本

因此業界在評估AI導入時,需要思考的是模型與資料的垂直整合,也就是拚速度和整合度。另一個需要思考的是成本,LLM與使用者互動的表現可能很好,但傳統技術或許更加成熟。陳縕儂解釋,例如數位客服常遇到的疑問可能有10種,用分類器技術就可以處理,其餘情況再交由LLM應對,如果所有情況都直接讓LLM生成,可能會遇到許多不可控的情況,反而引發公關危機。

然而,現今有一股風潮,認為使用的模型越大越好,但越大的模型意味著需要更多算力及更長的計算時間,所花費的成本勢必也因此提高,企業必須在成本和效力上找尋平衡。

在資料與模型之外,陳縕儂認為,評測標準也是當前業界的一大痛點。大多數研究都是以英文為主,所以英文資料庫非常多樣,但繁體中文的資料庫很少,如何依據資料庫建立動態的評測系統更是一大挑戰。林彥廷說明,依據我們團隊的經驗,預測人類的偏好大約落在七成,因此遇到使用者的偏好時,再好的語言模型也可能「表現不好」。

在繁體中文LLM的開發路上,產官學界在模型、資料庫、評測系統上投入心力、克服萬難。然而,這條路要走得順、要走得遠,仍然需要台灣各大產業的投入,才有可能打造多元的應用,就如AI律師、AI家教、AI客服等AI產品。這一切,都將促使我們繁體中文的AI應用應用更加符合自身需求。

(本文出自2024.05.01《科學人》網站,未經同意禁止轉載。)

AI 台大 台灣 國科會 聯發科 語言

延伸閱讀

微軟與阿聯AI交易 恐致美國先進晶片和技術外流

黃仁勳看好AI生成影片 帶動更多輝達晶片需求

輝達主權AI新業務投資人驚喜 今年預料將達數十億美元 發展空間大

富士山LAWSON想拍就拍!他自製超商模型帶著走 網驚豔:會大賣

相關新聞

作家Choyce:我想為孩子創造、守護年味 無論住在哪有家人的地方就是家

從小在台南土生土長,長大後當了恆春媳婦,如今陪著一雙兒女赴美求學、落腳加州,Choyce說,無論在哪兒,都要好好過年,「每個家,都有屬於自己的年味。

宋怡慧/小寒已至…冷氣團讓你濕冷難耐? 看古人寒冬中綻放傲骨神采

在二十四節氣的更迭中,小寒猶如一位無聲的離人騷客,為嚴冬譜寫著最動人的篇章。天地間寒意漸次濃烈...

閱讀數學/小學課本常見字排行榜(上)

在學校各個科目中,除了數學,國語也非常重要。中低年級時要多認識生字,才能閱讀、推開知識的大門。

用戶外昆蟲課讓孩子放下3C,勇於自我突破;蚊子老師廖姿雯:「我也在過自己想要的童年!」

從事昆蟲教學引導10餘年的「蚊子老師」廖姿雯說:「其實大自然很好玩,現在的孩子很少有機會在大自然裡面玩,我會試著推他們一把,幫孩子打開思路之後,甚至有很多遊戲是他們教我玩的!」

從魯蛇變身英文名師 鄭錫懋靠著一關鍵成功逆轉人生

鄭錫懋自嘲年輕時是個「魯蛇」。大學聯考英文只有20分,大學企管系的大一英文被當了3年,微積分修到第7次,遇到好心老師才終於及格;如今,不僅出版英文學習書,還成為大企業指定的英文名師。

鄉下囡仔變身學霸》台灣半導體業推手史欽泰:童年這些事 影響我一生

史欽泰是台灣半導體業的推手,曾協助台積電、聯電等公司的設立。很少人知道,他其實出身南部鄉下,是在甘蔗田中長大的,因為很會讀書,才有機會「來台大、去美國」,而史欽泰的童年雖然窮困,卻帶給他一生的養分。

商品推薦

udn討論區

0 則留言
規範
  • 張貼文章或下標籤,不得有違法或侵害他人權益之言論,違者應自負法律責任。
  • 對於明知不實或過度情緒謾罵之言論,經網友檢舉或本網站發現,聯合新聞網有權逕予刪除文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。
  • 對於無意義、與本文無關、明知不實、謾罵之標籤,聯合新聞網有權逕予刪除標籤、停權或解除會員資格。不同意上述規範者,請勿下標籤。
  • 凡「暱稱」涉及謾罵、髒話穢言、侵害他人權利,聯合新聞網有權逕予刪除發言文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。