快訊

房市買氣冷…逆勢迎最大開工潮?專家曝原因:建商是被逼出來的

證實林昶佐將出任駐芬蘭代表 林佳龍:總合外交需多元人才

拜登罹癌/早期幾乎無症狀!高齡男性殺手「攝護腺癌」多吃2類食物有助預防

科學人/打造最台語言模型! 為何無法從0研發?AI律師、家教將實現?

繁體中文大型語言模型(LLM)在去年由於政治因素,一度鬧得沸沸揚揚。今年4月15日傳出好消息,由國家科學及科技委員會(國科會)主導開發的「可信任人工智慧對話引擎」(Trustworthy AI Dialogue Engine, TAIDE)開源釋出TAIDE-LX-7B模型,是可商用版本。AI示意圖。 鏵德/提供
繁體中文大型語言模型(LLM)在去年由於政治因素,一度鬧得沸沸揚揚。今年4月15日傳出好消息,由國家科學及科技委員會(國科會)主導開發的「可信任人工智慧對話引擎」(Trustworthy AI Dialogue Engine, TAIDE)開源釋出TAIDE-LX-7B模型,是可商用版本。AI示意圖。 鏵德/提供

重點提要

1.台灣產官學界都致力打造繁體中文大型語言模型,接連釋出可商用版本。

2.除了模型之外,尚需建立繁體中文資料庫與評測系統。

繁體中文大型語言模型(LLM)在去年由於政治因素,一度鬧得沸沸揚揚。今年4月15日傳出好消息,由國家科學及科技委員會(國科會)主導開發的「可信任人工智慧對話引擎」(Trustworthy AI Dialogue Engine, TAIDE)開源釋出TAIDE-LX-7B模型,是可商用版本。3月上旬,產業界也傳捷報,隸屬於聯發科技集團的聯發創新基地開源釋出MediaTekResearchBreeze-7B。

然而,不只有產官界投入研發,學界其實也有一組研究團隊正緊鑼密鼓訓練,標榜為最有台灣味的LLM,那就是台灣大學資訊工程系副教授陳縕儂及其博士生林彥廷等人開發的Taiwan-LLM。

簡單來說,打造大型語言模型有兩種做法。一是從零開始研發,例如OpenAI開發的「生成式預訓練轉換模型」(GPT),另一是選用既有的大型語言模型,例如Meta公司釋出的開放源碼LLaMA模型,再透過特定資料增強專才能力。目前台灣各界打造的繁體中文LLM,大多是以開源模型為基礎,運用各自收集的資料庫進行後續的訓練程序,可分成三個階段:連續預訓練(continuous pre-training, cPT,以資料庫進行學習)、監督式微調(supervised fine-tuning, SFT)、基於人類回饋的增強學習(reinforcement learning from human feedback, RLHF,上網蒐集回饋)。

台灣大學資訊工程系副教授陳縕儂及其博士生林彥廷等人開發的Taiwan-LLM,是以LLaMA模型為基礎進行全參數微調,用公開的法律文件、新聞時事、社群討論做為繁體中文訓練資料,來增強繁體中文能力並呈現台灣文化。路透
台灣大學資訊工程系副教授陳縕儂及其博士生林彥廷等人開發的Taiwan-LLM,是以LLaMA模型為基礎進行全參數微調,用公開的法律文件、新聞時事、社群討論做為繁體中文訓練資料,來增強繁體中文能力並呈現台灣文化。路透

Taiwan-LLM是以LLaMA模型為基礎進行全參數微調,用公開的法律文件、新聞時事、社群討論做為繁體中文訓練資料,來增強繁體中文能力並呈現台灣文化。陳縕儂指出,例如發票載具就是一種在地化的文化用語,如果AI模型聽得懂這個詞彙,在應用情境上會更貼近我們的生活。然而,公開取用的繁體中文文本其實來源很少(這也是無法從零開始研發LLM的原因之一),並且受限於著作權,例如小說及書籍必須經過出版社授權。林彥廷說明,不論繁體中文或簡體中文,在網路上,詐騙和內容農場及色情訊息的佔比特別高,這些資料的品質很差,根本不能使用。因此他在後續訓練時,從資料源頭控管,沒有使用非營利組織Common Crawl免費提供的公開網路爬蟲資料集,省去不少微調工作。

打造模型要兼顧彈性

LLM的發展很快,相關技術日新月異。陳縕儂表示,當Meta釋出LLaMA 2,Taiwan-LLM也升級到新版本。這領域不斷推陳出新,若有擁有好的資料集,就可與時俱進,切換到更有彈性的架構。例如Mistral AI推出「混合專家模型」(Mixture of Experts, MoE),透過把單一任務拆分成多個子任務,再交由多個專家網路分頭處理。也就是說,一般模型就像一位專家,MoE則有多位專家組成一個團隊,每次派幾位專家處理不同任務。Taiwan-LLM從開發至今經歷了三個主要版本:Taiwan-LLM-v1.0-13B針對超過50億個詞元(token)進行預訓練,並針對49萬組繁體中文對話進行調整;Taiwan-LLM-v2.0-7B則提高到超過300億個單詞,以及100萬組繁體中文對話;而Taiwan-LLM-v2.0-13B是以130億參數量(即名稱中的13B)的模型進行訓練。

林彥廷指出,在資料蒐集上有兩組人馬分頭行動。一組人不斷擴充資料庫,依據一些小規則與政治立場去收錄資料,這有點像「貓抓老鼠」,因此從文本來源判斷會是比較保險的做法,避免把品質不好的資料餵給模型,減少後續調整;這個階段在訓練模型上所需的時間比較長,也需考量災難性遺忘,也就是AI模型學習新任務時,既有的性能反倒下降。

另一組人持續製作問答,準備問答資料比較費時,但訓練模型的時間相對短。此外,也有一些合作夥伴願意投入訓練資源,例如CPU時間,他們認為Taiwan-LLM這套開源模型對於自家後續應用是有幫助的,因此協助測試模型,回饋需要改善的面向,陳縕儂團隊再補強這面向的資料。

合作夥伴之一是日商優必達(Ubitus),優必達是雲端串流解決服務商,提供雲端運算能力來協助開發Taiwan-LLM。因為Taiwan-LLM的優勢在於開源模型,而且符合台灣當地的應用情境。使用者與業者可以讓開源模型在自家電腦或伺服器運行,避免隱密資料外流,再者可依據自家需求調整模型,後續還可客製化,例如AI新聞主播。

那麼是否很快就會出現AI律師、AI家教等AI產品呢?陳縕儂分享,當LLM讀完法條後,並不會變成AI律師,因為它需要的可能是司法院沒有公開的錄音和逐字稿等記錄,即使有判決書,那等同於只看結論,缺少了重要的答辯過程。所謂的AI律師,需要的可能是台灣各大律師事務所的資料,因此LLM與資料的結合非常重要,這就像讀完書的法律系畢業生必須實際工作過,才有實務上的能力。AI家教也是同樣的情況,需要的不只是課本,也需要評量題目與教學方法。

模型、資料、成本

因此業界在評估AI導入時,需要思考的是模型與資料的垂直整合,也就是拚速度和整合度。另一個需要思考的是成本,LLM與使用者互動的表現可能很好,但傳統技術或許更加成熟。陳縕儂解釋,例如數位客服常遇到的疑問可能有10種,用分類器技術就可以處理,其餘情況再交由LLM應對,如果所有情況都直接讓LLM生成,可能會遇到許多不可控的情況,反而引發公關危機。

然而,現今有一股風潮,認為使用的模型越大越好,但越大的模型意味著需要更多算力及更長的計算時間,所花費的成本勢必也因此提高,企業必須在成本和效力上找尋平衡。

在資料與模型之外,陳縕儂認為,評測標準也是當前業界的一大痛點。大多數研究都是以英文為主,所以英文資料庫非常多樣,但繁體中文的資料庫很少,如何依據資料庫建立動態的評測系統更是一大挑戰。林彥廷說明,依據我們團隊的經驗,預測人類的偏好大約落在七成,因此遇到使用者的偏好時,再好的語言模型也可能「表現不好」。

在繁體中文LLM的開發路上,產官學界在模型、資料庫、評測系統上投入心力、克服萬難。然而,這條路要走得順、要走得遠,仍然需要台灣各大產業的投入,才有可能打造多元的應用,就如AI律師、AI家教、AI客服等AI產品。這一切,都將促使我們繁體中文的AI應用應用更加符合自身需求。

(本文出自2024.05.01《科學人》網站,未經同意禁止轉載。)

語言 聯發科 國科會 台灣 台大 AI

延伸閱讀

微軟與阿聯AI交易 恐致美國先進晶片和技術外流

黃仁勳看好AI生成影片 帶動更多輝達晶片需求

輝達主權AI新業務投資人驚喜 今年預料將達數十億美元 發展空間大

富士山LAWSON想拍就拍!他自製超商模型帶著走 網驚豔:會大賣

相關新聞

念建中科學班到台大醫學系 洪偉哲:科學班教會我最多的事

學習從來不是一條輕鬆的道路,也沒有捷徑可言,即使是最聰明的人,也需要付出努力和時間,才可能脫穎而出。進入建中科學班,洪偉哲經歷一場「震撼教育」,世界上比你強的人太多了,深刻感受到自己有很多不足,有很大的成長空間。

從成績倒數到考上北醫牙醫系》余品萱學習逆襲的關鍵:相信自己值得更好的結果

余品萱高中時課業幾乎是放棄的狀態,成績倒數。選擇重考的她,以醫學系和牙醫系為目標,不惜重考兩年,因為相信自己值得更好的結果,並願意為此努力,最終成功考上北醫牙醫系。

家常料理食譜作家「林姓主婦」:家庭主婦不可怕 怕的是忘記「妳」是誰

知名家常料理食譜作家「林姓主婦」曾為陪伴孩子成長,從職場轉戰全職媽媽。歷經10年的身心靈磨練、前空巢期,和中年危機,在找回自己的路上,她從徬徨到自信,勇敢跨出舒適圈。

IG網紅瑪姬老師:即便做自己 也能成為孩子心中的好媽媽

成為母親之後,辛苦照料家人,但,你照顧自己了嗎? 今年56歲、在Instagram上擁有逾32萬粉絲的「瑪姬老師」,年輕時就意識到,自己不適合當家庭主婦。她用行動證明,即便做自己,也能成為孩子心中的好媽媽。

宋怡慧/驚蟄春雷響!一窺古人被貶的暗黑心境 「聞雷」迎生命覺醒時刻

在老祖宗的智慧中,驚蟄的雷聲被視為上天賜予的祥瑞。有句意味深長的諺語:「驚蟄聞雷,米似泥」

日本童書作家村上詩子:書的世界讓我看到光 知道人生不會一直處於低谷

第一次見到村上詩子,可能會被她爽朗的笑容吸引,但原來,小時候的她有一段慘澹的經歷,過得很坎坷,到了成年離開家後,才開始練習怎麼笑。現在的她,臉上總是堆滿笑容,她說:「我童年的時候已經經歷了那麼多的不幸,所以我現在只想開心地過每一天。」

商品推薦

udn討論區

0 則留言
規範
  • 張貼文章或下標籤,不得有違法或侵害他人權益之言論,違者應自負法律責任。
  • 對於明知不實或過度情緒謾罵之言論,經網友檢舉或本網站發現,聯合新聞網有權逕予刪除文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。
  • 對於無意義、與本文無關、明知不實、謾罵之標籤,聯合新聞網有權逕予刪除標籤、停權或解除會員資格。不同意上述規範者,請勿下標籤。
  • 凡「暱稱」涉及謾罵、髒話穢言、侵害他人權利,聯合新聞網有權逕予刪除發言文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。