快訊

MLB/大谷翔平本季首度未先發 教頭曝可能代打上陣

日圓最甜價有機會重現?亞幣競貶大戰如今一觸即發

像電影!高雄出現「風暴前導雲」 網友呼超神:立馬滂沱大雨

阿里雲推出兩款大規模視覺語言模型 具備圖文理解能力

國際大廠競爭大型語言模型(LLM)規模與理解能力,特別是圖文理解、多模態訊息理解與生成能力。阿里巴巴旗下阿里雲宣布推出兩款大規模視覺語言模型Qwen-VL及Qwen-VL-Chat,支持中英文圖文輸入,具備多模態訊息理解能力,在其開源社區魔搭(ModelScope)及AI協作平台Hugging Face上架,促進開源生態發展。

阿里雲指出,Qwen-VL和Qwen-VL-Chat是支持中英文語言的視覺語言模型,以阿里雲之前開源的通義千問70億參數模型Qwen-7B為基礎語言模型研發,具備中英文圖文識別、描述和問答對話能力,新增視覺定位和圖像文字理解能力。

Qwen-VL及基於這一模型微調的對話模型Qwen-VL-Chat可用於知識問答、圖像標題生成、圖像問答、文件問答、細粒度視覺定位等多種場景。例如用戶可拍下醫院樓層導覽圖,問Qwen-VL Chat:「外科在哪層?」、「耳鼻喉科去哪層?」,Qwen-VL會根據圖片訊息給出文字回覆。

為進一步助力AI技術普惠,全球學術、研究及商業機構均可免費獲取上述模型的代碼、模型權重和文件。對於商業應用需求,月活躍用戶少於1億的公司可免費使用模型,用戶數超過該量級的企業可向阿里雲申請許可證。

Qwen-VL和Qwen-VL-Chat以Qwen-7B為基座語言模型,在模型架構上引入視覺編碼器,使得模型支持視覺訊號輸入,並透過設計訓練過程,讓模型具備對視覺訊號的細粒度感知和理解能力。Qwen-VL支持的圖像輸入分辨率為448,此前開源的LVLM模型通常僅支持224分辨率。在Qwen-VL的基礎上,通義千問團隊使用對齊機制,打造基於LLM的視覺AI助手Qwen-VL-Chat,可讓開發者快速搭建具備多模態能力的對話應用。

為了測試模型的多模態對話能力,通義千問團隊構建一套基於GPT-4算分機制的測試集「試金石」,對Qwen-VL-Chat及其他模型進行對比測試,Qwen-VL-Chat在中英文的對齊評測中均取得開源LVLM最好結果。

8月初,阿里雲釋出通義千問70億參數通用模型Qwen-7B和對話模型Qwen-7B-Chat。不到一個月,兩個模型在開源社區的累計下載量已突破40萬。

AI GPT-4 阿里巴巴

延伸閱讀

研調:AI熱潮企業採邊緣模式資安風險低但成本高

蘋果鴨子划水 推升AI新商機

成都車展 智能化成車企新攻略

智邦、愛普 認購搶鏡

相關新聞

幣安趙長鵬認洗錢「判刑4個月」 擁1.4兆成為美監獄史上最有錢囚犯

全球最大加密貨幣交易所幣安(Binance)創辦人趙長鵬,去年在美國承認洗錢罪後,於4月30日被判處監禁4個月,遠低於控...

陸國台辦:盼台灣方面恢復海上客運5航線與擴大30航點

大陸官方28日對兩岸人員往來有諸多措施,最新消息是大陸已經透過兩會機制,促請我方恢復兩岸海上客運直航以及擴大恢復空中客運...

雷軍向比亞迪董座展示小米SU7 力邀合作「搞生態」

北京車展本月25日起登場,是疫情後首次復辦,眾多大陸車企同場較勁。不過比亞迪董事長王傳福26日前往近期首發新車的小米汽車...

ECAF取消? 國台辦:如民進黨拒不悔改,支持進一步措施

國台辦今舉行例行記者會,發言人朱鳳蓮再被問到ECAF早收清單是否取消的問題時回應表示,如果民進黨頑固堅持台獨,拒不悔改,...

未來3年聚焦大陸市場 小米汽車何時外銷?董座雷軍這樣說

小米SU7純電動汽車3月上市後掀起訂車熱潮。小米董事長雷軍今天說,目前SU7鎖單量已超過7萬輛,小米正在全力擴充產能,預...

大陸經濟復甦冷、前景不明 外資企業縮減人力降低成本

中國經濟復甦不如預期、前景未明,令許多國際金融機構在中國的虧損增加。路透社報導,不少機構已暫時擱置了在中國的計畫,甚至縮...

商品推薦

udn討論區

0 則留言
規範
  • 張貼文章或下標籤,不得有違法或侵害他人權益之言論,違者應自負法律責任。
  • 對於明知不實或過度情緒謾罵之言論,經網友檢舉或本網站發現,聯合新聞網有權逕予刪除文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。
  • 對於無意義、與本文無關、明知不實、謾罵之標籤,聯合新聞網有權逕予刪除標籤、停權或解除會員資格。不同意上述規範者,請勿下標籤。
  • 凡「暱稱」涉及謾罵、髒話穢言、侵害他人權利,聯合新聞網有權逕予刪除發言文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。