快訊

遭檢舉下海兼差…女警淚灑警局喊冤「我沒有」 護膚店女經理說話了

首颱「艾維尼」生成發展預測分歧 吳聖宇曝對台影響

阿里雲推出兩款大規模視覺語言模型 具備圖文理解能力

國際大廠競爭大型語言模型(LLM)規模與理解能力,特別是圖文理解、多模態訊息理解與生成能力。阿里巴巴旗下阿里雲宣布推出兩款大規模視覺語言模型Qwen-VL及Qwen-VL-Chat,支持中英文圖文輸入,具備多模態訊息理解能力,在其開源社區魔搭(ModelScope)及AI協作平台Hugging Face上架,促進開源生態發展。

阿里雲指出,Qwen-VL和Qwen-VL-Chat是支持中英文語言的視覺語言模型,以阿里雲之前開源的通義千問70億參數模型Qwen-7B為基礎語言模型研發,具備中英文圖文識別、描述和問答對話能力,新增視覺定位和圖像文字理解能力。

Qwen-VL及基於這一模型微調的對話模型Qwen-VL-Chat可用於知識問答、圖像標題生成、圖像問答、文件問答、細粒度視覺定位等多種場景。例如用戶可拍下醫院樓層導覽圖,問Qwen-VL Chat:「外科在哪層?」、「耳鼻喉科去哪層?」,Qwen-VL會根據圖片訊息給出文字回覆。

為進一步助力AI技術普惠,全球學術、研究及商業機構均可免費獲取上述模型的代碼、模型權重和文件。對於商業應用需求,月活躍用戶少於1億的公司可免費使用模型,用戶數超過該量級的企業可向阿里雲申請許可證。

Qwen-VL和Qwen-VL-Chat以Qwen-7B為基座語言模型,在模型架構上引入視覺編碼器,使得模型支持視覺訊號輸入,並透過設計訓練過程,讓模型具備對視覺訊號的細粒度感知和理解能力。Qwen-VL支持的圖像輸入分辨率為448,此前開源的LVLM模型通常僅支持224分辨率。在Qwen-VL的基礎上,通義千問團隊使用對齊機制,打造基於LLM的視覺AI助手Qwen-VL-Chat,可讓開發者快速搭建具備多模態能力的對話應用。

為了測試模型的多模態對話能力,通義千問團隊構建一套基於GPT-4算分機制的測試集「試金石」,對Qwen-VL-Chat及其他模型進行對比測試,Qwen-VL-Chat在中英文的對齊評測中均取得開源LVLM最好結果。

8月初,阿里雲釋出通義千問70億參數通用模型Qwen-7B和對話模型Qwen-7B-Chat。不到一個月,兩個模型在開源社區的累計下載量已突破40萬。

AI GPT-4 阿里巴巴

延伸閱讀

研調:AI熱潮企業採邊緣模式資安風險低但成本高

蘋果鴨子划水 推升AI新商機

成都車展 智能化成車企新攻略

智邦、愛普 認購搶鏡

相關新聞

字節跳動「豆包」 成中國大陸最受歡迎AI聊天機器人

中國大陸科技公司字節跳動推出的「豆包」大模型,已成為中國市場上最受歡迎的人工智慧(AI)聊天機器人。

國際招商月 福州獲投資逾5300億

在5月18日於福建福州舉行的「萬商雲集有福之州」全球招商大會上,福州市現場簽約70餘個項目,總投資額超1200億元(人民...

軟銀證實清倉阿里股票 馬雲成為阿里第一大股東

軟銀集團宣布已出售其持有的幾乎所有阿里巴巴集團的股份,持股比例已降至接近零。這證實了今年1月的傳聞,當時有消息說軟銀持有...

手握一項「關鍵業務」 大陸電商基層員工1年收賄逾4億

中國前不久偵破一起民營企業內部腐敗案件。王某是電商平台基層營運人員,因為手握傢俱類官方旗艦店入駐的初審許可權,他在短短一...

璩靜離職前已自己開公司 李彥宏對員工說:你們才代表百度

昨天才被證實已離職的百度前公關副總裁璩靜,在仍擔任副總裁期間已自己另成立一家公司;據《第一財經》報導,今年4月24日深圳...

幣安趙長鵬認洗錢「判刑4個月」 擁1.4兆成為美監獄史上最有錢囚犯

全球最大加密貨幣交易所幣安(Binance)創辦人趙長鵬,去年在美國承認洗錢罪後,於4月30日被判處監禁4個月,遠低於控...

商品推薦

udn討論區

0 則留言
規範
  • 張貼文章或下標籤,不得有違法或侵害他人權益之言論,違者應自負法律責任。
  • 對於明知不實或過度情緒謾罵之言論,經網友檢舉或本網站發現,聯合新聞網有權逕予刪除文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。
  • 對於無意義、與本文無關、明知不實、謾罵之標籤,聯合新聞網有權逕予刪除標籤、停權或解除會員資格。不同意上述規範者,請勿下標籤。
  • 凡「暱稱」涉及謾罵、髒話穢言、侵害他人權利,聯合新聞網有權逕予刪除發言文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。