日韩高清电影,日韩人妻无码一区二区三区综合

通義千問開源第二波！8月25日消息，阿里云推出大規(guī)模視覺語言模型Qwen-VL，一步到位、直接開源。Qwen-VL以通義千問70億參數(shù)模型Qwen-7B為基座語言模型研發(fā)，支持圖文輸入，具備多模態(tài)信息理解能力。在主流的多模態(tài)任務(wù)評測和多模態(tài)聊天能力評測中，Qwen-VL取得了遠超同等規(guī)模通用模型的表現(xiàn)。

Qwen-VL是支持中英文等多種語言的視覺語言（Vision Language，VL）模型，相較于此前的VL模型，Qwen-VL除了具備基本的圖文識別、描述、問答及對話能力之外，還新增了視覺定位、圖像中文字理解等能力。

多模態(tài)是通用人工智能的重要技術(shù)演進方向之一。業(yè)界普遍認為，從單一感官的、僅支持文本輸入的語言模型，到“五官全開”的，支持文本、圖像、音頻等多種信息輸入的多模態(tài)模型，蘊含著大模型智能躍升的巨大可能。多模態(tài)能夠提升大模型對世界的理解程度，充分拓展大模型的使用場景。

視覺是人類的第一感官能力，也是研究者首先想賦予大模型的多模態(tài)能力。繼此前推出M6、OFA系列多模態(tài)模型之后，阿里云通義千問團隊又開源了基于Qwen-7B的大規(guī)模視覺語言模型（Large Vision Language Model, LVLM）Qwen-VL。Qwen-VL及其視覺AI助手Qwen-VL-Chat均已上線ModelScope魔搭社區(qū)，開源、免費、可商用。

用戶可從魔搭社區(qū)直接下載模型，也可通過阿里云靈積平臺訪問調(diào)用Qwen-VL和Qwen-VL-Chat，阿里云為用戶提供包括模型訓練、推理、部署、精調(diào)等在內(nèi)的全方位服務(wù)。

Qwen-VL可用于知識問答、圖像標題生成、圖像問答、文檔問答、細粒度視覺定位等場景。

比如，一位不懂中文的外國游客到醫(yī)院看病，不知怎么去往對應(yīng)科室，他拍下樓層導(dǎo)覽圖問Qwen-VL“骨科在哪層”“耳鼻喉科去哪層”，Qwen-VL會根據(jù)圖片信息給出文字回復(fù)，這是圖像問答能力；再比如，輸入一張上海外灘的照片，讓Qwen-VL找出東方明珠，Qwen-VL能用檢測框準確圈出對應(yīng)建筑，這是視覺定位能力。

Qwen-VL是業(yè)界首個支持中文開放域定位的通用模型，開放域視覺定位能力決定了大模型“視力”的精準度，也即，能否在畫面中精準地找出想找的事物，這對于VL模型在機器人操控等真實應(yīng)用場景的落地至關(guān)重要。

Qwen-VL以Qwen-7B為基座語言模型，在模型架構(gòu)上引入視覺編碼器，使得模型支持視覺信號輸入，并通過設(shè)計訓練過程，讓模型具備對視覺信號的細粒度感知和理解能力。Qwen-VL支持的圖像輸入分辨率為448，此前開源的LVLM模型通常僅支持224分辨率。在Qwen-VL 的基礎(chǔ)上，通義千問團隊使用對齊機制，打造了基于LLM的視覺AI助手Qwen-VL-Chat，可讓開發(fā)者快速搭建具備多模態(tài)能力的對話應(yīng)用。

在四大類多模態(tài)任務(wù)（Zero-shot

Caption/VQA/DocVQA/Grounding）的標準英文測評中，Qwen-VL取得了同等尺寸開源LVLM的最好效果。為了測試模型的多模態(tài)對話能力，通義千問團隊構(gòu)建了一套基于GPT-4打分機制的測試集“試金石”，對Qwen-VL-Chat及其他模型進行對比測試，Qwen-VL-Chat在中英文的對齊評測中均取得了開源LVLM最好結(jié)果。

8月初，阿里云開源通義千問70億參數(shù)通用模型Qwen-7B和對話模型Qwen-7B-Chat，成為國內(nèi)首個加入大模型開源行列的大型科技企業(yè)。通義千問開源模型剛一上線就廣受關(guān)注，當周沖上HuggingFace趨勢榜單，不到一個月在GitHub收獲3400多星，模型累計下載量已突破40萬。

開源地址：

ModelScope魔搭社區(qū)：

Qwen-VL https://modelscope.cn/models/qwen/Qwen-VL/summary

Qwen-VL-Chat https://modelscope.cn/models/qwen/Qwen-VL-Chat/summary

模型體驗：https://modelscope.cn/studios/qwen/Qwen-VL-Chat-Demo/summary

HuggingFace：

Qwen-VL https://huggingface.co/Qwen/Qwen-VL

Qwen-VL-Chat https://huggingface.co/Qwen/Qwen-VL-Chat

GitHub：

https://github.com/QwenLM/Qwen-VL

技術(shù)論文地址：

https://arxiv.org/abs/2308.12966

免責聲明：此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章，所有文字和圖片版權(quán)歸作者所有，且僅代表作者個人觀點，與極客網(wǎng)無關(guān)。文章僅供讀者參考，并請自行核實相關(guān)內(nèi)容。投訴郵箱：editor@fromgeek.com。

免責聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關(guān)資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

阿里云通義千問開源第二波！大規(guī)模視覺語言模型Qwen-VL上線魔搭社區(qū)

下一篇

阿里云通義千問開源第二波！大規(guī)模視覺語言模型Qwen-VL上線魔搭社區(qū)

下一篇

阿里云通義千問開源第二波！大規(guī)模視覺語言模型Qwen-VL上線魔搭社區(qū)