近日,由顏水成教授帶隊,昆侖萬維2050全球研究院、新加坡國立大學、新加坡南洋理工大學團隊聯(lián)合發(fā)布并開源了Vitron通用像素級視覺多模態(tài)大語言模型。
這是一款重磅的通用視覺多模態(tài)大模型,支持從視覺理解到視覺生成、從低層次到高層次的一系列視覺任務,解決了困擾大語言模型產(chǎn)業(yè)已久的圖像/視頻模型割裂問題,提供了一個全面統(tǒng)一靜態(tài)圖像與動態(tài)視頻內容的理解、生成、分割、編輯等任務的像素級通用視覺多模態(tài)大模型,為下一代通用視覺大模型的終極形態(tài)奠定了基礎,也標志著大模型邁向通用人工智能(AGI)的又一大步。
Vitron作為一個統(tǒng)一的像素級視覺多模態(tài)大語言模型,實現(xiàn)了從低層次到高層次的視覺任務的全面支持,能夠處理復雜的視覺任務,并理解和生成圖像和視頻內容,提供了強大的視覺理解和任務執(zhí)行能力。同時,Vitron支持與用戶的連續(xù)操作,實現(xiàn)了靈活的人機互動,展示了通向更統(tǒng)一的視覺多模態(tài)通用模型的巨大潛力。
Vitron相關的論文、代碼和Demo已全部公開,其在綜合性、技術創(chuàng)新、人機交互和應用潛力等方面展現(xiàn)出的獨特優(yōu)勢和潛力,不僅推動了多模態(tài)大模型的發(fā)展,還為未來的視覺大模型研究提供了一個新的方向。
一直以來,昆侖萬維2050全球研究院都致力于打造一家面向未來世界的卓越科學研究機構,與科學社區(qū)共同跨越“奇點”,探索未知世界,創(chuàng)造美好未來。此前,昆侖萬維2050全球研究院已經(jīng)發(fā)布并開源了數(shù)字智能體研發(fā)工具包AgentStudio,未來,研究院還將不斷推動人工智能技術突破,為中國人工智能生態(tài)建設貢獻力量。
當前視覺大語言模型(LLMs)的發(fā)展取得了喜人進展。社區(qū)越來越相信,構建更通用、更強大的多模態(tài)大模型(MLLMs)將會是通向通用人工智能(AGI)的必經(jīng)之路。但在向多模態(tài)通用大模型(Generalist)的邁進過程中,目前仍存在一些關鍵挑戰(zhàn)。比如很大一部分工作都沒有實現(xiàn)細粒度像素級別的視覺理解,或者缺乏對圖像和視頻的統(tǒng)一支持。抑或對于各種視覺任務的支持不充分,離通用大模型相差甚遠。
為了填補這個空白,近日,昆侖萬維2050全球研究院、新加坡國立大學、新加坡南洋理工大學團隊聯(lián)合發(fā)布開源了Vitron通用像素級視覺多模態(tài)大語言模型。Vitron支持從視覺理解到視覺生成、從低層次到高層次的一系列視覺任務,包括靜態(tài)圖像和動態(tài)視頻內容進行全面的理解、生成、分割和編輯等任務。
上圖綜合描繪了Vitron在四大視覺相關任務的功能支持,以及其關鍵優(yōu)勢。Vitron還支持與用戶的連續(xù)操作,實現(xiàn)靈活的人機互動。該項目展示了面向更統(tǒng)一的視覺多模態(tài)通用模型的巨大潛力,為下一代通用視覺大模型的終極形態(tài)奠定了基礎。
Vitron相關論文、代碼、Demo目前已全部公開。
論文標題:Vitron: A Unified Pixel-level Vision LLM for Understanding, Generating, Segmenting, Editing
項目主頁&Demo:https://vitron-llm.github.io/
論文鏈接:https://is.gd/aGu0VV
開源代碼:https://github.com/SkyworkAI/Vitron
01. 大一統(tǒng)的終極多模態(tài)大語言模型
近年來,大語言模型(LLMs)展現(xiàn)出了前所未有的強大能力,其被逐漸驗證為乃是通向AGI的技術路線。而多模態(tài)大語言模型(MLLMs)在多個社區(qū)火爆發(fā)展且迅速出圈,通過引入能進行視覺感知的模塊,擴展純語言基礎LLMs至MLLMs,眾多在圖像理解方面強大卓越的MLLMs被研發(fā)問世,例如BLIP-2、LLaVA、MiniGPT-4等等。與此同時,專注于視頻理解的MLLMs也陸續(xù)面世,如VideoChat、Video-LLaMA和Video-LLaVA等等。
隨后,研究人員主要從兩個維度試圖進一步擴展MLLMs的能力。一方面,研究人員嘗試深化MLLMs對視覺的理解,從粗略的實例級理解過渡到對圖像的像素級細粒度理解,從而實現(xiàn)視覺區(qū)域定位(Regional Grounding)能力,如GLaMM、PixelLM、NExT-Chat和MiniGPT-v2等。另一方面,研究人員嘗試擴展MLLMs可以支持的視覺功能。部分研究已經(jīng)開始研究讓MLLMs不僅理解輸入視覺信號,還能支持生成輸出視覺內容。比如,GILL、Emu等MLLMs能夠靈活生成圖像內容,以及GPT4Video和NExT-GPT實現(xiàn)視頻生成。
目前人工智能社區(qū)已逐漸達成一致,認為視覺MLLMs的未來趨勢必然會朝著高度統(tǒng)一、能力更強的方向發(fā)展。然而,盡管社區(qū)開發(fā)了眾多的MLLMs,但仍然存在明顯的鴻溝。
首先,幾乎所有現(xiàn)有的視覺LLMs將圖像和視頻視為不同的實體,要么僅支持圖像,要么僅支持視頻。研究人員主張,視覺應該同時包含了靜態(tài)圖像和動態(tài)視頻兩個方面的內涵——這兩者都是視覺世界的核心組成,在大多數(shù)場景中甚至可以互換。所以,需要構建一個統(tǒng)一的MLLM框架能夠同時支持圖像和視頻模態(tài)。
其次,目前MLLMs對視覺功能的支持還有所不足。大多數(shù)模型僅能進行理解,或者最多生成圖像或視頻。研究人員認為,未來的MLLMs應該是一個通用大語言模型,能覆蓋更廣泛的視覺任務和操作范圍,實現(xiàn)對所有視覺相關任務的統(tǒng)一支持,達到“one for all”的能力。這點對實際應用尤其是在經(jīng)常涉及一系列迭代和交互操作的視覺創(chuàng)作中至關重要。例如,用戶通常首先從文本開始,通過文生圖,將一個想法轉化為視覺內容;然后通過進一步的細粒度圖像編輯來完善初始想法,添加更多細節(jié);接著,通過圖像生成視頻來創(chuàng)建動態(tài)內容;最后,進行幾輪迭代交互,如視頻編輯,完善創(chuàng)作。
上表簡單地歸納了現(xiàn)有的視覺MLLM的能力(只代表性地囊括了部分模型,覆蓋不完整)。為了彌補這些差距,該團隊提出一種通用的像素級視覺MLLM——Vitron。
02. Vitron系統(tǒng)架構:三大關鍵模塊
Vitron整體框架如下圖所示。Vitron采用了與現(xiàn)有相關MLLMs相似的架構,包括三個關鍵部分:1) 前端視覺&語言編碼模塊,2) 中心LLM理解和文本生成模塊,以及3) 后端用戶響應和模塊調用以進行視覺操控模塊。
前端模塊:視覺-語言編碼。為了感知圖像和視頻模態(tài)信號,并支持細粒度用戶視覺輸入,Vitron集成了圖像編碼器、視頻編碼器、區(qū)域框/草圖編碼器。
中心模塊:核心LLM。Vitron使用的是Vicuna(7B,1.5),來實現(xiàn)理解、推理、決策制定和多輪用戶交互。
后端模塊:用戶響應與模塊調用。Vitron采用以文本為中心的調用策略,整合現(xiàn)成的幾個強大先進(SoTA)的圖像和視頻處理模塊,用于解碼和執(zhí)行從低層到高層的一系列視覺終端任務。通過采用以文本為中心的模塊集成調用方法,Vitron不僅實現(xiàn)了系統(tǒng)統(tǒng)一,還確保了對齊效率和系統(tǒng)可擴展性。
03. Vitron模型訓練三大階段
基于上述架構,再對Vitron進行訓練微調,以賦予其強大的視覺理解和任務執(zhí)行能力。模型訓練主要囊括三個不同的階段。
步驟一:視覺-語言整體對齊學習。將輸入的視覺語言特征映射到一個統(tǒng)一的特征空間中,從而使其能夠有效理解輸入的多模態(tài)信號。這是一種粗粒度的視覺-語言對齊學習,可以讓系統(tǒng)具備整體上有效處理傳入的視覺信號。研究人員采用了現(xiàn)存的圖像-標題對(CC3M)、視頻-標題對(Webvid)和區(qū)域-標題對(RefCOCO)的數(shù)據(jù)集進行訓練。
步驟二:細粒度的時空視覺定位指令微調。系統(tǒng)采用了調用外部模塊方式來執(zhí)行各種像素級視覺任務,但LLM本身并未經(jīng)過任何細粒度的視覺訓練,這將會阻礙了系統(tǒng)實現(xiàn)真正的像素級視覺理解。為此,研究人員提出了一種細粒度的時空視覺定位指令微調訓練,核心思想是使LLM能夠定位圖像的細粒度空間性和視頻的具體時序特性。
步驟三:輸出端面向命令調用的指令微調。上述第二階段的訓練賦予了LLM和前端編碼器在像素級別理解視覺的能力。這最后一步,面向命令調用的指令微調,旨在讓系統(tǒng)具備精確執(zhí)行命令的能力,允許LLM生成適當且正確的調用文本。由于不同的終端視覺任務可能需要不同的調用命令,為了統(tǒng)一這一點,研究人員提出將LLM的響應輸出標準化為結構化文本格式,其中包括:
用戶響應輸出,直接回復用戶的輸入。
模塊名稱,指示將要執(zhí)行的功能或任務。
調用命令,觸發(fā)任務模塊的元指令。
區(qū)域(可選輸出),指定某些任務所需的細粒度視覺特征,例如在視頻跟蹤或視覺編輯中,后端模塊需要這些信息。對于區(qū)域,基于LLM的像素級理解,將輸出由坐標描述的邊界框。
04. 評估實驗
研究人員基于Vitron在22個常見的基準數(shù)據(jù)集、12個圖像/視頻視覺任務上進行了廣泛的實驗評估。Vitron展現(xiàn)出在四大主要視覺任務群組(分割、理解、內容生成和編輯)中的強大能力,與此同時其具備靈活的人機交互能力。以下代表性地展示了一些定性比較結果:
Vision Segmentation
Results of image referring image segmentation
Fine-grained Vision Understanding
Results of image referring expression comprehension.
Results on video QA.
Vision Generation
Text-to-Image Generation Text-to-Video generation Image-to-Video generation
Vision Editing
Image editing results
具體更多詳細實驗內容和細節(jié)請移步論文。
05. 未來方向展望
總體上,這項工作展示了研發(fā)大一統(tǒng)的視覺多模態(tài)通用大模型的巨大潛力,為下一代視覺大模型的研究奠定了一個新的形態(tài),邁出了這個方向的第一步。盡管團隊所提出的Vitron系統(tǒng)表現(xiàn)出強大的通用能力,但依然存在自身的局限性。以下研究人員列出一些未來可進一步探索的方向。
系統(tǒng)架構
Vitron系統(tǒng)仍采用半聯(lián)合、半代理的方式來調用外部工具。雖然這種基于調用的方法便于擴展和替換潛在模塊,但這也意味著這種流水線結構的后端模塊不參與到前端與LLM核心模塊的聯(lián)合學習。這一限制不利于系統(tǒng)的整體學習,這意味著不同視覺任務的性能上限將受到后端模塊的限制。未來的工作應將各種視覺任務模塊整合成一個統(tǒng)一的單元。實現(xiàn)對圖像和視頻的統(tǒng)一理解和輸出,同時通過單一生成范式支持生成和編輯能力,仍然是一個挑戰(zhàn)。目前一種有希望的方式是結合modality-persistent的tokenization, 提升系統(tǒng)在不同輸入和輸出以及各種任務上的統(tǒng)一化。
用戶交互性
與之前專注于單一視覺任務的模型(例如,Stable Diffusion和SEEM)不同,Vitron旨在促進LLM和用戶之間的深度交互,類似于行業(yè)內的OpenAI的DALL-E系列,Midjourney等。實現(xiàn)最佳的用戶交互性是本項工作的核心目標之一。Vitron利用現(xiàn)有的基于語言的LLM,結合適當?shù)闹噶钫{整,以實現(xiàn)一定程度的交互。例如,系統(tǒng)可以靈活地響應用戶輸入的任何預期消息,產(chǎn)生相應的視覺操作結果,而不要求用戶輸入精確匹配后端模塊條件。然而,該工作在增強交互性方面仍有很大的提升空間。例如,從閉源的Midjourney系統(tǒng)汲取靈感,不論LLM在每一步做出何種決定,系統(tǒng)都應積極向用戶提供反饋,以確保其行動和決策與用戶意圖一致。
模態(tài)能力
當前,Vitron集成了一個7B的Vicuna模型,其可能對其理解語言、圖像和視頻的能力會產(chǎn)生某些限制。未來的探索方向可以發(fā)展一個全面的端到端系統(tǒng),比如擴大模型的規(guī)模,以實現(xiàn)對視覺的更徹底和全面的理解。此外,應該努力使LLM能夠完全統(tǒng)一圖像和視頻模態(tài)的理解。
免責聲明:此文內容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關。文章僅供讀者參考,并請自行核實相關內容。投訴郵箱:editor@fromgeek.com。
- 蜜度索驥:以跨模態(tài)檢索技術助力“企宣”向上生長
- 折疊屏2024的新東西、好東西、舊東西
- “客服來電”懷疑有詐?抖音上線“驗證助手”幫助用戶防范詐騙
- 葉國富觀點很精彩,奈何名創(chuàng)優(yōu)品說得好聽、做得難看?
- 算力荒緩解,自主化智算還有必要嗎?
- 波司登千元鵝絨褲僅3克鵝絨,警惕被“國貨品牌”割韭菜
- 中國電車進入10萬級時代,2025年決生死,但日本車先頂不住了
- 谷歌成為手機市場的殺手,國產(chǎn)手機或被迫擁護國產(chǎn)操作系統(tǒng)
- 董明珠與小米的二次戰(zhàn)爭
- 芯片不賣中國,美芯無處賣了,本來不要的市場偷偷地賣,后悔莫及
- 僅售999元 月底開售 閃極打響AI眼鏡量產(chǎn)發(fā)令槍
免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產(chǎn)權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。