顛覆性的視頻理解新突破!達(dá)摩院開源VideoLLaMA3驚艷來襲
隨著科技的飛速發(fā)展,視頻數(shù)據(jù)已成為我們?nèi)粘I钪胁豢苫蛉钡囊徊糠?。為了更好地理解和處理這些海量的視頻數(shù)據(jù),達(dá)摩院最新開源了VideoLLaMA3模型,其驚艷表現(xiàn)令人矚目。該模型以圖像為中心,構(gòu)建了新一代的多模態(tài)視頻-語言模型,其在通用視頻理解、時(shí)間推理和長視頻理解等核心維度上的表現(xiàn)均超越了多數(shù)基線模型。
VideoLLaMA3模型的出色表現(xiàn),得益于其以圖像為中心的訓(xùn)練范式。這種訓(xùn)練范式主要包含四個(gè)關(guān)鍵內(nèi)容:視覺編碼器適配、視覺語言對齊、多任務(wù)微調(diào)以及視頻微調(diào)。通過這些方法,VideoLLaMA3在框架設(shè)計(jì)和訓(xùn)練過程中,實(shí)現(xiàn)了對不同分辨率圖像和視頻的處理,并增強(qiáng)了模型對多樣場景的理解和特征提取能力。
高質(zhì)量的數(shù)據(jù)在VideoLLaMA3的性能提升中起到了關(guān)鍵作用。首先,團(tuán)隊(duì)構(gòu)建了包含700萬圖像-字幕對的VL3Syn7M數(shù)據(jù)集,為模型提供了豐富的高質(zhì)量訓(xùn)練數(shù)據(jù)。此外,Aspect Ratio Filtering、Aesthetic Score Filtering以及Text-Image Similarity Calculation with Coarse Captioning等數(shù)據(jù)過濾和增強(qiáng)策略,確保了剩余圖像內(nèi)容與描述的緊密相關(guān)性,提升了模型學(xué)習(xí)到的圖文對的質(zhì)量和代表性。
在Vision Encoder Adaptation階段,團(tuán)隊(duì)整合了場景圖像、文檔識(shí)別圖像和少量場景文本圖像,以增強(qiáng)模型對多樣場景的理解和特征提取能力。而在Vision-Language Alignment階段,高質(zhì)量的數(shù)據(jù)微調(diào)則涵蓋了多種中英文數(shù)據(jù)集、細(xì)粒度數(shù)據(jù)以及大量高質(zhì)量純文本數(shù)據(jù),進(jìn)一步提升了模型對圖像細(xì)節(jié)的理解。
在Multi-task Fine-tuning階段,團(tuán)隊(duì)使用了指令跟隨數(shù)據(jù)混合覆蓋多種任務(wù),涵蓋了圖像、文檔、圖表、OCR等不同類別的數(shù)據(jù),并使用大量純文本數(shù)據(jù)提升模型處理涉及視覺和文本輸入的指令跟隨任務(wù)的能力。而在Video-centric Fine-tuning階段,收集了多個(gè)開源數(shù)據(jù)集中帶注釋的視頻數(shù)據(jù),并通過合成特定方面的密集字幕和問答對擴(kuò)展了數(shù)據(jù)規(guī)模。
VideoLLaMA3模型的出色表現(xiàn)不僅體現(xiàn)在理論成果上,更在實(shí)際應(yīng)用中得到了驗(yàn)證。目前,該模型已經(jīng)在HuggingFace上提供了圖像、視頻理解的demo。例如,我們給一張《蒙娜麗莎的微笑》的圖片,向VideoLLaMA3提問“討論這幅畫在藝術(shù)界的歷史影響和意義”,其回答精準(zhǔn)且簡約。再來看下視頻理解的demo,我們的問題是“視頻中有什么不尋常之處”,VideoLLaMA3的回答簡潔而精準(zhǔn)。
總的來說,VideoLLaMA3模型的開源無疑將推動(dòng)視頻理解領(lǐng)域的發(fā)展。達(dá)摩院在VideoLLaMA3上的創(chuàng)新和努力,無疑為整個(gè)領(lǐng)域樹立了一個(gè)新的標(biāo)桿。我們期待未來VideoLLaMA3在更多實(shí)際應(yīng)用場景中的表現(xiàn),也相信會(huì)有更多的研究者會(huì)利用這個(gè)強(qiáng)大的工具來推動(dòng)視頻理解領(lǐng)域的發(fā)展。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )