北大學(xué)生團(tuán)隊(duì)打造感知生成一體化多模態(tài)大模型系統(tǒng),讓亞運(yùn)會(huì)展現(xiàn)AI的溫度

在最近的杭州亞運(yùn)會(huì)期間,一位智能“導(dǎo)游”吸引了很多的目光。它可不是一般人,它外觀看上去像一輛小車(chē),四個(gè)輪子在地面上快速靈活地移動(dòng)。上面安裝了機(jī)械臂,整體約一人高,機(jī)械臂上配有攝像頭,以及語(yǔ)音和顯示界面等交互設(shè)施,使其能夠?qū)χ車(chē)h(huán)境和需要執(zhí)行的任務(wù)進(jìn)行識(shí)別與理解。

據(jù)悉,這臺(tái)“導(dǎo)游”機(jī)器人系統(tǒng)是由北京大學(xué)計(jì)算機(jī)學(xué)院HMI團(tuán)隊(duì)研發(fā),它結(jié)合了當(dāng)前最前沿的AI技術(shù)——多模態(tài)大模型和具身智能,在亞運(yùn)會(huì)期間,為視障人士提供引領(lǐng)和導(dǎo)航等幫助,并可解析視障人士的需求并完成相應(yīng)任務(wù),如幫助他們撿拾掉落的物品等,以其獨(dú)特的方式,為亞運(yùn)會(huì)的成功舉辦貢獻(xiàn)了力量。

【圖說(shuō)】北京大學(xué)團(tuán)隊(duì)研發(fā)的多模態(tài)智能愛(ài)心助手在亞運(yùn)會(huì)期間服務(wù)

「我們研發(fā)的這款多模態(tài)智能愛(ài)心助手,是基于團(tuán)隊(duì)自研的感知生成一體化多模態(tài)大模型,該系統(tǒng)能夠精準(zhǔn)地感知與理解視覺(jué)場(chǎng)景,生成準(zhǔn)確豐富的語(yǔ)言描述,實(shí)現(xiàn)從人類(lèi)復(fù)雜指令到具體行動(dòng)的轉(zhuǎn)化,并基于端云協(xié)作大小模型的協(xié)同高效微調(diào),提升模型的泛化性,使其可以快速適應(yīng)新場(chǎng)景?!贡本┐髮W(xué)計(jì)算機(jī)學(xué)院仉尚航研究員介紹。

「多模態(tài)大模型能夠根據(jù)語(yǔ)言、2D、3D等多種輸入模態(tài),解析接收到的指令與周?chē)h(huán)境,進(jìn)行任務(wù)拆解并生成相應(yīng)動(dòng)作,完成服務(wù)任務(wù)。希望我們的研究可以用科技創(chuàng)新賦能弱勢(shì)群體,讓更多人感受未來(lái)科技的溫暖,體驗(yàn)到亞運(yùn)會(huì)的精彩?!?/p>

「多模態(tài)大模型+具身智能」系統(tǒng)首次落地大型體育賽事

「亞運(yùn)會(huì)上有很多尖端科技的應(yīng)用,很大程度上增強(qiáng)了運(yùn)動(dòng)員的比賽體驗(yàn)和觀眾的觀賽體驗(yàn)?!贡本┐髮W(xué)學(xué)生莊棨寧表示:「但在深入研究和觀察后,我們發(fā)現(xiàn)對(duì)于特定的觀眾群體,如少數(shù)民族和殘疾人士,當(dāng)前的技術(shù)并沒(méi)有充分滿足他們的需求。少數(shù)民族的觀眾可能面臨語(yǔ)言障礙,而殘疾人士可能需要更多的輔助工具或特別的服務(wù),以便更好地享受比賽?!?/p>

為了解決這一問(wèn)題,團(tuán)隊(duì)便萌生了研發(fā)一個(gè)專(zhuān)門(mén)服務(wù)殘障人士觀賽的AI系統(tǒng)的想法?!付嗄B(tài)大模型是我們課題組的重點(diǎn)研究方向,我們就在想有沒(méi)有可能把多模態(tài)大模型和具身智能結(jié)合起來(lái),為機(jī)器人賦予更加智能的大腦,使其可以將人類(lèi)復(fù)雜需求轉(zhuǎn)化為具體行動(dòng)指令?!?/p>

「這樣,我們的愛(ài)心助手可以更好地與用戶(hù)互動(dòng),理解他們的需求,并快速做出有針對(duì)性的響應(yīng),更好地為亞運(yùn)會(huì)弱勢(shì)觀眾群體服務(wù),也讓更多人能夠親身體驗(yàn)到AI科技所帶來(lái)的變革與溫暖。」

在仉尚航研究員的指導(dǎo)和支持下,學(xué)生們迅速行動(dòng)起來(lái),并且追求了一種創(chuàng)新的路徑,即設(shè)計(jì)「感知生成一體化的多模態(tài)大模型」,以實(shí)現(xiàn)對(duì)各種視覺(jué)場(chǎng)景的精準(zhǔn)地感知與理解,并生成準(zhǔn)確豐富的語(yǔ)言描述。

【圖說(shuō)】:仉尚航研究員(一排左四)和學(xué)生團(tuán)隊(duì)成員

同時(shí),團(tuán)隊(duì)還將多模態(tài)大模型與具身智能相結(jié)合,由于機(jī)器人將面對(duì)不同場(chǎng)景,需要具備快速適應(yīng)新場(chǎng)景的泛化能力,為此,團(tuán)隊(duì)設(shè)計(jì)了基于端云協(xié)作的大小模型協(xié)同高效微調(diào),提升模型的泛化性,使其可以持續(xù)適應(yīng)不同的場(chǎng)景。

在本次亞運(yùn)會(huì)期間大顯身手的多模態(tài)愛(ài)心助手,基于團(tuán)隊(duì)自研的感知生成一體化通用多模態(tài)大模型,其核心是一個(gè)參數(shù)量為7B/13B的多模態(tài)大模型,該模型集成了視覺(jué)基礎(chǔ)模型的泛化感知能力和大語(yǔ)言模型的涌現(xiàn)能力。

例如,聽(tīng)到用戶(hù)說(shuō)「我渴了」之后,機(jī)器人能自動(dòng)轉(zhuǎn)身去拿過(guò)桌上的一瓶水送到用戶(hù)手中。在這個(gè)看似簡(jiǎn)單的過(guò)程中,實(shí)際上涉及了一系列復(fù)雜的子任務(wù):

. 機(jī)器人首先需要捕獲有人說(shuō)「我渴了」這個(gè)語(yǔ)音信號(hào),然后通過(guò)語(yǔ)音識(shí)別技術(shù)將其轉(zhuǎn)換為文字。

. 機(jī)器人需要理解「我渴了」這句話的含義,也就是說(shuō),理解說(shuō)話者此時(shí)需要水。

. 然后,機(jī)器人需要知道在哪里能找到水,而這需要它對(duì)環(huán)境有一個(gè)良好的感知,利用計(jì)算機(jī)視覺(jué)技術(shù),識(shí)別和定位瓶裝水。

. 在確定了瓶裝水的位置后,機(jī)器人需要規(guī)劃一條到達(dá)那里的路徑,這涉及到路徑規(guī)劃算法。

. 完成路徑規(guī)劃后,機(jī)器人需要控制自身的動(dòng)作,移動(dòng)到瓶裝水的位置。

. 到達(dá)水瓶的位置后,機(jī)器人需要準(zhǔn)確抓取瓶裝水,這涉及視覺(jué)檢測(cè)、機(jī)器人控制系統(tǒng)和抓取的相關(guān)技術(shù)。

. 抓取到水后,機(jī)器人需要規(guī)劃返回的路徑并控制自身的動(dòng)作,將水送到說(shuō)話者的手中。

每一個(gè)子任務(wù)都需要大量的研究和工程實(shí)踐。不僅如此,機(jī)器人還需要能夠處理在訓(xùn)練數(shù)據(jù)中未曾出現(xiàn)過(guò)的新情況,也就是說(shuō),模型需要具有強(qiáng)大的泛化能力,能夠在新的、未知的環(huán)境中有效地工作。

為了提升機(jī)器人在開(kāi)放環(huán)境下的持續(xù)性泛化能力,團(tuán)隊(duì)構(gòu)建了一個(gè)端云協(xié)作的持續(xù)學(xué)習(xí)系統(tǒng)。這一系統(tǒng)的設(shè)計(jì)旨在兼顧終端計(jì)算的個(gè)性化、隱私保護(hù)和低通信成本等優(yōu)勢(shì),同時(shí)也充分利用云端計(jì)算的大規(guī)模計(jì)算資源、大量標(biāo)注數(shù)據(jù)以及卓越的泛化能力。通過(guò)高效的數(shù)據(jù)傳輸和合理的資源分配,實(shí)現(xiàn)了高度泛化的大小模型協(xié)同學(xué)習(xí)。

仉尚航研究員表示,「在終端設(shè)備上,我們部署了經(jīng)過(guò)壓縮的多模態(tài)模型,該模型在進(jìn)行推理時(shí)能夠同時(shí)進(jìn)行不確定性估計(jì)。這一智能策略允許我們主動(dòng)篩選出不確定性較高的樣本,并將它們傳送回云端。這些高不確定性的樣本通常涉及新的數(shù)據(jù)分布,來(lái)自新場(chǎng)景、新環(huán)境或新事件等情況,這些都是在開(kāi)放環(huán)境下需要特別重點(diǎn)識(shí)別和理解的情形?!?/p>

團(tuán)隊(duì)成員劉家銘同學(xué)也提及,「一旦這些高不確定性樣本到達(dá)云端,我們利用未壓縮的多模態(tài)大模型對(duì)它們進(jìn)行深度分析和學(xué)習(xí)。通過(guò)知識(shí)蒸餾和高效微調(diào)等技術(shù)手段,我們將從這些難例樣本中提取的知識(shí)傳授給終端上的壓縮模型。這個(gè)過(guò)程大幅度提高了壓縮后的多模態(tài)模型的泛化能力,使機(jī)器人在開(kāi)放世界中能夠不斷適應(yīng)和理解各種場(chǎng)景?!?/p>

團(tuán)隊(duì)提出的端云協(xié)作持續(xù)學(xué)習(xí)系統(tǒng),在設(shè)計(jì)和研發(fā)上充分發(fā)揮了云端和終端計(jì)算的優(yōu)勢(shì),通過(guò)智能的樣本篩選和知識(shí)傳遞,實(shí)現(xiàn)了機(jī)器人在開(kāi)放環(huán)境中持續(xù)學(xué)習(xí)和適應(yīng)的目標(biāo)。這一創(chuàng)新的方法顯著提升了多模態(tài)大模型的泛化性與高效性,為開(kāi)放環(huán)境中的機(jī)器人系統(tǒng)賦予了更強(qiáng)的智能。

科技創(chuàng)新賦能弱勢(shì)群體,讓亞運(yùn)會(huì)展現(xiàn)「AI的溫度」

深度學(xué)習(xí)大模型技術(shù)的突破式發(fā)展帶來(lái)了人工智能研究的革命性變化。預(yù)訓(xùn)練大模型,如 ChatGPT和 GPT-4,成為 AIGC 系統(tǒng)的核心。在基礎(chǔ)設(shè)施支撐、頂層設(shè)計(jì)優(yōu)化、下游需求旺盛三輪驅(qū)動(dòng)下,人工智能大模型迎來(lái)了良好的發(fā)展契機(jī)。

不過(guò),大模型研究仍處于研究的初期階段,仍存在關(guān)鍵科學(xué)難題和卡脖子技術(shù)亟待解決,包括如何同時(shí)處理多種輸入模態(tài),如何進(jìn)行大規(guī)模參數(shù)和高效訓(xùn)練,如何進(jìn)行遷移學(xué)習(xí)和大模型微調(diào),如何進(jìn)行多模態(tài)和多任務(wù)學(xué)習(xí),如何進(jìn)行跨語(yǔ)言融合,如何進(jìn)行人機(jī)協(xié)作等。

團(tuán)隊(duì)這次自研的感知生成一體化通用多模態(tài)大模型,已經(jīng)展現(xiàn)出卓越的一體化處理能力,包括:視覺(jué)問(wèn)答(VQA),能夠?qū)D像進(jìn)行自然語(yǔ)言問(wèn)答;Captioning,能夠?yàn)閳D像生成描述性文本;行為決策與規(guī)劃,具備基于圖像和文本信息進(jìn)行決策和規(guī)劃的能力;以及目標(biāo)檢測(cè),能夠識(shí)別圖像中的特定目標(biāo)或特征。

「多模態(tài)大模型是我們組研究的核心,」北京大學(xué)計(jì)算機(jī)學(xué)院博士后王冠群介紹說(shuō):「目前也取得了一定的成果,除了這次自研的感知生成一體化通用多模態(tài)大模型、大小模型協(xié)同訓(xùn)練與部署,我們還關(guān)注多模態(tài)生成式大模型Agent設(shè)計(jì)、大模型記憶機(jī)制設(shè)計(jì)、面向多場(chǎng)景的智能醫(yī)療多模態(tài)大模型集群、通用大模型適配器等?!?/p>

據(jù)悉,團(tuán)隊(duì)研發(fā)的一體化大模型工具鏈(X-Accessory),旨在降低大模型使用門(mén)檻,促使各行業(yè)從業(yè)者能輕松調(diào)試大模型,在各自專(zhuān)有領(lǐng)域進(jìn)化大模型的能力以靈活適配專(zhuān)有需求。「我們?cè)谟布洗钶d高算力一體機(jī),同時(shí)提供直通云端調(diào)取云算力服務(wù)的選項(xiàng),軟件上搭載X-Accessory工具鏈,為用戶(hù)提供靈活的大模型調(diào)試和應(yīng)用環(huán)境。該工具鏈可用于訓(xùn)練和部署各類(lèi)任務(wù),包括但不限于金融知識(shí)問(wèn)答、交通任務(wù)調(diào)度、醫(yī)療推薦等垂直領(lǐng)域的專(zhuān)有任務(wù)?!?/p>

基于多模態(tài)大模型,在北京大學(xué)計(jì)算機(jī)學(xué)院黃鐵軍教授及仉尚航研究員的指導(dǎo)下,團(tuán)隊(duì)還為本次亞運(yùn)會(huì)研發(fā)了一款智能AI賽事解說(shuō)系統(tǒng)。黃鐵軍教授提出了「脈沖連續(xù)攝影原理」,直接用每個(gè)像素的定額積分時(shí)間表達(dá)光強(qiáng),相機(jī)速度取決于電路能夠?qū)崿F(xiàn)的最短信號(hào)讀取時(shí)間,顛覆了持續(xù)近兩個(gè)世紀(jì)的定時(shí)曝光成像原理,解決了傳統(tǒng)相機(jī)不能兼顧超高速、高動(dòng)態(tài)的問(wèn)題,被中國(guó)電子學(xué)會(huì)鑒定認(rèn)為是「超高速成像和機(jī)器視覺(jué)領(lǐng)域的重大原始創(chuàng)新,超高速成像技術(shù)達(dá)到國(guó)際領(lǐng)先水平」。有了高速脈沖相機(jī),就能夠同時(shí)實(shí)現(xiàn)超高速、高動(dòng)態(tài)、全畫(huà)幅連續(xù)成像。在此基礎(chǔ)上,團(tuán)隊(duì)通過(guò)自研的 X-Accessory一體化大模型工具鏈,設(shè)計(jì)了多模態(tài)多語(yǔ)種視頻解說(shuō)系統(tǒng),在亞運(yùn)會(huì)期間用于乒乓球、跆拳道、跳水、體操等賽事。這個(gè)解說(shuō)系統(tǒng)的特點(diǎn)在于,它不僅能夠理解和分析正在進(jìn)行的比賽,生成實(shí)時(shí)的解說(shuō)內(nèi)容,還可以根據(jù)觀眾的喜好提供個(gè)性化的解說(shuō)服務(wù),包括將解說(shuō)內(nèi)容翻譯成多種語(yǔ)言,包括維吾爾語(yǔ)、阿拉伯語(yǔ)等,從而為全球各地的觀眾提供豐富的觀賽體驗(yàn)。

【圖說(shuō)】北京大學(xué)團(tuán)隊(duì)研發(fā)的智能賽事解說(shuō)系統(tǒng)

在高速脈沖相機(jī)的加持下,能夠清晰成像高速運(yùn)動(dòng)場(chǎng)景,捕捉比賽中的關(guān)鍵時(shí)刻,針對(duì)賽場(chǎng)畫(huà)面進(jìn)行多個(gè)語(yǔ)種的解說(shuō)和報(bào)道,讓更多的人了解亞運(yùn),特別是提升國(guó)內(nèi)少數(shù)民族及國(guó)外多語(yǔ)種國(guó)家的賽事體驗(yàn)。

除此之外,團(tuán)隊(duì)還進(jìn)行多模態(tài)生成式大模型Agent設(shè)計(jì)。當(dāng)前,多數(shù)模型都是單模態(tài)的,無(wú)法有效地結(jié)合視覺(jué)、聽(tīng)覺(jué)和文本等多種模態(tài)信息。這種局限性在復(fù)雜的實(shí)際場(chǎng)景,如虛擬助手、機(jī)器人交互和智慧城市中,可能導(dǎo)致效果并不理想?!敢虼?我們開(kāi)發(fā)了一種多模態(tài)生成式大模型Agent,將各種模態(tài)的優(yōu)點(diǎn)結(jié)合起來(lái),例如視覺(jué)的細(xì)節(jié)捕捉能力、聽(tīng)覺(jué)的時(shí)序特性和文本的結(jié)構(gòu)化知識(shí)。這樣的綜合性設(shè)計(jì)將有助于推動(dòng)生成式模型向更加實(shí)用和高效的方向發(fā)展,滿足未來(lái)多種復(fù)雜應(yīng)用場(chǎng)景的需求。」

在更復(fù)雜的應(yīng)用場(chǎng)景,團(tuán)隊(duì)還研究過(guò)面向多場(chǎng)景的智能醫(yī)療多模態(tài)大模型集群。他們?cè)O(shè)計(jì)和實(shí)現(xiàn)了一組智能醫(yī)療多模態(tài)大模型集群,包括面向患者的個(gè)性化醫(yī)療知識(shí)問(wèn)答多模態(tài)時(shí)序大模型、面向醫(yī)生的臨床影像報(bào)告生成多模態(tài)大模型和面向?qū)г\場(chǎng)景的檢索增強(qiáng)大語(yǔ)言模型,使大模型技術(shù)適配臨床場(chǎng)景,滿足患者-醫(yī)生-醫(yī)院多方訴求,解決行業(yè)痛點(diǎn),推動(dòng)大模型在醫(yī)療領(lǐng)域的落地應(yīng)用。

在這個(gè)科技日新月異的時(shí)代,團(tuán)隊(duì)以其深厚的專(zhuān)業(yè)知識(shí)和創(chuàng)新精神,為亞運(yùn)會(huì)提供了強(qiáng)大的科技支持,也為弱勢(shì)群體帶來(lái)了實(shí)質(zhì)性的幫助。

未來(lái),團(tuán)隊(duì)將繼續(xù)秉持科技向善的原則,不斷深化在多模態(tài)大模型的研究和實(shí)踐,將AI技術(shù)的潛力最大限度地發(fā)揮出來(lái),為解決社會(huì)問(wèn)題、改善人們的生活提供更強(qiáng)大的支持。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )