創(chuàng)造歷史!商湯科技聯(lián)合團(tuán)隊(duì)獲CVPR最佳論文,推出首個(gè)“感知決策一體化”自動(dòng)駕駛通用大模型

一篇最佳論文,一篇最佳論文候選,共計(jì)54篇論文被接收,商湯科技及聯(lián)合實(shí)驗(yàn)室交出CVPR 2023閃亮的成績(jī)單。

6月18日-22日,全球計(jì)算機(jī)視覺(jué)盛會(huì)CVPR 2023(Computer Vision and Pattern Recognition)在加拿大溫哥華舉行。本屆CVPR論文投稿總量達(dá)9155篇,最終共有2369篇論文被接收。最佳論文候選為12篇,接收率僅為0.13%。

商湯兩篇論文登上最佳論文候選名單(Award Candidate),其中自動(dòng)駕駛研究論文《Planning-oriented Autonomous Driving》(以路徑規(guī)劃為導(dǎo)向的自動(dòng)駕駛)斬獲本屆CVPR最佳論文獎(jiǎng)(Best Paper Award)。

這是CVPR歷史上第一篇以自動(dòng)駕駛為主題的最佳論文,該論文首次提出感知決策一體化的自動(dòng)駕駛通用大模型UniAD,開(kāi)創(chuàng)了以全局任務(wù)為目標(biāo)的自動(dòng)駕駛大模型架構(gòu)先河, 標(biāo)志著自動(dòng)駕駛技術(shù)的重要突破, 為自動(dòng)駕駛技術(shù)與產(chǎn)業(yè)的發(fā)展提出了新的方向。

CVPR 2023最佳論文,自動(dòng)駕駛研究獲重要突破

自動(dòng)駕駛技術(shù)高度復(fù)雜,需要融合多學(xué)科領(lǐng)域的知識(shí)和技能,包括傳感器技術(shù)、機(jī)器學(xué)習(xí)、路徑規(guī)劃等方面。自動(dòng)駕駛還需要適應(yīng)不同的道路規(guī)則和交通文化,與車(chē)輛和行人進(jìn)行良好交互,以實(shí)現(xiàn)高度可靠和安全的自動(dòng)駕駛系統(tǒng)。大部分自動(dòng)駕駛相關(guān)的工作都聚焦在具體的某個(gè)模塊,缺少能夠?qū)崿F(xiàn)端到端聯(lián)合優(yōu)化的通用網(wǎng)絡(luò)模型。

論文提出的自動(dòng)駕駛通用算法框架——Unified Autonomous Driving(UniAD)首次將檢測(cè)、跟蹤、建圖、軌跡預(yù)測(cè),占據(jù)柵格預(yù)測(cè)以及規(guī)劃整合到一個(gè)基于Transformer 的端到端網(wǎng)絡(luò)框架下,更高效契合了“多任務(wù)”和“高性能”的特點(diǎn),取得自動(dòng)駕駛技術(shù)研究重要突破。

自動(dòng)駕駛UniAD框架對(duì)比(a)模塊化(b)多任務(wù)模塊(c)端到端自動(dòng)駕駛模塊

商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家、絕影智能汽車(chē)事業(yè)群總裁王曉剛表示,UniAD是業(yè)內(nèi)首個(gè)感知決策一體化的端到端自動(dòng)駕駛解決方案,并且整體系統(tǒng)和性能取得大幅提升,代表了未來(lái)自動(dòng)駕駛技術(shù)的發(fā)展趨勢(shì)。

這種端到端的優(yōu)化在多項(xiàng)關(guān)鍵技術(shù)指標(biāo)上超越了SOTA。比如,多目標(biāo)跟蹤準(zhǔn)確率超越SOTA 20%,車(chē)道線預(yù)測(cè)準(zhǔn)確率提升30%,預(yù)測(cè)運(yùn)動(dòng)位移誤差降低38%,規(guī)劃誤差降低28%。

UniAD 是一項(xiàng)極具創(chuàng)新性的自動(dòng)駕駛技術(shù),且因其具有很大的潛力和應(yīng)用價(jià)值,目前在學(xué)術(shù)界和工業(yè)界都引起了廣泛興趣和關(guān)注。

隨著通用人工智能(AGI)引領(lǐng)的二次革命的到來(lái),以此為基礎(chǔ),期待在未來(lái)能推動(dòng)實(shí)現(xiàn)更高階的自動(dòng)駕駛?cè)斯ぶ悄堋?/p>

CVPR 2023最佳論文候選,加速推動(dòng)AIGC時(shí)代真實(shí)感3D內(nèi)容生成

面向真實(shí) 3D 物體的感知、理解、重建與生成是計(jì)算機(jī)視覺(jué)領(lǐng)域一直倍受關(guān)注的問(wèn)題。由于缺乏大規(guī)模的真實(shí)掃描三維數(shù)據(jù)庫(kù),最近在三維物體建模方面的進(jìn)展大多依賴于合成數(shù)據(jù)集。

為促進(jìn)現(xiàn)實(shí)世界中3D感知、重建和生成的發(fā)展,論文《OmniObject3D: Large-Vocabulary 3D Object Dataset for Realistic Perception, Reconstruction and Generation》提出了OmniObject3D,一個(gè)具有大規(guī)模高質(zhì)量真實(shí)掃描3D物體的大型詞匯3D物體數(shù)據(jù)集,覆蓋近200個(gè)類別、約6000個(gè)三維物體數(shù)據(jù),包括高精表面網(wǎng)格、點(diǎn)云、多視角渲染圖像和實(shí)景采集的視頻,借助專業(yè)掃描設(shè)備保證了物體數(shù)據(jù)的精細(xì)形狀和真實(shí)紋理。

OmniObject3D是目前學(xué)界最大的真實(shí)世界三維掃描模型數(shù)據(jù)集,為未來(lái)三維視覺(jué)研究提供了廣闊空間。

利用該數(shù)據(jù)集,研究人員精心探討了點(diǎn)云識(shí)別、神經(jīng)渲染、表面重建、三維生成等多種學(xué)術(shù)任務(wù)的魯棒性和泛化性,驗(yàn)證其從感知、重建、到生成領(lǐng)域的開(kāi)放應(yīng)用前景,有望在AIGC 時(shí)代推動(dòng)真實(shí)感3D生成方面發(fā)揮至關(guān)重要的作用。持續(xù)引領(lǐng)前沿創(chuàng)新,是商湯在以大裝置SenseCore和大模型為核心的AI基礎(chǔ)設(shè)施領(lǐng)域長(zhǎng)期投入,并堅(jiān)持產(chǎn)學(xué)研協(xié)同創(chuàng)新的成果。

王曉剛教授認(rèn)為,在大算力、大數(shù)據(jù)的支撐下,大模型將以更強(qiáng)大的通用能力引發(fā)人工智能領(lǐng)域的巨大變革,同時(shí)也會(huì)拓展我們的研究視野,激發(fā)新一輪研究范式革新。

自今年4月初“商湯日日新SenseNova”大模型體系公布以來(lái),商湯的大模型已在氣象預(yù)報(bào)、遙感解譯、開(kāi)放環(huán)境中的決策問(wèn)題等領(lǐng)域取得了諸多突破性成就。未來(lái),商湯將繼續(xù)與產(chǎn)學(xué)研各界共同擁抱和探索大模型帶來(lái)的范式革新,為AI的前沿探索開(kāi)拓新方向和新路徑。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )