騰訊優(yōu)圖: 多模態(tài)融合是計(jì)算機(jī)視覺技術(shù)發(fā)展的重要趨勢

12月19日-20日,由騰訊發(fā)起的2020 Techo Park開發(fā)者大會于北京順利召開。作為面向全球開發(fā)者和技術(shù)愛好者的年度盛會,本次開發(fā)者大會針對行業(yè)開發(fā)者、ISV、科研機(jī)構(gòu)、高校師生、創(chuàng)業(yè)公司、開源社區(qū)工程師等設(shè)置了很多的亮點(diǎn)內(nèi)容和創(chuàng)新活動,來自國內(nèi)外200多位技術(shù)大咖為大家?guī)硪粓瞿甓鹊募夹g(shù)嘉年華。騰訊優(yōu)圖實(shí)驗(yàn)室總監(jiān)黃小明出席大會并在AI分論壇上做了主題為《視覺AI技術(shù)的探索與實(shí)踐:“新基建時(shí)代”下的生產(chǎn)力》致辭分享。

騰訊優(yōu)圖: 多模態(tài)融合是計(jì)算機(jī)視覺技術(shù)發(fā)展的重要趨勢

騰訊優(yōu)圖實(shí)驗(yàn)室總監(jiān) 黃小明

計(jì)算機(jī)視覺是機(jī)器認(rèn)知世界的基礎(chǔ),也是最重要的人工智能技術(shù)之一。黃小明認(rèn)為,計(jì)算機(jī)視覺將機(jī)器學(xué)習(xí)應(yīng)用于視覺領(lǐng)域,構(gòu)成人工智能的感知基礎(chǔ),加速人工智能在相關(guān)行業(yè)應(yīng)用落地。

黃小明表示,面對不同場景需求,計(jì)算視覺的準(zhǔn)確度正在不斷提高。隨著視覺技術(shù)精度不斷提升,已經(jīng)廣泛應(yīng)用在零售及金融民生等領(lǐng)域。制造業(yè)中的質(zhì)量檢查和控制,成為工業(yè)視覺的重要應(yīng)用場景。中國是世界最大的制造業(yè)國家,它的生產(chǎn)力價(jià)值正在顯現(xiàn)。

“在未來的計(jì)算機(jī)視覺研究中,多模態(tài)融合、多技術(shù)融通是一個重要的趨勢。”黃小明表示,人工智能正在從語音、文字、視覺等單模態(tài)智能,向著多種模態(tài)融合發(fā)展,結(jié)合分布式平臺的計(jì)算能力,實(shí)現(xiàn)更高精度的場景構(gòu)建,和對動態(tài)場景的處理能力。

以下為黃小明演講實(shí)錄:

各位嘉賓:

我是騰訊優(yōu)圖實(shí)驗(yàn)室的黃小明, 非常榮幸在這個場合有機(jī)會跟各位同仁就一些技術(shù)問題進(jìn)行探討。

視覺AI技術(shù)是我研究的主要領(lǐng)域之一。近年來,深度學(xué)習(xí)技術(shù)、GPU算力以及海量數(shù)據(jù),作為AI技術(shù)發(fā)展的三大催化劑,加速了視覺技術(shù)在各行各業(yè)應(yīng)用落地,助力產(chǎn)業(yè)互聯(lián)網(wǎng)升級。計(jì)算機(jī)視覺的廣闊應(yīng)用前景,為我們展開了前所未有的壯麗圖景。

目前,計(jì)算機(jī)視覺已經(jīng)在工業(yè)視覺、OCR以及內(nèi)容理解等領(lǐng)域獲得重大突破,隨著計(jì)算機(jī)視覺技術(shù)精度和成熟度的提高,正不斷滲透到娛樂、醫(yī)療、零售行業(yè)等更多重點(diǎn)應(yīng)用場景,推動技術(shù)變革和用戶體驗(yàn)提升。例如,在泛娛樂領(lǐng)域,以計(jì)算機(jī)視覺為基礎(chǔ)的人臉檢測技術(shù)、人臉關(guān)鍵點(diǎn)定位技術(shù)、人臉融合以及人像分割技術(shù)等AI視覺技術(shù),通過對泛娛樂場景各類基礎(chǔ)人臉研究和挖掘整合,打造出多項(xiàng)泛娛樂人像特效應(yīng)用,為泛娛樂行業(yè)用戶提供各類新奇酷炫的AI視覺特效和娛樂體驗(yàn)。

疫情期間,由優(yōu)圖提供視覺AI技術(shù)支持的騰訊“防疫健康碼”,讓民眾通過申請涵蓋自身健康信息的二維碼,獲得電子出行憑證,方便民眾在疫情期間出入公共場所,也利于為政府部門統(tǒng)一管理。在各地復(fù)工復(fù)產(chǎn)的高峰期,各地健康碼互通,民眾出入不同省市都只用進(jìn)行一次健康狀況的認(rèn)證,加快復(fù)工復(fù)產(chǎn)進(jìn)度,也使國家在疫情期間對信息的統(tǒng)一管理更加精準(zhǔn)有效。騰訊“防疫健康碼”是服務(wù)用戶最多、增長速度最快的健康碼。截至目前,騰訊防疫健康碼服務(wù)9億用戶、累計(jì)亮碼150億人次,累計(jì)訪問量500億次。背后都有我們的視覺AI在發(fā)揮作用。

在未來的計(jì)算機(jī)視覺研究中,多模態(tài)融合、多技術(shù)融通是一個重要的趨勢。人工智能正在從語音、文字、視覺等單模態(tài)智能,向著多種模態(tài)融合發(fā)展,結(jié)合分布式平臺的計(jì)算能力,實(shí)現(xiàn)更高精度的場景構(gòu)建,和對動態(tài)場景的處理能力。

當(dāng)然我們的工作還面臨著諸多挑戰(zhàn)。目前還無法建立一個通用的“視覺機(jī)器”,無法做到統(tǒng)一模型同時(shí)滿足不同場景要求。這意味著當(dāng)下機(jī)器學(xué)習(xí)的訓(xùn)練成本較高,也沒有達(dá)到產(chǎn)業(yè)化應(yīng)用的理想狀態(tài)。要解決這個問題,需要從端到端打通各個模態(tài)之間的關(guān)系,形成可以真正多維度交互的智能機(jī)器,讓感知智能升級為認(rèn)知智能。

計(jì)算機(jī)視覺的技術(shù)前景是令人興奮的,還有很多未抵達(dá)的神奇地域等著我們?nèi)ヌ剿?。阿蘭·圖靈曾說過:“這不過是將來之事的前奏,也是將來之事的影子。”從人類開辟出人工智能領(lǐng)域,到今天真正的應(yīng)用落地,時(shí)光只不過是歷史一瞬。未來,讓我們仰望星空,腳踏實(shí)地,共同創(chuàng)造中國計(jì)算機(jī)視覺的新輝煌,期待各位的分享。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )