近日,騰訊優(yōu)圖實驗室總監(jiān)黃飛躍接受CSDN專訪,揭秘了騰訊優(yōu)圖八年間的研發(fā)和落地歷程,以及對計算機視覺的未來展望。以下為專訪內容:
12 年前,清華大學博士畢業(yè)的黃飛躍加入騰訊剛成立不到一年的騰訊研究院,帶著 5 個人的小組,第一個項目是做一款名為“QQ影像”的桌面處理軟件,但由于團隊都屬于 IT 直男,對于產品一竅不通,于是首個項目以并不盡如人意的結局告終。
12 年后,當初的 5 人團隊已經擴大到 數百人的規(guī)模,成為計算機視覺領域鼎鼎有名的優(yōu)圖實驗室。但細算起來,優(yōu)圖正式成立的時間其實在 2012 年,這一年,黃飛躍帶領的這支團隊更名為“優(yōu)圖”,他作為優(yōu)圖團隊的負責人,帶領這幫人成為國內計算機視覺大規(guī)模應用最早的一批從業(yè)者。
如今,做計算機視覺的人不會不認識優(yōu)圖這個名字,尤其是人臉識別技術和產品,優(yōu)圖的名聲更是響亮。作為騰訊消費互聯(lián)網業(yè)務背后的“隱形 AI 戰(zhàn)隊”,優(yōu)圖實驗室與 騰訊 AI Lab 和微信 AI 團隊一起,并列騰訊 AI 三大人工智能團隊,為包括 QQ、微信、騰訊微視等消費互聯(lián)網產品提供技術支持。
優(yōu)圖在做什么?
2018 年,騰訊宣布戰(zhàn)略轉型升級,擁抱產業(yè)互聯(lián)網,優(yōu)圖從騰訊內部的一個技術團隊開始走向前臺,通過騰訊云等對外輸出視覺 AI 能力。
黃飛躍對于優(yōu)圖的定位,就是一個計算機視覺相關技術的研發(fā)和落地的實驗室,從最開始的圖像壓縮,到后面的人臉識別,再往后的人體識別、OCR 等一系列技術,優(yōu)圖從最初的圍繞騰訊公司內部的需求提供技術支撐,到現在依托騰訊云等產品對外輸出產品和解決方案。
有人會好奇,優(yōu)圖到底都做了些什么。實際上,從騰訊內部到 ToC,優(yōu)圖的AI技術早已滲透到我們的日常生活中,留心觀察的話會發(fā)現,我們平常用到的微信刷臉支付、人臉識別對比、隨申碼、健康碼、微眾銀行等 App 的人臉核身等,背后都是優(yōu)圖在做技術支撐。比如在微信小程序申請民政服務,檢測人臉時出現的藍色、綠色等不同顏色的光譜,其實就是在做活體檢測,確認是否是本人操作。
天天P圖
黃飛躍表示,最近一兩年,短視頻、泛娛樂場景的視覺AI需求比較旺盛,為此優(yōu)圖打造了一系列泛娛樂方面的解決方案,包括美顏美妝、人像分割、趣味合成和生成、人臉融合和變裝等,你平常打開的美顏軟件,說不定就有優(yōu)圖的存在。
讓筆者印象比較深刻的,還有在尋找走失兒童場景中,優(yōu)圖可以實現跨年齡人臉識別,一兩歲時丟失的嬰兒,丟失十幾年之后的兒童也能被精準識別,這樣的“黑科技”也是優(yōu)圖研發(fā)的。
了解計算機視覺技術的人應該知道,跨年齡人臉識別對于數據量和模型訓練來說都是巨大的挑戰(zhàn),為了充分的從數據中學習人臉自然的跨年齡變化規(guī)律,騰訊優(yōu)圖提出了基于 DDL(分布式蒸餾學習法則)學習策略的正則化遷移學習策略。基于該策略,算法模型可充分進行跨年齡人臉識別學習,從而讓困難的跨年齡識別更加可靠和精準。用這項技術,騰訊成功幫助警方找回多名被拐超過十年的兒童。
“救人一命勝造七級浮屠”,可以造福、方便人類的事情,正是所有技術人的追求,因為這讓我們所做的事情變得有了意義。
優(yōu)圖的技術“家底”有多厚?
各種場景下的應用, 當然離不開底層技術的支撐。從團隊成立之初做圖片壓縮,到后來轉到人臉檢測和識別,優(yōu)圖不斷洞察新技術趨勢,積淀下清晰的技術發(fā)展路線。
黃飛躍在清華大學讀研讀博時,所學專業(yè)除了人臉識別和人臉檢測之外,還包括人頭 3D 重建、人體動作識別等技術。黃飛躍回憶,那時候人臉識別與現在相比有著巨大的差異,十幾年前,火爆的專業(yè)是網絡工程等方向,計算機視覺方向在當時是冷門。
黃飛躍也承認,當時學術的不成熟導致整個計算機視覺產業(yè)鏈不完整?,F在,我們已經可以通過深度學習技術,為很多計算機視覺問題找到很好的解決方案,比如人臉檢測識別,我們能夠從幾百人的合照中找到 99% 甚至全部的人臉,有遮擋也可以做到,但在當時,深度學習還沒有起來,大家更多的是做偏研究的事情,和實際業(yè)務結合較少,采集數據難度大,算法在實際應用中效果差,只能在特定場景和小范圍內做有限的應用。
總之,當時的計算機視覺研究環(huán)境很惡劣,人工智能仍處于發(fā)展瓶頸期,體系建設沒有展開。2008 年,黃飛躍畢業(yè)時也曾糾結過去做老師還是進公司,看了很多方向,選擇了加入剛成立不到一年的騰訊研究院,起初是跟著 leader,后來才帶領著 5 人小組,在迷茫中開始視覺AI的探索之路。
因圖像壓縮技術聲名大噪
上文中也提到,最開始,這支團隊負責一款名叫“QQ 影像”的桌面處理軟件,這是一款和美圖秀秀類似的圖像管理編輯軟件,既有工程又有黃飛躍學習的視覺圖像處理的一系列的能力,所以他認為這兩者的結合是一個機會。但這個項目做到 2011年,PC 端開始向移動端轉移,但 QQ 影像是 PC 軟件,所以失去優(yōu)勢,加上團隊都是技術人員,缺乏產品思維,導致產品發(fā)展不盡人意。
QQ 影像
2010 年,黃飛躍和團隊遷往上海。2011 年下半年,黃飛躍發(fā)現“圖片二次壓縮”技術可能存在極大的價值,可以廣泛應用到騰訊內部的眾多業(yè)務中,比如圖片的存儲與傳輸,可有效減少存儲、降低帶寬流量,為公司節(jié)省巨額資金及存儲空間。隨著研究的深入和技術的不斷成熟,黃飛躍帶著團隊開始為騰訊內部其他團隊提供圖片二次壓縮技術——可以將圖片像素壓縮 20%-30%,大大降低帶寬成本。
此時,團隊更名為“優(yōu)圖”——這便是“優(yōu)圖實驗室”的前身。
優(yōu)圖的圖片壓縮技術為騰訊創(chuàng)造了巨大的價值,也為優(yōu)圖帶來了聲望。
轉移到人臉檢測識別方向
2012 年下半年,優(yōu)圖把研究重心轉移到人臉檢測識別方向,開始進行人臉技術研發(fā)和儲備。此時正逢騰訊的組織架構調整,原本隸屬于騰訊研究院的優(yōu)圖并到了騰訊社交網絡事業(yè)群旗下。
2013 上半年,優(yōu)圖開始將人臉檢測技術輸出至 QQ 空間,同時將技術提供給推出爆款“武媚娘”妝容的“天天P圖”前身——“水印相機”團隊。2014 年,QQ 空間“面孔墻”全量上線,這是業(yè)界最早在大規(guī)模社交網絡平臺中人臉識別技術的應用。此時,黃飛躍帶領的優(yōu)圖團隊只有 20 人不到。
2014 年上半年開始,黃飛躍帶領優(yōu)圖團隊開始探尋大量人臉識別應用場景,和騰訊征信負責人挖掘人臉識別的一個創(chuàng)新應用,即通過自拍照和身份證照片比對,來確認是否是用戶本人(人臉核身)。在成功打出微眾銀行這個線上人臉核身案例后,優(yōu)圖將技術逐漸開放給內部超過 50 個業(yè)務,并在 QQ、QQ 空間、QQ 音樂、財付通、微眾銀行、天天 P 圖等明星產品中成功落地,也與滴滴、聯(lián)通等企業(yè)達成合作。
隨著業(yè)務的發(fā)展壯大,騰訊優(yōu)圖也從最開始的 5 人團隊,成長為現在的百人以上的規(guī)模。
2018 年 9 月 30 日,騰訊宣布組織架構調整,隸屬于 SNG 的優(yōu)圖實驗室調整歸屬于 CSIG 云與智慧產業(yè)事業(yè)群。優(yōu)圖開始和云與智慧產業(yè)形成更密切的聯(lián)動配合,通過騰訊云、微信等輸出視覺AI能力,在金融、零售、政務、社區(qū)、物流、文旅等領域落地解決方案。
以上就是優(yōu)圖實驗室大致的技術發(fā)展路線,在這個過程中,黃飛躍帶領團隊自主研發(fā)了很多創(chuàng)新性的計算機視覺技術和應用。
人臉識別算法迭代
黃飛躍回憶,自 2012 年下半年將重點轉移到人臉識別上來之后,優(yōu)圖便開始積累人臉相關技術。那時,優(yōu)圖會使用一些傳統(tǒng)的分類 PCA 等方法做檢測識別,從而具備了基礎的人臉相關能力,包括人臉檢測、人臉五官定位、人臉識別這三要素。
2014 年以后,優(yōu)圖開始跟進深度學習相關技術潮流和趨勢,最開始是用深度學習對齊傳統(tǒng)的人臉方法。
黃飛躍認為,實際上人臉技術的演進有這幾個點,其一是活體檢測,優(yōu)圖做了人臉安全與身份核驗、紋理檢測、動作識別,以及自主研發(fā)的反光活體技術,即手機側終端隨機發(fā)出一系列不同的光,根據光照射用戶的情況,和攝像頭捕捉到的信息,判斷是真的人臉還是一張照片、面具還是視頻。這是人臉安全系列的技術演進。
其二是人臉識別規(guī)模的大幅提升,從開始的幾千到幾萬的規(guī)模,現在到從數十億規(guī)模中做人臉檢測,背后依靠的是深度學習技術。
第三個特點是要結合實際業(yè)務場景,比如在疫情期間的口罩檢測,就需要做算法和場景交互的設計調整。
八年成長路,不斷積累“雪中送炭”的能力
從騰訊內部一個名不見經傳的小組,到成長為一個頗有名氣的AI實驗室,優(yōu)圖花了八年時間,一路走來也并非一帆風順,他們面臨的挑戰(zhàn)不僅來自技術層面,還有如何向公司證明技術的價值。
比如讓這支團隊聲名鵲起的圖像壓縮技術發(fā)明之初,優(yōu)圖團隊就面臨著如何說服公司內部客戶、合作伙伴和部門用這項技術的問題,為了與 QQ 空間團隊合作,他們要經常跑到深圳,甚至長期派駐人員了解對方的需求。當時,QQ 空間團隊關注的技術點很多,如何讓圖片顯示更清晰,PC 端網頁的相冊照片如何更好地展示縮略圖等,都是他們關心的問題,優(yōu)圖要做的不僅是要把技術“賣”給他們,還要根據需求給出具體的解決方案。好在團隊成功完成任務,度過了團隊成立之初的第一個大關。
2014 年是優(yōu)圖的一個拐點。在這個時間段,雖然優(yōu)圖與 QQ 空間的合作已經取得了一系列成果,優(yōu)圖研發(fā)推出的 QQ 空間面孔墻可以幫助用戶按照人的維度來管理自己的相冊、照片,整體的效果體驗,包括準確度、指標都不錯,但是實際上線之后,黃飛躍卻開始思考另一個問題:優(yōu)圖團隊的價值在哪里?因為這個能力始終是錦上添花,并不是雪中送炭,離不開的能力。于是,優(yōu)圖開始挖掘一些剛需、有價值的點。
黃飛躍想到了人臉識別。那時候團隊已經開始主打人臉識別相關技術的研發(fā),但是存在一定困難。2014 年下半年與微眾銀行的合作是一個契機。當時,微眾銀行開業(yè),給自己的定位就是完全線下無網點銀行,沒有線下網點,線上開戶只能通過人臉核身。但當時人臉核身技術層面上不成熟,這就給了優(yōu)圖難得的機遇,從 2014 年 9 月份開始合作,到 2015 年微眾銀行正式上線,優(yōu)圖攻堅了一系列難題,包括提高人臉活體的能力,防止人臉照片、視頻攻擊等,獲得了微眾的認可,把真金白銀的業(yè)務交給優(yōu)圖。
八年走過來,優(yōu)圖的發(fā)展路線愈發(fā)清晰,聚焦于最核心的能力,比如人臉識別、人臉檢測定位等,避免與其他團隊的研發(fā)“撞車”;另外一方面,一些團隊更多地側重在優(yōu)圖基礎能力之上做封裝,如與 PCG 合作力,優(yōu)圖負責提供人臉檢測配準的基礎能力,PCG 在此之上研發(fā)美顏掛件等,提供美顏能力和解決方案。
計算機視覺迎來第二次高潮
以優(yōu)圖為代表,是國內互聯(lián)網企業(yè)做計算機視覺技術研發(fā)與應用開發(fā)的縮影。在移動互聯(lián)網時代,計算機視覺乘著東風,迎來第二次發(fā)展的高潮。
黃飛躍認為,移動互聯(lián)網與計算機視覺之間是相輔相成的關系,這其中有幾個原因,一個是正好深度學習的進展和移動互聯(lián)網發(fā)展的時間重合,移動互聯(lián)網時代的特點是手機上的攝像頭,有了傳感器,數據越來越多,UGC 數據量急劇增加,帶來大量的需求和機會,因此整個移動互聯(lián)網的產業(yè)鏈、市場空間遠遠大于 PC 互聯(lián)網,因為計算終端無所不在,攝像頭獲取數據的設備無限大,市場很大會帶來更多發(fā)展的機會,相關的企業(yè)也將越來越多。
然而,我們應該清楚,計算機視覺技術現在還處于發(fā)展較前期的前階段,能夠解決一些問題,但是更多地是做到識別模式,而不是理解,也就是偏感知層面,最終還需要向認知層面努力,建立起對圖的深度理解,但目前從技術層面上來說還沒有一個特別好的解決方案,跨越感知和認知之間的鴻溝將是一個艱難的過程。
談到計算機視覺未來的發(fā)展趨勢,黃飛躍表示優(yōu)圖將緊跟行業(yè)產業(yè)的趨勢,目前他比較關注的是 5G,5G 將使流量帶寬越來越大,手機終端計算能力越來越強,多媒體的處理、短視頻也可能出現更豐富的表現形式。另外,AR/VR、短視頻等也將成為計算機視覺應用較多的場景。
(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )