桔子视频一区二区三区视频在线,亚洲AⅤ无码片一区二区三区,亚洲天堂91

近日，騰訊光影研究室(Tencent GY-Lab)憑借自研GYDepth算法，在CVPR 2021 Workshop的Mobile AI單目深度估計競賽中以領先第二名9倍的絕對優(yōu)勢奪冠，擊敗三星、OPPO等手機廠商和國內(nèi)外著名高校。

騰訊光影研究室憑GYDepth算法獲CVPR單目深度估計競賽第一名

關于Mobile AI 2021

CVPR是世界計算機視覺三大頂級會議之一，Mobile AI是CVPR 2021其中一項Workshop比賽，除了單目深度估計競賽之外，還包括圖像超分、視頻超分等任務。這項比賽以“Mobile”為名，主打移動端芯片上的AI能力，在AI相關技術領域受到廣泛關注和高度認可，吸引著眾多手機廠商如三星，OPPO和國內(nèi)外著名高校參與。

　　光影實驗室自研GYDepth算法，斬獲單目深度估計競賽第一名

單目深度估計是計算機視覺領域的一項基礎任務，其目的在于讓普通的RGB攝像頭能夠識別出視野內(nèi)的物體距離攝像頭的遠近。單目深度估計技術的完善能夠讓主流AR玩法擺脫深度攝像頭的限制，走向更普遍的機型。

比賽的最終指標由模型精度與模型速度兩部分組成，而此次比賽中，單目深度估計的數(shù)據(jù)大多來自室外場景，并由ZED雙目攝像頭采集。相比傳統(tǒng)AR玩法常用的室內(nèi)場景的多樣性會更多，難度更大。

騰訊光影研究室憑GYDepth算法獲CVPR單目深度估計競賽第一名

針對Mobile AI室外場景，騰訊光影研究室在常規(guī)單目深度估計模型訓練框架的基礎上，對網(wǎng)絡結構、訓練方式、模型部署上做了針對性調(diào)整。

在網(wǎng)絡結構設計上，團隊在模型小型化上投入了大量精力。整體網(wǎng)絡是一個標準的Encoder-Decoder模型，模型自原圖輸入后經(jīng)過了4次共16倍的下采樣，然后經(jīng)過特征融合模塊再逐層上采樣回初始的分辨率。在模型上采樣的過程中，由于模型部署條件的限制，騰訊光影研究室摒棄了Depthwise Deconvolution的方案，轉(zhuǎn)而選擇了實現(xiàn)更加高效的Resize + Depthwise Convolution組合。不過，小模型自然也會帶來精度指標的降低。為了彌補這一差距，團隊在訓練流程中引入了在線蒸餾。由于單目深度估計本身就是對輸出的單通道Feature Map進行回歸，這里繼續(xù)對Soft Label進行蒸餾會和GT產(chǎn)生歧義，因此他們選擇在Hint Feature進行蒸餾，并且使用了網(wǎng)絡結構類似的服務器端開源大模型Bts作為Teacher。

騰訊光影研究室憑GYDepth算法獲CVPR單目深度估計競賽第一名

除此之外，在訓練過程中，團隊除了使用常規(guī)的Flip、Color Transform外，還針對固定分辨率下絕對深度的特性，對RGBD圖片對采用了Random Crop的策略。和常規(guī)Crop不同，團隊在Crop后利用相似三角形的特性對Depth的值進行了補償，其背后的原理類似于使用相機拍攝時，把畫面放大和拍攝者向前走能達到一樣的效果。

騰訊光影研究室憑GYDepth算法獲CVPR單目深度估計競賽第一名

另外，在模型部署上，Mobile AI Depth競賽要求提交的模型以Float32 TFLite形式在樹莓派Raspberry Pi 4上以CPU運行。這意味著傳統(tǒng)上針對Conv等基礎算子在CPU上的計算優(yōu)化是不可用的，模型的速度實打?qū)嵉暮湍Ｐ陀嬎懔空嚓P。為了滿足比賽提交的要求，騰訊光影研究室打通了PyTorch -> Onnx -> Keras -> TFLite的轉(zhuǎn)換路徑，并確保了轉(zhuǎn)換前后模型端到端精度誤差小于1e-6。

持續(xù)深耕AI前沿技術研發(fā)，賦能更多應用場景

實際上，光影研究室的AR玩法中，或多或少都有單目深度估計技術的身影，通過壓縮、剪枝、蒸餾獲得的小模型，可以在手機移動端實時運行，并覆蓋ios和android雙端90%以上的機型。目前單目深度估計技術已作為基礎能力在多個AR玩法中發(fā)揮作用。比如，在手機QQ的AR蛋糕等貼紙類玩法中，單目深度估計技術提供了貼紙目標在空間中的方向與位置，使得AR算法能夠快速初始化;在水淹食堂特效中，單目深度估計模型提供了視野中每個點距離相機的遠近，結合相機內(nèi)外參可以計算其在世界坐標系下的位置，從而實現(xiàn)AR特效。

騰訊光影研究室憑GYDepth算法獲CVPR單目深度估計競賽第一名

未來，光影研究室也將持續(xù)深耕AI前沿技術的研發(fā)和積累，探索并開放更多場景的創(chuàng)意玩法及能力，為用戶提供充滿趣味驚喜的社交和視覺新體驗。

關于騰訊光影研究室

騰訊光影研究室是騰訊旗下專注于研究前沿影像處理技術的團隊，在單目深度估計技術、語義分割、目標檢測、分類識別、GAN生成對抗等方面均有深厚的技術積累。團隊一直致力于探索泛娛樂綜合解決方案，將前沿的AI能力、先進的玩法引擎和3D渲染技術賦能產(chǎn)品，讓視覺創(chuàng)意更多樣，音視頻編輯更智能，社交溝通更趣味。目前，QQ、微視等超20款業(yè)務產(chǎn)品中，均有光影研究室技術的身影。

（免責聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏，概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時，應及時向本網(wǎng)站提出書面權利通知或不實情況說明，并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關文章源頭核實，溝通刪除相關內(nèi)容或斷開相關鏈接。）