Rokid發(fā)布自研XR數(shù)字人技術(shù),支持用戶打造專屬數(shù)字人形象

近日,國內(nèi)AR頭部企業(yè)Rokid正式發(fā)布自研XR數(shù)字人技術(shù),支持用戶“捏”出專屬數(shù)字人形象,同時,該技術(shù)還將對行業(yè)開放,支持第三方XR開發(fā)者通過SDK集成,接入數(shù)字人引擎服務(wù),開發(fā)屬于自己的數(shù)字人形象和體系。目前,該技術(shù)已正式接入Rokid Air App(v1.8.7版本)中,多人在線協(xié)同應(yīng)用MSpace也已實現(xiàn)支持多個用戶以數(shù)字人形象同時在線進(jìn)行會議、觀影等交互活動,打造更廣泛的在線交互場景。

  自由“捏”臉設(shè)計,讓用戶都能成為元宇宙“女媧”

在設(shè)計上,Rokid 自研XR數(shù)字人在寫實風(fēng)格與卡通風(fēng)格中進(jìn)行了平衡。通過采用五頭身比例,讓數(shù)字人的面部特征與表情動作更加突出和生動,同時也更具親和力,可廣泛適配各年齡段人群并被應(yīng)用在XR 的社交、游戲、工作,以及商超、展陳、導(dǎo)覽等場景。同時,Rokid自研XR數(shù)字人還分別設(shè)計了眉毛、眼睛、鼻子、嘴巴、臉型以及服裝組合,通過五官和服裝的自由搭配組合,可以讓用戶“捏”出更具個性的數(shù)字人形象。

在打造個性化形象的同時,Rokid還在效果呈現(xiàn)和所需資源消耗方面進(jìn)行了平衡。通過采用更少的網(wǎng)格面來表現(xiàn),Rokid自研XR數(shù)字人技術(shù)大大降低了資源消耗和硬件負(fù)荷,以便實現(xiàn)在算力有限的硬件上,如AR眼鏡、手機(jī)端等同時驅(qū)動大量數(shù)字人,進(jìn)而推動數(shù)字人在多人在線的同屏社交場景使用。

目前,Rokid自研XR數(shù)字人已基本滿足亞裔人群特征。未來Rokid還將推出更多的五官分類組合和動作,更多樣的膚色、發(fā)型、發(fā)色以及不同地域風(fēng)格的服裝、道具等,讓不同的國家和地區(qū)的用戶都可以創(chuàng)作出具備獨有特征、妝容、服裝以及道具的數(shù)字人。

讓數(shù)字人聽音而動,自研音頻驅(qū)動技術(shù)突破行業(yè)難題

數(shù)字人的模型有了,該如何讓數(shù)字人動起來?

目前,業(yè)內(nèi)一般通過面部捕捉的方式來采集面部動畫的數(shù)據(jù),從而讓數(shù)字人“動”起來,例如ARkit,F(xiàn)aceware,DynamicXYZ等,就是通過捕捉演員的表情動作,然后再映射到高精度的3D角色面部上。

面部捕捉的方式雖然解決了數(shù)字人表情靈動的問題,但在現(xiàn)實應(yīng)用中,如AR眼鏡等設(shè)備并不支持面部捕捉。同時,線上會議等場景還需要數(shù)字人能實時生成動畫,面部捕捉的方式并不適用。因此,讓數(shù)字人的表情幀和聲音幀同頻,嘴部動畫的實時生成就成為了行業(yè)難題。

對此,Rokid技術(shù)團(tuán)隊拿出了最新研發(fā)成果——ASR(自動語音識別技術(shù))到音素+bs系數(shù)的音頻驅(qū)動方案。

通過ASR(自動語音識別技術(shù))到音素+bs系數(shù)的音頻驅(qū)動方案,無需額外的攝像頭對表情動作進(jìn)行捕捉,Rokid自研XR數(shù)字人就能實現(xiàn)口型與表情動作與真人同步匹配。

同時,不同于業(yè)界目前普遍采用的ASR(自動語音識別技術(shù))將語音識別成文字,然后通過TTS(從文本到語音)輸出音素+bs系數(shù)的音頻驅(qū)動方案,Rokid自研XR數(shù)字人采用的音頻驅(qū)動方案,基于多年積累的ASR技術(shù),省掉了將語音識別成文字,再由文字輸出音素的環(huán)節(jié),在保持識別準(zhǔn)確度不低于行業(yè)標(biāo)準(zhǔn)的情況下,以更短的識別路徑、更低的延遲(相對業(yè)界降低延遲30%)、更低性能要求的驅(qū)動方案實現(xiàn)了數(shù)字人聲音幀和表情幀的絕對同步。

此外,在移動端,Rokid自研XR數(shù)字人解決方案單幀處理時間實現(xiàn)了低于3ms/frame,且CPU占用率能保證的在10%以下。

降低接入門檻,Rokid自研XR數(shù)字人技術(shù)將對外開放

一個行業(yè)的繁榮通常離不開兩個要素的躍遷:第一是生產(chǎn)效率的提升,第二是應(yīng)用成本的降低。這樣的邏輯在三次工業(yè)革命中得到了淋漓盡致的詮釋,同樣也適用XR數(shù)字人生態(tài)的建設(shè)。因此,在不斷優(yōu)化數(shù)字人性能的同時,Rokid自研XR數(shù)字人技術(shù)還將對外開放,讓更多XR行業(yè)開發(fā)者都能參與到元宇宙數(shù)字人生態(tài)建設(shè)中。

一方面,Rokid自研XR數(shù)字人作為YodaOS-XR的系統(tǒng)形象,將支持第三方XR開發(fā)者通過SDK集成,接入數(shù)字人引擎服務(wù),開發(fā)屬于自己的數(shù)字人形象和體系。另一方面,Rokid還將推出數(shù)字人管理平臺,支持XR開發(fā)者可以通過數(shù)字人管理平臺進(jìn)行數(shù)字人形象、服裝、道具等設(shè)計,以數(shù)字人引擎共同豐富元宇宙生態(tài)。

數(shù)字人作為人們在元宇宙中穿梭的通行證和身份標(biāo)識,賦予了人們對數(shù)字人的無盡想象,也在無形中加速著XR數(shù)字人產(chǎn)品的演進(jìn)。XR數(shù)字人的繁榮需要“先行者”們持續(xù)嘗試,不斷沉淀,Rokid也希望通過對XR數(shù)字人技術(shù)的開放,與XR行業(yè)開發(fā)者、用戶一起讓人類對數(shù)字人的美好想象逐步成為現(xiàn)實。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )