1024AI+家庭論壇|科大訊飛朱家泉:多模態(tài)融合,大屏進(jìn)入交互新時(shí)代

伴隨5G+AICDE技術(shù)的不斷發(fā)展,智慧家庭進(jìn)入加速發(fā)展階段,一個(gè)全新的智慧家庭時(shí)代正在來臨。在家庭數(shù)字化浪潮背景下,科大訊飛積極用AI賦能行業(yè)生態(tài),用人工智能助力智慧家庭產(chǎn)業(yè)走向新高度。

11月19日,由科大訊飛主辦的全球1024開發(fā)者節(jié)AI+家庭論壇在合肥奧體中心成功舉辦。本次論壇以“聚力AI 智連萬家”為主題,圍繞數(shù)字時(shí)代的新形勢(shì)、新發(fā)展,現(xiàn)場(chǎng)嘉賓分享了智慧家庭領(lǐng)域的最新實(shí)踐與前沿思考,共話數(shù)字化家庭的未來,見證“AI+家庭”的創(chuàng)新前行之路。

會(huì)議現(xiàn)場(chǎng),科大訊飛副總裁朱家泉發(fā)表了題為《多模態(tài)融合,大屏進(jìn)入交互新時(shí)代》的精彩演講。

以下是演講內(nèi)容分享:

各位現(xiàn)場(chǎng)的嘉賓朋友們,線上線下的合作伙伴和開發(fā)者們,大家下午好!

很高興今天又能在1024舞臺(tái)上跟大家分享,目前科大訊飛基于大屏交互的合作進(jìn)展以及取得的新成果。

機(jī)遇:大屏交互從語音邁入多模時(shí)代時(shí)機(jī)已經(jīng)成熟

首先跟大家分享一下電視大屏人機(jī)交互發(fā)展歷程。從1925年第一臺(tái)電視開始,直到1955年電視才首次出現(xiàn)紅外遙控,歷經(jīng)了大半個(gè)世紀(jì)。訊飛和長(zhǎng)虹在2015年才在國內(nèi)首次做出智能語音遙控電視。從2015年開始,訊飛和業(yè)界很多合作伙伴一直都在致力于如何能夠提升電視大屏的人機(jī)交互體驗(yàn),我們于2018年開始跟廣科院設(shè)立聯(lián)合語音創(chuàng)新實(shí)驗(yàn)室,致力于把最好的語音體驗(yàn)提供給中國的電視用戶。3年前,2019年的1024大會(huì),訊飛攜手諸多合作伙伴一起向業(yè)界推出了國內(nèi)第一個(gè)電視大屏語音操控系統(tǒng)iFLYHOME OS。截止到現(xiàn)在,我們有什么具體的新進(jìn)展呢?

首先來看一組數(shù)據(jù),當(dāng)前訊飛和國內(nèi)的主流運(yùn)營商、互聯(lián)網(wǎng)電視廠商,以及很多的智能終端合作伙伴一起攜手合作,把整個(gè)iFLYHOME OS推向了千家萬戶。截止到今年11月,在電視端累計(jì)的語音用戶數(shù)超過2.1億,日語音交互次數(shù)達(dá)到1.5億,累計(jì)語音交互次數(shù)突破600億次。正是因?yàn)楹献骰锇榕c訊飛的共同努力推動(dòng),應(yīng)該說中國的電視大屏正式邁入了語音交互時(shí)代。

但是伴隨我們的用戶和使用次數(shù)的增長(zhǎng),我們也在實(shí)際的運(yùn)營和訪談中發(fā)現(xiàn),當(dāng)前的語音交互還有很大的不足。對(duì)用戶來說,從交互體驗(yàn)到應(yīng)用服務(wù),有很多個(gè)性化、特性化和多樣化的需求還達(dá)不到滿足,尤其是很多用戶覺得現(xiàn)在的人機(jī)交互不夠自然,沒有情感。另外在服務(wù)領(lǐng)域,除了影視服務(wù)之外,在教育、康養(yǎng)、健身、家庭辦公等多個(gè)領(lǐng)域的應(yīng)用服務(wù)也沒法提供。諸多的體驗(yàn)和服務(wù)的不滿足,都是當(dāng)前我們?cè)谌藱C(jī)交互領(lǐng)域還需要進(jìn)一步提升的關(guān)鍵因素。

從市場(chǎng)環(huán)境來看,用戶側(cè),一方面現(xiàn)在攝像頭、遠(yuǎn)場(chǎng)設(shè)備,包括正在推出來的兒童陪護(hù)機(jī)器人,還有健身鏡,基于用戶多模態(tài)的語音交互使用習(xí)慣,我們覺得已經(jīng)逐步養(yǎng)成。訊飛側(cè),AI技術(shù)不斷成熟,從語音、視覺、認(rèn)知三大塊方向有超過100多項(xiàng)核心技術(shù),已經(jīng)開始逐步應(yīng)用和研發(fā),這種市場(chǎng)環(huán)境下,我們覺得中國電視大屏人機(jī)交互發(fā)展需要邁入一個(gè)新時(shí)代。

因此,今天訊飛聯(lián)合中國移動(dòng)、中國電信、中國聯(lián)通、廣科院等合作伙伴,我們一起在“1024開發(fā)者節(jié)”這個(gè)重大的活動(dòng)當(dāng)中,向業(yè)界發(fā)布科大訊飛iFLYHOME OS 2.0,來助力電視大屏的人機(jī)交互,從語音正式邁入多模態(tài)新時(shí)代。

3大提升:iFLYHOME OS 2.0能聽、會(huì)說、效果好

在業(yè)界,訊飛第一個(gè)將以虛擬人為媒介的強(qiáng)視覺多模態(tài)交互系統(tǒng)搬上電視大屏。它相對(duì)于傳統(tǒng)的人機(jī)交互,在能聽、會(huì)說、使用效果層面上得到了極大的提升,同時(shí)我們也把能聊、會(huì)認(rèn)、安全等更大的創(chuàng)新功能能力疊加到了iFLYHOME OS 2.0當(dāng)中,使得我們的大屏虛擬人真正能做到“能聽會(huì)說、能看會(huì)認(rèn)、能理解會(huì)思考”。

在能聽層面上它有什么樣的新的能力提升呢?

我們的2.12億用戶一直有一個(gè)問題困擾著語音提供商,那就是方言。中國有諸多的方言體系,雖然訊飛現(xiàn)在在電視端已經(jīng)支持20多種方言,但是有一個(gè)場(chǎng)景始終沒法滿足,電視的終端是在家庭下,不是私人終端,它是合家歡的終端,使用的場(chǎng)景有孩子、老人、年輕人,每個(gè)人在人機(jī)交互中的語音使用習(xí)慣不同,老年人偏向于方向,孩子偏向于用普通話。但是在業(yè)界現(xiàn)在的解決方案中,基本上都是需要用戶手動(dòng)切換識(shí)別引擎,訊飛在滿足家庭多代同堂的場(chǎng)景下率先提出了混合識(shí)別,我們現(xiàn)在支持7種方言的免切換,使得在合家歡的場(chǎng)景下所有的用戶都可以用自己熟悉的語言習(xí)慣,和我們的電視進(jìn)行人機(jī)交互。

另一個(gè)大幅度的能力提升是降噪,一旦把遠(yuǎn)場(chǎng)識(shí)別功能加入了,在客廳環(huán)境下它有很多復(fù)雜的噪聲,包括電視機(jī)聲音、廚房聲音以及家里電器的聲音,有人說一用掃地機(jī)器人,語音識(shí)別就不行了,因?yàn)樗沉?。訊飛使用最新的多模降噪技術(shù),把多模態(tài)的語音進(jìn)行合理分離,充分解決了在客廳場(chǎng)景下這種復(fù)雜噪音的問題,較傳統(tǒng)的降噪有50%的效果提升,94%的平均準(zhǔn)確率,使得我們遠(yuǎn)場(chǎng)交互真正在家庭場(chǎng)景下能夠得到使用,使得家庭使用更舒心。

讓設(shè)備能聽得清,也要讓它能夠很好地表達(dá)出來,語音合成是我們當(dāng)前在電視人機(jī)交互中很多用戶不滿意的核心問題之一。他們一直跟我反饋,說我們現(xiàn)在的語音合成太機(jī)械化,太呆板,沒有情感。因此我們?cè)?.0的版本中采用訊飛最先進(jìn)的極致擬人合成能力,在昨天的發(fā)布會(huì)中已經(jīng)提出來了,我們讓虛擬人的交互更有情感,它到底是什么樣的體驗(yàn)?zāi)兀覀兿瓤匆粋€(gè)小視頻。

這是基于現(xiàn)在實(shí)際的系統(tǒng)做的模擬,我想問一下現(xiàn)場(chǎng)的嘉賓,你們能聽出來哪些是合成、那些是人聲嗎?其實(shí)我也不知道,我們的產(chǎn)品經(jīng)理把實(shí)際發(fā)音人和系統(tǒng)合成音做了混合對(duì)話設(shè)計(jì),他把它藏在了里面。

可以說我們極致虛擬人的語音合成,讓虛擬人交互更有情感,它還有10+其他年齡、性別、場(chǎng)景發(fā)音人增加到電視大屏當(dāng)中去。

設(shè)備能聽會(huì)說,不代表它能懂,我們覺得如何讓用戶有更好的體驗(yàn),我們?cè)?019年聯(lián)合杭研、福建移動(dòng)在行業(yè)首發(fā)了一套基于大屏的人機(jī)交互評(píng)價(jià)體系和標(biāo)準(zhǔn),我們叫“懂有暢快暖”用戶體驗(yàn)體系。這個(gè)體系一提出,得到了很多行業(yè)人士的認(rèn)可,端到端的交互成功率從86%提升到91.8%,讓端到端的服務(wù)體驗(yàn)更加完善。

3大創(chuàng)新:iFLYHOME OS 2.0能聊、會(huì)認(rèn)、更安全

除了三大能力提升之外,還基于諸多場(chǎng)景做了核心的功能創(chuàng)新,有代表性的主要有三個(gè):

第一個(gè)“能聊”。我們?cè)谧鲇脩粼L談時(shí),他們說現(xiàn)在的人機(jī)交互是簡(jiǎn)單的任務(wù)性、指令性交互,就是一問一答,我想看中央一套,我們幫他放中央一套;我想看劉德華的電影,我們就幫他放劉德華的電影,但是一旦跳出任務(wù)指令,AI就顯得非常傻。

所以在新一代的人機(jī)交互當(dāng)中,把訊飛最先進(jìn)的情感型對(duì)話納入了2.0系統(tǒng),它可以通過機(jī)器人的多情緒識(shí)別表達(dá),讓現(xiàn)在的虛擬人具備實(shí)時(shí)新聞熱點(diǎn)能力,具備文學(xué)、歷史知識(shí),也具備政治、軍事知識(shí),可以跟大屏前的用戶做多場(chǎng)景下的復(fù)雜對(duì)話。而且這個(gè)功能有一個(gè)非常大的拓展,人一旦和虛擬人建立了信任、情感之后,我們就可以基于這種情感式的對(duì)話,挖掘更多的基于用戶在內(nèi)容上的個(gè)性化、場(chǎng)景化的服務(wù)推薦和需求,這項(xiàng)功能也會(huì)開放給所有的運(yùn)營商、服務(wù)合作伙伴。

第二個(gè)“會(huì)認(rèn)”。從傳統(tǒng)的語音和現(xiàn)在的圖像、視頻識(shí)別相結(jié)合,剛才何總在做元宇宙介紹的時(shí)候也多次強(qiáng)調(diào),這是我們多模態(tài)識(shí)別核心。現(xiàn)在的電視大屏正是因?yàn)閿z像頭和機(jī)頂盒、電視業(yè)務(wù)相結(jié)合,使得我們面向多人場(chǎng)景下的圖像、聲音多模態(tài)融合識(shí)別技術(shù)有了更多廣泛的應(yīng)用場(chǎng)景。現(xiàn)在在家庭看電視的情況下,可能有多個(gè)角色,但是這多個(gè)角色都可以跟我們電視進(jìn)行人機(jī)交互。如果只是傳統(tǒng)的語音識(shí)別,我們很難做到清晰的聲音定位和遠(yuǎn)場(chǎng)角色識(shí)別。有了圖像之后,可以把聲音和人臉識(shí)別檢測(cè)結(jié)合,還有主論壇發(fā)布的唇形識(shí)別相結(jié)合,使得我們的語音識(shí)別指令能夠更加清晰定位到用戶,讓遠(yuǎn)場(chǎng)的交互更加清晰、更精準(zhǔn)。

第三個(gè)“更安全”。電視業(yè)務(wù)運(yùn)營商和服務(wù)提供商都知道,對(duì)于電視大屏內(nèi)容安全是我們做電視業(yè)務(wù)從業(yè)者非常關(guān)注的。訊飛基于當(dāng)前整個(gè)聲音+文字的監(jiān)控技術(shù),基于語義的敏感內(nèi)容識(shí)別,我們和廣科院有非常深的研討,使得我們現(xiàn)在基于電視大屏語音轉(zhuǎn)文字的能力可以在新的2.0產(chǎn)品中隆重上線。它為我們?cè)陔娨暣笃炼藙?chuàng)造出更多的應(yīng)用場(chǎng)景,包括很多合作伙伴說的怎么樣才能把大屏的輕社交屬性做好,能不能上彈幕的功能,還有用戶反饋說運(yùn)營商有一些很老、很早的視頻,這些視頻內(nèi)容沒有字幕,能不能把訊飛的字幕轉(zhuǎn)寫,把聽見轉(zhuǎn)寫能力加上去,因此我們?cè)趇FLYHOME OS 2.0當(dāng)中把整個(gè)的轉(zhuǎn)寫、翻譯能力也實(shí)時(shí)提供給應(yīng)用的合作伙伴,使得我們真的在大屏社交方向上,可以在電視大屏上做新的應(yīng)用探索。

剛才我把基于iFLYHOME OS的三大能力提升和三大功能給大家做了簡(jiǎn)單的介紹。

大家一直說“耳聽為虛,眼見為實(shí)”,那么它真實(shí)的效果怎么樣呢,我們的小伙伴做了一個(gè)視頻,請(qǐng)看大屏幕。這是我們做的一些簡(jiǎn)單的功能視頻模擬,展覽館的科技館、生活館都有對(duì)應(yīng)的展區(qū),也歡迎我們的合作伙伴們、開發(fā)者們到展廳現(xiàn)場(chǎng)體驗(yàn)我們最新的基于電視大屏的人機(jī)交互系統(tǒng),也歡迎大家能給我們提出更多的寶貴性的改進(jìn)意見。

所有2.0的功能也面向全行業(yè)做全能力的逐步開放,包括給合作伙伴有標(biāo)準(zhǔn)化的虛擬人快速定制系統(tǒng),還有面向多領(lǐng)域的垂直方向上的能力下沉,包括剛才講的大屏輕社交、大屏康養(yǎng)、大屏政務(wù)、大屏教育等多個(gè)領(lǐng)域,都可以做到很好的語音語義、多模態(tài)識(shí)別支持。同時(shí)針對(duì)合作伙伴,也把整個(gè)接口進(jìn)行了標(biāo)準(zhǔn)化的對(duì)接,使得我們的各項(xiàng)開發(fā)工作可以更加高速、高效、快捷。

未來我們會(huì)持續(xù)地把很多多模態(tài)的最新技術(shù)與現(xiàn)在的iFLYHOME OS 2.0系統(tǒng)相結(jié)合,提供給諸多的產(chǎn)品、應(yīng)用、合作伙伴,包括情緒感知、體感識(shí)別、表情識(shí)別、遠(yuǎn)場(chǎng)手勢(shì)識(shí)別能力,會(huì)陸續(xù)的在我們的系統(tǒng)當(dāng)中定期發(fā)布。

舉一個(gè)簡(jiǎn)單的場(chǎng)景——遠(yuǎn)場(chǎng)手勢(shì)識(shí)別。上半年,有一個(gè)合作伙伴是做棋牌的,他很想把現(xiàn)在很火的象棋、圍棋搬到電視大屏上,怎么都找不到解決方案,為什么呢?不管是用遙控按鍵,還是語音,都沒有辦法解決在電視大屏場(chǎng)景下去下棋這個(gè)核心場(chǎng)景。我們用遠(yuǎn)場(chǎng)手勢(shì)識(shí)別,讓爸爸、爺爺坐在沙發(fā)上,用兩個(gè)簡(jiǎn)單的動(dòng)作,一拿,一放,就能解決在電視大屏當(dāng)中的棋牌場(chǎng)景落地。我堅(jiān)信我們把諸多的新技術(shù)放到多模態(tài)解決方案中,會(huì)給未來大屏端的應(yīng)用和服務(wù)帶來更多的創(chuàng)新以及更大的廣闊的發(fā)展空間。

就像董事長(zhǎng)昨天說的,因?yàn)榭匆姡詧?jiān)信,我們認(rèn)為大屏的未來已來,科大訊飛會(huì)堅(jiān)持用AI賦能,與我們的合作伙伴一起攜手,共同邁入大屏人機(jī)交互2.0新時(shí)代。

謝謝大家!

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2022-11-22
1024AI+家庭論壇|科大訊飛朱家泉:多模態(tài)融合,大屏進(jìn)入交互新時(shí)代
伴隨5G+AICDE技術(shù)的不斷發(fā)展,智慧家庭進(jìn)入加速發(fā)展階段,一個(gè)全新的智慧家庭時(shí)代正在來臨。在家庭數(shù)字化浪潮背景下,科大訊飛積極用AI賦能行業(yè)生態(tài),用人工智能

長(zhǎng)按掃碼 閱讀全文