百度大腦AI主持人技術(shù)揭秘

文|吳俊宇

今天是五四青年節(jié),提及青年節(jié),就不得不說(shuō)“德先生”和“賽先生”。

100年前的五四運(yùn)動(dòng)中,響徹著“只有德先生、賽先生可以救中國(guó)”的口號(hào)。

“德先生”,即“Democracy”,德莫克拉西(音譯)——意指先進(jìn)的思想。

“賽先生”,即“Science”,賽因斯(音譯)——意為,“科學(xué)”,所謂“科學(xué)”是指近代自然科學(xué)法則和科學(xué)精神。

今年央視五四晚會(huì)的主持人包括“賽先生”——春晚紅包之后,央視和百度再攜手五四晚會(huì)百度大腦AI虛擬主持人“小靈”。

這個(gè)虛擬主持人和主持人王俊凱、尼格買提同臺(tái)競(jìng)技,絲毫不落下風(fēng)。

“小靈”背后的技術(shù)提供就是百度大腦,其中糅合了百度視覺(jué)、語(yǔ)音、大數(shù)據(jù)以及AR能力,打通了大小屏,讓每個(gè)電視機(jī)前的觀眾不僅可以看到晚會(huì)中的虛擬主持人,還能直接與它進(jìn)行互動(dòng)體驗(yàn)。

當(dāng)年五四運(yùn)動(dòng)的“總司令”陳獨(dú)秀如果見(jiàn)到“小靈”,恐怕也會(huì)驚嘆今天中國(guó)技術(shù)之強(qiáng)大。

技術(shù)秀在哪兒

在五四晚會(huì)中,主持人“小靈”邀請(qǐng)旁邊的真人主持人用人臉識(shí)別測(cè)測(cè)自己是祖國(guó)的什么花。女主持人和“小靈”的互動(dòng)非常自然流暢。

很多觀眾有個(gè)非常強(qiáng)烈的感受——這個(gè)AI主持人似乎遠(yuǎn)比市面上其他AI主持人更細(xì)膩。

其他AI主持人似乎都是機(jī)器人腔,而且發(fā)聲時(shí)嘴巴只是一張一合,明顯對(duì)不上號(hào)。百度大腦這個(gè)AI主持人,怎么看怎么覺(jué)得舒服。

要做到“舒服”可不容易,這需要語(yǔ)音、表情、唇動(dòng)這些技術(shù)都擬合在一起。

1、語(yǔ)音音色要自然

一般AI語(yǔ)音背后都有個(gè)語(yǔ)音庫(kù)。我在谷歌AI博客上找了下AI語(yǔ)音合成的技術(shù)模型圖。

大概翻譯一些這個(gè)圖的意思:AI語(yǔ)音庫(kù)制作的步驟大概是三步。

第一步是將文本變成音頻,先確定音色、風(fēng)格、使用領(lǐng)域、產(chǎn)品特性、角色要求。

第二步找到配音員試音,根據(jù)需求設(shè)計(jì)試音文本,收集錄音。

第三步是確投入音庫(kù)生產(chǎn)線,錄音腳本設(shè)計(jì)、錄音資源訓(xùn)練、效果優(yōu)化、豐富音色。

百度大腦為此準(zhǔn)備了幾十個(gè)音庫(kù),找播音主持專業(yè)的學(xué)生專業(yè)錄制了各式各樣的聲音,具備非常豐富的音色矩陣。

每個(gè)音庫(kù)只要用戶喜歡,都可以做成一個(gè)虛擬主播、虛擬人物的形象。這背后的技術(shù)其實(shí)基于業(yè)界領(lǐng)先的深度神經(jīng)網(wǎng)絡(luò)技術(shù),提供高度擬人、流暢自然的語(yǔ)音合成服務(wù),可以讓應(yīng)用、設(shè)備開(kāi)口說(shuō)話,更具個(gè)性。

我在百度大腦AI開(kāi)放平臺(tái)找到了百度大腦AI開(kāi)放平臺(tái)語(yǔ)音合成技術(shù)的體驗(yàn)區(qū)。以度逍遙這個(gè)情感男聲為例測(cè)試了一句話:今年是五四運(yùn)動(dòng)一百周年。

這個(gè)男聲有著非常明顯的特點(diǎn),非常舒服渾厚的京腔,不知道的人還以為是一個(gè)播音主持人在和自己說(shuō)話。

可以說(shuō),百度機(jī)器學(xué)習(xí)模型的研究上取得了突破性成果,其生成的仿人類語(yǔ)音更加逼真自然,將仿人類語(yǔ)音與真實(shí)人類聲音之間的差異大大減小了。

2、表情唇動(dòng)要豐富

人的表情,其實(shí)是由面部肌肉以及唇動(dòng)共同組成的,不同人有不同肌肉動(dòng)作。

以下面這張圖為例,人可能有千百種表情,不同人在表達(dá)喜悅、恐懼、得意、焦慮的時(shí)候,表情都不一樣。

真的把表情交到人類面前時(shí),我們都不一定可以把不同表情做準(zhǔn)確歸類。

但是機(jī)器可以做到啊?;诖罅康拿娌刻卣鞯臄?shù)據(jù)學(xué)習(xí)去做提取,機(jī)器可以把面部肌肉、唇部動(dòng)作最細(xì)膩的表現(xiàn)都展開(kāi)學(xué)習(xí)、歸納,然后從中總結(jié),學(xué)習(xí)人類的表情特征。

在需要輸出的時(shí)候,再用深度學(xué)習(xí)做表情驅(qū)動(dòng),使得表情更加豐富,甚至連發(fā)色、年齡都可以自動(dòng)生成。

百度大腦的技術(shù)邏輯和這個(gè)其實(shí)也基本大同小異。

百度大腦AI開(kāi)放平臺(tái)上提到,百度大腦在檢測(cè)出人臉后,可對(duì)人臉進(jìn)行分析,獲得眼、口、鼻輪廓等150個(gè)關(guān)鍵點(diǎn)定位,準(zhǔn)確識(shí)別多種人臉屬性,如性別,年齡,表情等信息。這個(gè)技術(shù)還可適應(yīng)大角度側(cè)臉,遮擋,模糊,表情變化等各種實(shí)際環(huán)境。

百度大腦把聲音、表情、嘴唇的這些素材經(jīng)過(guò)了數(shù)據(jù)采集、特征分析、模型訓(xùn)練,用深度學(xué)習(xí)的一些核心算法和思想做了唇動(dòng)技術(shù),讓唇動(dòng)、表情和語(yǔ)音更好的用不同的特征表示聯(lián)系在一起。

過(guò)去其他的AI主持人只是有一個(gè)語(yǔ)音庫(kù),表情和唇動(dòng)非常初級(jí),百度等于是把三項(xiàng)技術(shù)全部都擬合在一起了,而且再通過(guò)AR技術(shù)輸出出來(lái),比別的廠商想得更多、更細(xì)。

產(chǎn)品用在哪兒

你以為百度大腦的AI主持人只能用于這種晚會(huì)主持?

當(dāng)然不止于此。它背后涉及的技術(shù)包括面部識(shí)別、語(yǔ)音合成、AR輸出等等。這些AI技術(shù)可以組合成不同的產(chǎn)品,開(kāi)放給其他客戶使用,幫助行業(yè)客戶改善服務(wù)、提升效率。

事實(shí)上,依托于百度大腦的百度AR Lab(百度增強(qiáng)現(xiàn)實(shí)實(shí)驗(yàn)室),就在提供AR技術(shù)、產(chǎn)品、服務(wù)一站式智能交互解決方案,業(yè)務(wù)已廣泛覆蓋營(yíng)銷、娛樂(lè)、教育、文化等各個(gè)領(lǐng)域。

1、教育和閱讀類產(chǎn)品:讓課程和講解變得更生動(dòng)

通過(guò)閱讀類APP閱讀小說(shuō)或新聞時(shí),如果使用語(yǔ)音合成技術(shù)為用戶提供多種發(fā)音人的朗讀功能,釋放雙手和雙眼,獲得更極致的閱讀體驗(yàn)。

實(shí)際上,熊貓看書(shū)、快聽(tīng)小說(shuō)已經(jīng)在使用百度大腦這項(xiàng)技術(shù)。用戶可以直接用語(yǔ)音播放電子書(shū)中的內(nèi)容。

教育類的客戶同樣可以引入這樣的AI主持人,在一些兒童故事機(jī)、智能機(jī)器人這類教育類設(shè)備或課程之中定制屬于自家產(chǎn)品的形象、聲音,讓課程變得更親切。

深圳一家名為AiMouse的智能鼠標(biāo)廠商以及Kido兒童手表品牌都使用了百度這項(xiàng)技術(shù)。Kido通過(guò)運(yùn)用百度語(yǔ)音識(shí)別和語(yǔ)音合成技術(shù),優(yōu)化了機(jī)器人的語(yǔ)音交互體驗(yàn),讓兒童手表實(shí)現(xiàn)語(yǔ)音交互。這款手表的日活躍量也達(dá)到了百萬(wàn)級(jí)別。

2、生活和服務(wù)類產(chǎn)品:讓服務(wù)交互效率得以提升

語(yǔ)音合成還可應(yīng)用于打車軟件、餐飲叫號(hào)、排隊(duì)軟件等場(chǎng)景,通過(guò)語(yǔ)音合成進(jìn)行訂單播報(bào),讓用戶便捷獲得通知信息。面部識(shí)別則是可以展開(kāi)顧客識(shí)別、訂單校對(duì)。

不管是語(yǔ)音合成還是面部識(shí)別,都天然適合服務(wù)業(yè)場(chǎng)景。一些酒店、飯店等服務(wù)業(yè)可以定制一些屬于自己的機(jī)器人,幫助顧客做客服。在訂單校驗(yàn)的過(guò)程中則是可以用顧客的面部特征為基礎(chǔ)展開(kāi)服務(wù)。

嘀嗒出行出租車業(yè)務(wù)的“聽(tīng)單”以及順風(fēng)車業(yè)務(wù)的“聽(tīng)單功能+派單服務(wù)”中都用到了百度的語(yǔ)音合成技術(shù)。

從2017年10月開(kāi)始接入百度語(yǔ)音合成SDK。隨著嘀嗒業(yè)務(wù)的增長(zhǎng),調(diào)用量每日都在攀升,日調(diào)用超過(guò)千萬(wàn)次以上,而錯(cuò)誤率幾乎為零。百度語(yǔ)音合成技術(shù)保證了核心派單功能的穩(wěn)定服務(wù)。

3、影視文娛產(chǎn)業(yè):節(jié)省動(dòng)漫動(dòng)畫行業(yè)的人力

影視、動(dòng)漫行業(yè)未來(lái)效率也能因百度大腦這套AI技術(shù)得到很大提升。

過(guò)去動(dòng)漫、影視劇行業(yè)為了給動(dòng)畫人物唇形、表情,必須手動(dòng)一點(diǎn)點(diǎn)調(diào)整,而且很看動(dòng)畫師主觀的思考。

百度這一套技術(shù)輸出給動(dòng)漫行業(yè)的話,直接機(jī)器生成就OK,動(dòng)畫師后期修改也很方便。程序驅(qū)動(dòng)以后,動(dòng)畫人物語(yǔ)言的唇動(dòng)連續(xù)性也是完全一樣的。不會(huì)出現(xiàn)在說(shuō)同一個(gè)詞匯時(shí)出現(xiàn)不同唇動(dòng)的現(xiàn)象。

影視劇、動(dòng)漫產(chǎn)業(yè)的動(dòng)畫師未來(lái)可以把更多精力放在更多有價(jià)值的工作上,這樣不僅可以節(jié)省人工成本,還縮短了工作時(shí)間。

當(dāng)然,文中列舉的這些案例完全不能概括面部識(shí)別、語(yǔ)音合成、AR這些技術(shù)融合帶來(lái)的應(yīng)用場(chǎng)景。

我列舉這些案例的意思是,你只有非常努力,才能看起來(lái)毫不費(fèi)勁。

百度領(lǐng)軍“賽先生”

央視五四晚會(huì)上這個(gè)AI主持人表面上看起來(lái)只是在主持一檔晚會(huì)。實(shí)際上它所需要用到的AI技術(shù)底蘊(yùn)深厚,放到各行各業(yè)可以有更大的實(shí)際效益。

這也正如美國(guó)軟件技術(shù)專家艾德·伯內(nèi)特說(shuō)過(guò)的一句話:

現(xiàn)在天上有三十一顆衛(wèi)星在地球上空環(huán)繞,不為別的,就為了告訴你便利店怎么走。

如果你只看到了手機(jī)地圖上的便利店要怎么走,你顯然低估了很多事情。

因?yàn)樘焐夏侨活w衛(wèi)星不僅僅在服務(wù)你,更在服務(wù)各行各業(yè)——那才是你沒(méi)看到的東西。

英國(guó)學(xué)者李約瑟(Joseph Needham)在編著的《中國(guó)科學(xué)技術(shù)史》中提出此問(wèn)題:

盡管中國(guó)古代對(duì)人類科技發(fā)展做出重要貢獻(xiàn),但為什么科學(xué)和工業(yè)革命沒(méi)有在近代中國(guó)發(fā)生?

作為享譽(yù)世界的文明古國(guó),在技術(shù)上有過(guò)那么多自豪成就。明明自己發(fā)明了火藥,卻被八國(guó)聯(lián)軍炸掉了封建牌坊;明明發(fā)明了指南針,卻被英國(guó)的戰(zhàn)列艦找上門來(lái)。

100年前的五四運(yùn)動(dòng)就是探尋這個(gè)答案的過(guò)程。五四青年們因?yàn)閲?guó)家積貧積弱,走上呼喚“德先生”和“賽先生”的道路。

可以說(shuō),德先生和賽先生,是推動(dòng)中國(guó)社會(huì)前進(jìn)的兩個(gè)車輪。

在今天,全世界范圍內(nèi)同樣在展開(kāi)一場(chǎng)圍繞著“賽先生”的競(jìng)爭(zhēng)——未來(lái)20年,是AI的時(shí)代,AI就是當(dāng)代“賽先生”。

百度為代表中國(guó)企業(yè)在AI領(lǐng)域已經(jīng)不遑多讓,多年以前呼吁的“賽先生”已經(jīng)不是短板。“賽先生”甚至正在成為今天中國(guó)走到世界技術(shù)之巔的重要基石。

以AI為代表的“賽先生”讓萬(wàn)事萬(wàn)物都處于精確計(jì)算之中,正如當(dāng)代哲學(xué)家西閃《國(guó)家的計(jì)算》所說(shuō)的:

在現(xiàn)實(shí)世界的“賭局”中,帕斯卡的上帝已經(jīng)隱退,取而代之的,是作為信仰的“未來(lái)”。它像一個(gè)永恒的獎(jiǎng)杯,在時(shí)間的盡頭閃閃發(fā)光。計(jì)算則取代了程式化的行為訓(xùn)練,演變成為一種新的思維習(xí)慣?!袄硇缘挠?jì)算”已經(jīng)成了是近現(xiàn)代的過(guò)程最主要的特征。

五四運(yùn)動(dòng)的倡導(dǎo)者陳獨(dú)秀如果看到中國(guó)科技企業(yè)把“賽先生”搞得這么強(qiáng),怕是也要說(shuō)一句,“你真秀!”

----------------------------------------------

作者 | 吳俊宇 公眾號(hào) | 深幾度

作者系獨(dú)立撰稿人,微信號(hào)852405518

關(guān)注科技公司、互聯(lián)網(wǎng)現(xiàn)象的解讀

曾獲鈦媒體2015、2016、2018年度作者

新浪創(chuàng)事記2018年度十大作者

品途網(wǎng)2016年度十大作者

騰訊科技2015年度最具影響力自媒體

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2019-05-05
百度大腦AI主持人技術(shù)揭秘
文|吳俊宇今天是五四青年節(jié),提及青年節(jié),就不得不說(shuō)“德先生”和“賽先生”。100年前的五四運(yùn)動(dòng)中,響徹著“只有德先生、賽先生可以救中國(guó)”的口號(hào)。

長(zhǎng)按掃碼 閱讀全文