">

小鵬P7即將上線(xiàn)全新一代智能AI語(yǔ)音:無(wú)限接近人類(lèi)聲音、帶情感、會(huì)調(diào)侃

小鵬汽車(chē)似乎對(duì)產(chǎn)品有近乎偏執(zhí)要求:要在車(chē)內(nèi)創(chuàng)造出一種能「無(wú)限接近人類(lèi)語(yǔ)氣」的聲音交互系統(tǒng)。

7月,這套「全新AI聲音」的小P系統(tǒng)將在P7部分車(chē)型上線(xiàn)。

“去年1024之后,小鵬車(chē)機(jī)智能化有了很大進(jìn)步,于是我們花費(fèi)很多精力在小P的語(yǔ)音表現(xiàn)上,給大家一個(gè)更好的信息傳遞。”小鵬汽車(chē)AI產(chǎn)品專(zhuān)家陳思云介紹起全新車(chē)載語(yǔ)音。

小鵬產(chǎn)品團(tuán)隊(duì)為新聲音設(shè)立了三大「綱要」:

(1)足夠像真人。

(2)角色足夠擬人,例如定位成「秘書(shū)」、「寵物」或是「女神」。

(3)親切傳達(dá)信息,拉進(jìn)用戶(hù)距離。

小P全新AI聲音是如何做到的呢?為實(shí)現(xiàn)這三條,團(tuán)隊(duì)就必須往車(chē)機(jī)聯(lián)入一個(gè)在線(xiàn)的、更大規(guī)模的「神經(jīng)網(wǎng)絡(luò)模型」——從而實(shí)現(xiàn)HIFI級(jí)別合成語(yǔ)音。

目前,這套神經(jīng)網(wǎng)絡(luò)已經(jīng)為小P帶來(lái)了2項(xiàng)肉眼可見(jiàn)的提升:

一、MOS評(píng)分4.49

經(jīng)MOS1語(yǔ)音質(zhì)量評(píng)測(cè),該聲音得分為4.49,是目前微軟MOS語(yǔ)音質(zhì)量評(píng)測(cè)得分最高的車(chē)載智能語(yǔ)音助手。

當(dāng)然,MOS評(píng)分不能完全完全「神化」。

MOS最早源于電話(huà)的語(yǔ)音質(zhì)量評(píng)價(jià)。這項(xiàng)評(píng)價(jià)標(biāo)準(zhǔn)由ITU(InternationalTelecommunicationUnion,國(guó)際電信聯(lián)盟簡(jiǎn)稱(chēng)國(guó)際電聯(lián))在1996年,作為囊括在《P.800: Methods for determination of transmission quality》中的一個(gè)「子標(biāo)準(zhǔn)」沿用至今,字面意思不難看出,這是個(gè)圍繞「主觀」(subjective)——也就是人工聽(tīng)覺(jué)、人工打分的一項(xiàng)判定方法。

別看MOS古老(那時(shí)TTS還未普及),作為一個(gè)成熟、穩(wěn)定、高度逼近人類(lèi)聽(tīng)覺(jué)體驗(yàn)的評(píng)價(jià)標(biāo)準(zhǔn),MOS的制定最初建立在一套有參考信號(hào)的評(píng)價(jià)體系之上的:評(píng)價(jià)時(shí),同時(shí)需要待測(cè)信號(hào)和參考信號(hào)。相較于無(wú)參考評(píng)價(jià)方案,有參考的客觀評(píng)價(jià)方案更容易做得貼近主觀評(píng)價(jià)體系。

“MOS體系本身是一個(gè)主觀評(píng)分,在全球最標(biāo)準(zhǔn)化的大會(huì)上參加評(píng)分的時(shí)候,也會(huì)要求需要把兩個(gè)競(jìng)品或兩個(gè)聲音加上真人,加上一個(gè)非安慰劑的參照系放在一起橫向比較。

我們只能比較這幾個(gè)主觀評(píng)價(jià)中,用戶(hù)對(duì)它們?cè)u(píng)價(jià)的差值,但絕對(duì)分值的比較,因?yàn)樗且粋€(gè)主觀比較,所以在換樣本量,或換不同的場(chǎng)景,都會(huì)導(dǎo)致分值上的差異。

需要放在同一測(cè)試中這個(gè)分?jǐn)?shù)才有比較的意義。”陳思云在回答能否用MOS評(píng)分高低作競(jìng)品橫評(píng)時(shí)談到。“即便無(wú)法客觀的讓小P橫向?qū)Ρ取5蚁嘈鸥潞?,用?hù)拿小P和Siri對(duì)比,還是有很大區(qū)別的。”

二、軟硬兼施,打出「情感牌」

從剛才的視頻來(lái)看,全新小P聲音飽滿(mǎn)程度也有很大提升,再配合P7本身的良好的NVH性能,我預(yù)感這波HiFi級(jí)高保真音質(zhì)真的可以在P7上發(fā)揮出來(lái),成為量產(chǎn)車(chē)中排名數(shù)一數(shù)二的沉浸交互感。

實(shí)際上,全新AI聲音采用24K采樣技術(shù)(現(xiàn)有聲音為16k),各種場(chǎng)景下的聲音反饋都被精心調(diào)教,用戶(hù)聽(tīng)到的每句話(huà)都細(xì)膩生動(dòng)、充滿(mǎn)活力。

“新舊聲音對(duì)比來(lái)聽(tīng),會(huì)明顯感受到音質(zhì)的差距。這個(gè)聲音不是拼接的,完全采用AI訓(xùn)練、生成出來(lái)的。”郝超補(bǔ)充道,“業(yè)內(nèi)無(wú)論車(chē)企還是智能音箱,大家還是在用提前錄音的方式,盡可能讓語(yǔ)音包更好聽(tīng),但內(nèi)容覆蓋率不高,所以我們采取這種方式(AI生成),也算一次大的創(chuàng)新。”

除了這些「硬實(shí)力」,全新AI語(yǔ)音還有足夠「軟實(shí)力」。

“小P會(huì)像Siri一樣調(diào)侃么?”,筆者問(wèn)道。

“全新AI聲音會(huì)有一些情緒上的表達(dá),或者對(duì)不同情景、不同語(yǔ)氣會(huì)有一些彩蛋的埋入,包含像偶爾跟用戶(hù)進(jìn)行一些小的調(diào)侃,去調(diào)劑一下用戶(hù)整個(gè)行程中的娛樂(lè)性,這也會(huì)有一些小的彩蛋的埋入。”陳思云回答。

而具體有哪些「彩蛋」,還需要P7車(chē)主一點(diǎn)點(diǎn)挖掘。

除了語(yǔ)音彩蛋,全新小P語(yǔ)氣包括例如「助理、客服、聊天、溫和、親熱、抒情、新聞、嚴(yán)肅、不滿(mǎn)、生氣、害怕、悲傷、冷靜」等14種強(qiáng)烈情緒的變換能力,后續(xù)版本還會(huì)逐步貼合更多場(chǎng)景。

說(shuō)了這么多優(yōu)點(diǎn),但新技術(shù)哪有不翻車(chē)的。來(lái)談?wù)劰P者對(duì)小鵬全新AI語(yǔ)音的擔(dān)憂(yōu)吧。

首先就是難以應(yīng)對(duì)離線(xiàn)情形。

車(chē)輛行駛在偏遠(yuǎn)地區(qū),沒(méi)網(wǎng),或者信號(hào)中斷,在「有-無(wú)」網(wǎng)絡(luò)之間來(lái)回切換,駕駛者肯定對(duì)語(yǔ)音質(zhì)量的高低變換一定是有反應(yīng)的。

但小鵬的工程師已經(jīng)想出了對(duì)策:在線(xiàn)追求高品質(zhì),離線(xiàn)兜底無(wú)時(shí)延。

“如果遇到「5公里長(zhǎng)的隧道」這類(lèi)極端網(wǎng)絡(luò)情況,我們會(huì)在本地留一個(gè)「小的離線(xiàn)模型」,它的體量不會(huì)很大,但保證小P在時(shí)效性不變差的情況下一定能把聲音發(fā)出來(lái),比如說(shuō)導(dǎo)航或者自動(dòng)駕駛這些播報(bào),兩個(gè)模型工作準(zhǔn)則是一樣的。”

按照郝超的說(shuō)法,這套自研「端云融合多級(jí)緩存」,能讓車(chē)輛預(yù)測(cè)當(dāng)下的網(wǎng)絡(luò)情況,自動(dòng)改選「在線(xiàn)神經(jīng)網(wǎng)絡(luò)引擎」or「離線(xiàn)引擎進(jìn)行聲音合成」,總之就是在信號(hào)不佳的情況下,語(yǔ)音播報(bào)依然維持高音質(zhì)。

“通過(guò)這個(gè)技術(shù),小P已做到97%超高在線(xiàn)率。”郝超補(bǔ)充道。

最后:

筆者認(rèn)為,擬人的全新小P能夠更好傳達(dá)信息。

回想下,你有沒(méi)有經(jīng)歷過(guò),當(dāng)車(chē)內(nèi)導(dǎo)航聲被道路噪音掩蓋、碰巧路線(xiàn)顯示延遲而錯(cuò)過(guò)待轉(zhuǎn)路口?

在認(rèn)知心理學(xué)中有個(gè)經(jīng)常被提及的原理:「雞尾酒會(huì)效應(yīng)」。指的是人類(lèi)聽(tīng)覺(jué)系統(tǒng)有著極其神奇的「專(zhuān)注能力」,即便在嘈雜環(huán)境中,仍能將注意力專(zhuān)注于某種「特定聲音」,而「無(wú)視」掉背景音。

其實(shí),小鵬語(yǔ)音團(tuán)隊(duì)做的便是將這個(gè)原理「逆」過(guò)來(lái):做出一套更好被人類(lèi)聽(tīng)覺(jué)系統(tǒng)分辨的聲音。

人的注意力是有限的,一個(gè)好的交互系統(tǒng)在設(shè)計(jì)時(shí)就必定要考慮到極端情況下,如何減少人腦的能量消耗,從而達(dá)到最好的信息傳遞效果。期待小P早日讓車(chē)主們享受到這一樂(lè)趣。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2021-07-19
小鵬P7即將上線(xiàn)全新一代智能AI語(yǔ)音:無(wú)限接近人類(lèi)聲音、帶情感、會(huì)調(diào)侃
"/>

長(zhǎng)按掃碼 閱讀全文