">

小鵬P7即將上線全新一代智能AI語音:無限接近人類聲音、帶情感、會調(diào)侃

小鵬汽車似乎對產(chǎn)品有近乎偏執(zhí)要求:要在車內(nèi)創(chuàng)造出一種能「無限接近人類語氣」的聲音交互系統(tǒng)。

7月,這套「全新AI聲音」的小P系統(tǒng)將在P7部分車型上線。

“去年1024之后,小鵬車機(jī)智能化有了很大進(jìn)步,于是我們花費(fèi)很多精力在小P的語音表現(xiàn)上,給大家一個更好的信息傳遞。”小鵬汽車AI產(chǎn)品專家陳思云介紹起全新車載語音。

小鵬產(chǎn)品團(tuán)隊為新聲音設(shè)立了三大「綱要」:

(1)足夠像真人。

(2)角色足夠擬人,例如定位成「秘書」、「寵物」或是「女神」。

(3)親切傳達(dá)信息,拉進(jìn)用戶距離。

小P全新AI聲音是如何做到的呢?為實(shí)現(xiàn)這三條,團(tuán)隊就必須往車機(jī)聯(lián)入一個在線的、更大規(guī)模的「神經(jīng)網(wǎng)絡(luò)模型」——從而實(shí)現(xiàn)HIFI級別合成語音。

目前,這套神經(jīng)網(wǎng)絡(luò)已經(jīng)為小P帶來了2項肉眼可見的提升:

一、MOS評分4.49

經(jīng)MOS1語音質(zhì)量評測,該聲音得分為4.49,是目前微軟MOS語音質(zhì)量評測得分最高的車載智能語音助手。

當(dāng)然,MOS評分不能完全完全「神化」。

MOS最早源于電話的語音質(zhì)量評價。這項評價標(biāo)準(zhǔn)由ITU(InternationalTelecommunicationUnion,國際電信聯(lián)盟簡稱國際電聯(lián))在1996年,作為囊括在《P.800: Methods for determination of transmission quality》中的一個「子標(biāo)準(zhǔn)」沿用至今,字面意思不難看出,這是個圍繞「主觀」(subjective)——也就是人工聽覺、人工打分的一項判定方法。

別看MOS古老(那時TTS還未普及),作為一個成熟、穩(wěn)定、高度逼近人類聽覺體驗(yàn)的評價標(biāo)準(zhǔn),MOS的制定最初建立在一套有參考信號的評價體系之上的:評價時,同時需要待測信號和參考信號。相較于無參考評價方案,有參考的客觀評價方案更容易做得貼近主觀評價體系。

“MOS體系本身是一個主觀評分,在全球最標(biāo)準(zhǔn)化的大會上參加評分的時候,也會要求需要把兩個競品或兩個聲音加上真人,加上一個非安慰劑的參照系放在一起橫向比較。

我們只能比較這幾個主觀評價中,用戶對它們評價的差值,但絕對分值的比較,因?yàn)樗且粋€主觀比較,所以在換樣本量,或換不同的場景,都會導(dǎo)致分值上的差異。

需要放在同一測試中這個分?jǐn)?shù)才有比較的意義。”陳思云在回答能否用MOS評分高低作競品橫評時談到。“即便無法客觀的讓小P橫向?qū)Ρ取5蚁嘈鸥潞?,用戶拿小P和Siri對比,還是有很大區(qū)別的。”

二、軟硬兼施,打出「情感牌」

從剛才的視頻來看,全新小P聲音飽滿程度也有很大提升,再配合P7本身的良好的NVH性能,我預(yù)感這波HiFi級高保真音質(zhì)真的可以在P7上發(fā)揮出來,成為量產(chǎn)車中排名數(shù)一數(shù)二的沉浸交互感。

實(shí)際上,全新AI聲音采用24K采樣技術(shù)(現(xiàn)有聲音為16k),各種場景下的聲音反饋都被精心調(diào)教,用戶聽到的每句話都細(xì)膩生動、充滿活力。

“新舊聲音對比來聽,會明顯感受到音質(zhì)的差距。這個聲音不是拼接的,完全采用AI訓(xùn)練、生成出來的。”郝超補(bǔ)充道,“業(yè)內(nèi)無論車企還是智能音箱,大家還是在用提前錄音的方式,盡可能讓語音包更好聽,但內(nèi)容覆蓋率不高,所以我們采取這種方式(AI生成),也算一次大的創(chuàng)新。”

除了這些「硬實(shí)力」,全新AI語音還有足夠「軟實(shí)力」。

“小P會像Siri一樣調(diào)侃么?”,筆者問道。

“全新AI聲音會有一些情緒上的表達(dá),或者對不同情景、不同語氣會有一些彩蛋的埋入,包含像偶爾跟用戶進(jìn)行一些小的調(diào)侃,去調(diào)劑一下用戶整個行程中的娛樂性,這也會有一些小的彩蛋的埋入。”陳思云回答。

而具體有哪些「彩蛋」,還需要P7車主一點(diǎn)點(diǎn)挖掘。

除了語音彩蛋,全新小P語氣包括例如「助理、客服、聊天、溫和、親熱、抒情、新聞、嚴(yán)肅、不滿、生氣、害怕、悲傷、冷靜」等14種強(qiáng)烈情緒的變換能力,后續(xù)版本還會逐步貼合更多場景。

說了這么多優(yōu)點(diǎn),但新技術(shù)哪有不翻車的。來談?wù)劰P者對小鵬全新AI語音的擔(dān)憂吧。

首先就是難以應(yīng)對離線情形。

車輛行駛在偏遠(yuǎn)地區(qū),沒網(wǎng),或者信號中斷,在「有-無」網(wǎng)絡(luò)之間來回切換,駕駛者肯定對語音質(zhì)量的高低變換一定是有反應(yīng)的。

但小鵬的工程師已經(jīng)想出了對策:在線追求高品質(zhì),離線兜底無時延。

“如果遇到「5公里長的隧道」這類極端網(wǎng)絡(luò)情況,我們會在本地留一個「小的離線模型」,它的體量不會很大,但保證小P在時效性不變差的情況下一定能把聲音發(fā)出來,比如說導(dǎo)航或者自動駕駛這些播報,兩個模型工作準(zhǔn)則是一樣的。”

按照郝超的說法,這套自研「端云融合多級緩存」,能讓車輛預(yù)測當(dāng)下的網(wǎng)絡(luò)情況,自動改選「在線神經(jīng)網(wǎng)絡(luò)引擎」or「離線引擎進(jìn)行聲音合成」,總之就是在信號不佳的情況下,語音播報依然維持高音質(zhì)。

“通過這個技術(shù),小P已做到97%超高在線率。”郝超補(bǔ)充道。

最后:

筆者認(rèn)為,擬人的全新小P能夠更好傳達(dá)信息。

回想下,你有沒有經(jīng)歷過,當(dāng)車內(nèi)導(dǎo)航聲被道路噪音掩蓋、碰巧路線顯示延遲而錯過待轉(zhuǎn)路口?

在認(rèn)知心理學(xué)中有個經(jīng)常被提及的原理:「雞尾酒會效應(yīng)」。指的是人類聽覺系統(tǒng)有著極其神奇的「專注能力」,即便在嘈雜環(huán)境中,仍能將注意力專注于某種「特定聲音」,而「無視」掉背景音。

其實(shí),小鵬語音團(tuán)隊做的便是將這個原理「逆」過來:做出一套更好被人類聽覺系統(tǒng)分辨的聲音。

人的注意力是有限的,一個好的交互系統(tǒng)在設(shè)計時就必定要考慮到極端情況下,如何減少人腦的能量消耗,從而達(dá)到最好的信息傳遞效果。期待小P早日讓車主們享受到這一樂趣。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2021-07-19
小鵬P7即將上線全新一代智能AI語音:無限接近人類聲音、帶情感、會調(diào)侃
"/>

長按掃碼 閱讀全文