全球首推語音定制產(chǎn)品,百度地圖背后的語音技術(shù)到底有多強大?

文|李永華

來源|智能相對論(aixdlun)

地圖APP的競爭日趨激烈,但往往都是你來我往,各大產(chǎn)品互有來回。

但現(xiàn)在,一些基于AI技術(shù)的顛覆性創(chuàng)意功能正在冒出,它們將成為競爭“殺招”,很可能一招制勝,讓戰(zhàn)況不再膠著。

你可能經(jīng)常使用XX明星的聲音作為手機地圖的提示音,但你可能沒有想到,有一天“前面路口左轉(zhuǎn)”這樣的發(fā)音準確、播音員級別的語音播報,會通過“你的聲音”發(fā)出來。

近日,百度地圖推出“語音定制功能”,簡而言之,用戶通過手機就能自主錄制與合成個人完整語音包,可以同步應用到地圖全端語音場景,如駕車導航、語音交互、智能旅游等。

從技術(shù)角度看,如果了解為每個人進行“語音定制”的技術(shù)難度的話,就知道百度先發(fā)制人推出的“語音定制功能”,或已經(jīng)讓行業(yè)對手“無計可施”。這背后是百度大腦語音能力的強力加持,是深厚技術(shù)積淀的產(chǎn)物。

毫無疑問,百度地圖出的這一招,已經(jīng)沒有人能夠在短時間內(nèi)接得起。

而從整個行業(yè)角度看,語音定制功能的加入,也讓“AI+地圖”組合的 “完全體”獲得了進一步進化、升級。

百度地圖事業(yè)部總經(jīng)理李瑩

盤點語音合成:百度地圖AI實力成為競爭“殺招”

百度地圖此次推出的語音定制功能,依賴的技術(shù)即百度語音獨創(chuàng)的風格遷移技術(shù)MEITRON模型。

該技術(shù)實際上已經(jīng)“露過臉”,大型公益節(jié)目《等著我》有一期講述了91歲老兵袁林昌尋找老排長的故事,老排長2004年即已去世,但技術(shù)團隊采集老排長的語音素材,利用MEITRON對音色、情感、風格等進行獨立的編碼建模,最終合成了老排長聲音發(fā)出的句子,讓老兵袁林昌與觀眾感動落淚。

智能相對論認為,同樣作為AI語音合成技術(shù),MEITRON價值和優(yōu)勢在于三個方面:

素材要求低,一般僅需提供20句話的素材,在百度地圖上,用戶僅需跟隨錄制20句、每句15個字左右的語句即完成數(shù)據(jù)采集;

訓練時間短,在百度地圖上,一般僅需20分鐘即可完成訓練(實測往往15分鐘即可完成),合成個性化的目標聲音,用戶無需漫長等待;

“情感”豐富,即合成的語音可以注入不同的情感,效果變得更加逼真、豐富,就好像是某個人真的在說一樣。

直接說這些優(yōu)勢可能大家沒有直觀感受,當我們盤點和回顧語音合成的發(fā)展史,就會發(fā)現(xiàn)MEITRON這些卓有成效的能力對整個語音合成領(lǐng)域的重要價值。在它的加持下,百度地圖的語音定制場景應用直接摘取了“目標聲音個性化”這顆皇冠明珠,讓競爭對手不得不擺手放棄追趕。

1、大面上,AI已經(jīng)解決語音合成的幾個基本問題

事實上,在MEITRON之前,AI深度介入語音合成領(lǐng)域,已經(jīng)解決了行業(yè)的三大基本痛點問題:

韻律問題:可理解為符合正常人聊天語態(tài),例如句子的停頓,重讀等要求,計算機過去往往比較機械,聽起來不自然,例如,過去合成“你真好看”四字簡單的句子,可能讀成“你真/好看”等,現(xiàn)在AI可以實現(xiàn)“你/真好看”相對正確的短句和頓挫,或者如普通人一樣還能在“真”字上加上重音;

音色擬合問題:即不只有一個單調(diào)的女聲,還可以擬合其他想要的種類的聲音;

情感擬人問題:即說出的話有不同的“調(diào)調(diào)”,個人風格濃厚,而不是冰冷的、無情感的輸出。

2、AI長時間難以解決“目標聲音個性化”問題,MEITRON出手

但是,AI解決的語音合成三大基本問題,只是在“商用層面”,尚不能到達“民用層面”。

形象地理解,過去幾乎所有的地圖產(chǎn)品都能針對一個特定的“目標聲音”進行采集和訓練,實現(xiàn)有韻律、有音色、有情感,百度地圖的湯唯、楊洋、郭采潔、韓喬生、柳巖,高德地圖的郭德綱、林志玲等,都是如此。

早期這種“商用采集”的特點是“目標聲音”的提供者,需要配合進行大量的采集工作,并等待十天半個月甚至更長時間的合成,才能生成我們在地圖APP里熟悉的明星語音包。如果面向海量的普通用戶,這種成本平臺無法承受,用戶也很難談得上有什么體驗。

所以,地圖產(chǎn)品的語音包早期只能一個一個來,只在商用層面無法抵達“民用”。

而問題恰恰又在于,AI浪潮下,所有面向大眾的產(chǎn)品都在談個性化,地圖產(chǎn)品概莫能外。個性化需求只要生根就會發(fā)芽、長大,在AI語音合成的支持下,有了不同的明星語音包,越來越多的用戶潛在也會有的更為個性化的語音需求,誰能激發(fā)和實現(xiàn)這種需求,誰就贏得了無法追趕的競爭優(yōu)勢。

將目標聲音“個性化”,千人千面、每個人定制自己想要的語音,無疑成了語音合成皇冠上的明珠。

此時,MEITRON出來了,百度地圖語音定制功能落地了,20句15字左右的跟讀素材采集,實測15分鐘左右的合成速度,駕車導航、語音交互、智能旅游的多樣化個人語音應用……當百度地圖打出這張技術(shù)+體驗牌時,就是徹底的殺招。

一旦把地圖APP中用戶日常接觸最頻繁的語音改造成用戶自己想要的聲音,也意味著移動APP們共同的夢想——為每個用戶打造只屬于自己的“專屬APP”得到切實的落地,APP產(chǎn)品夢寐以求的高用戶粘性也有了額外支撐。

直白地說,如果百度地圖APP獨有用戶個人或者想要的某種特質(zhì)語音,他可能就更加沒有理由再去使用其他產(chǎn)品。

百度語音首席架構(gòu)師賈磊

出彩的語音定制,本質(zhì)仍是百度地圖“AI+地圖”策略的重要一環(huán)

語音定制是百度地圖的競爭殺招,但它仍舊處在百度地圖“AI+地圖”的整體招式之中。

這不是第一次AI技術(shù)在百度地圖的應用。

2018年,百度AI開發(fā)者大會曾現(xiàn)場演示一段長達60多字的服務(wù)請求:“我要從三里屯的團結(jié)湖地鐵站出發(fā)路過望京的家樂福然后再去南鑼鼓巷最后到我家,我要紅綠燈少的不堵車的最快的路線,你幫我路線規(guī)劃一下吧”,百度地圖語音助手順利接受語音輸入,自然流暢地提供了導航服務(wù)。

這個過程中,百度地圖的語音技術(shù)邁過了AI語音操控的三道坎:聽清,在類似駕車等嘈雜環(huán)境中聽清楚語音;聽懂,識別復雜語句的真實意圖,尤其是適應用戶非標準的、隨性的請求;滿足,將意圖與后臺操作對應,滿足用戶真實訴求。只有這樣,所謂“全語音操控”才能坐實。

而這些同樣得益于百度的語音技術(shù)能力——從SMLTA模型(一種大大提高語音理解能力的技術(shù)),到小度全雙工連續(xù)交互技術(shù)(連續(xù)多次指令,不需要重復說小度小度這樣的喚醒詞,只要按正常人與人交流的方式即可)以及更多百度AI的亮眼語音技術(shù)來看,百度地圖的全語音操控也并不意外。

在語音之外,百度地圖還有許多與前沿科技結(jié)合的交互技術(shù)來提升用戶體驗。

例如,百度地圖利用AR現(xiàn)實增強技術(shù),在各個場景中,為用戶提供沉浸式實景地圖使用體驗。比如,AR雙屏步導功能可以同步顯示常規(guī)地圖與實景畫面,用戶只需要跟隨實景畫面中的箭頭圖案即可到達目的地;AR周邊探索功能可顯示當前場景內(nèi)美食、娛樂、購物、麗人、運動、銀行、酒店、景點、樓宇等POI點(興趣點),點擊即可導航;此外,地圖常常被使用的旅游場景中,AR導覽可以屏幕上標記當前景區(qū)的景點。

回過頭來看,自從2018年3月百度地圖并入AIG后,借助AI技術(shù)的百度地圖煥發(fā)出全新的生機,憑借各種顛覆性的用戶體驗創(chuàng)新,百度地圖與競品的差異化程度逐步加深。

定制語音功能的推出,更標志著百度地圖在競爭中已經(jīng)升維,以擁抱未來的新一代產(chǎn)品姿態(tài)參與競爭。

可以料想的是,未來,這樣借助AI等前沿技術(shù)的細節(jié)體驗打磨想必會更多,技術(shù)上的絕對領(lǐng)先讓百度地圖不會再像過去那樣在競爭中見招拆招不分勝負,招招必殺的2.0時代或已經(jīng)開啟。

結(jié)語

語音技術(shù)在百度地圖上有了最佳實踐,其實也是百度AI技術(shù)本身硬核實力的表現(xiàn)。除了百度地圖,百度硬核的語音技術(shù)一直在賦能百度系內(nèi)部各大產(chǎn)品,例如:

語音輸入用戶認知、使用狀況、準確率遙遙領(lǐng)先行業(yè)的百度輸入法,已經(jīng)憑借語音輸入獲得了全新的差異化競爭優(yōu)勢;全新體驗的語音搜索徹底解放用戶雙手,“所說即所得”,簡單動動嘴即可探索世界,這為搜索注入了全新的動能;出貨量國內(nèi)第一、全球領(lǐng)先的小度音箱,區(qū)別競品聽不懂、亂回話的尷尬狀況,為智能音箱的智能和體驗正名……

百度AI業(yè)界公認最強,而語音定制功能反映出語音技術(shù)更是業(yè)界翹楚。從最深層的技術(shù)能力,到最表層的用戶體驗,百度語音技術(shù)憑借內(nèi)部產(chǎn)品和外部合作伙伴打通了全部鏈路、進行了全面落地化的布局,正在成為百度AI的重頭戲。

免責聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2019-09-20
全球首推語音定制產(chǎn)品,百度地圖背后的語音技術(shù)到底有多強大?
個性化需求只要生根就會發(fā)芽、長大,在AI語音合成的支持下,有了不同的明星語音包,越來越多的用戶潛在也會有的更為個性化的語音需求,誰能激發(fā)和實現(xiàn)這種需求,誰就贏得了無法追趕的競爭優(yōu)勢。

長按掃碼 閱讀全文