郭德綱out了,聽(tīng)自己的語(yǔ)音導(dǎo)航吧

文|吳俊宇

美國(guó)鬼才科普作家詹姆斯·弗拉霍斯用《智能語(yǔ)音時(shí)代》這樣一個(gè)標(biāo)題形容了如今語(yǔ)音科技對(duì)人們的影響。

他的副標(biāo)題很有趣——商業(yè)競(jìng)爭(zhēng)、技術(shù)創(chuàng)新與虛擬永生。

在他看來(lái),每十年左右,人與技術(shù)的互動(dòng)方式就會(huì)有一個(gè)根本性的轉(zhuǎn)變。數(shù)十億美元的財(cái)富會(huì)“恭候”那些定義了新的時(shí)代范式的公司,而落伍者將破產(chǎn)倒閉。

語(yǔ)音正在變成影響現(xiàn)實(shí)的通用遙控器,成為幾乎能控制任何一種技術(shù)裝置的手段。語(yǔ)音打破了世界上一些最有價(jià)值的公司的商業(yè)模式,為新的應(yīng)用創(chuàng)造了機(jī)會(huì)。

這一次,百度地圖用語(yǔ)音定制功能同時(shí)展現(xiàn)了品牌營(yíng)銷和技術(shù)積淀的雙重能力。其中的語(yǔ)音技術(shù)未來(lái)的ToB、ToC領(lǐng)域也都有寬闊的運(yùn)用空間。

品牌營(yíng)銷的創(chuàng)新

過(guò)去地圖行業(yè)常常找來(lái)明星站臺(tái),通過(guò)明星語(yǔ)音包的方式展開(kāi)品牌活動(dòng)。

這種策略的確卓有成效,事實(shí)上,不管是湯唯、林志玲語(yǔ)音都很受用戶的歡迎。但是要知道,明星的粉絲畢竟圈層有限,明星語(yǔ)音可能僅僅只能吸引一部分粉絲用戶,想要真正擴(kuò)大圈層,實(shí)現(xiàn)營(yíng)銷破圈,可能要采取一些別的策略。

不過(guò)有趣的是,9月19日,百度地圖發(fā)布語(yǔ)音定制功能,直接推出了用戶定制專屬語(yǔ)音包。

定制方式很簡(jiǎn)單,打開(kāi)百度地圖App,喚醒“小度小度”后說(shuō)“錄制我的語(yǔ)音”,或點(diǎn)擊百度地圖首頁(yè)的“出行助手”后進(jìn)入“語(yǔ)音定制”,便可開(kāi)啟語(yǔ)音定制之旅。在安靜的環(huán)境中,跟著百度地圖指引,念出卡通和影視臺(tái)詞等充滿趣味性的錄制文本,等待大約20分鐘,就能擁有一個(gè)自己專屬的語(yǔ)音包。

百度地圖事業(yè)部總經(jīng)理李瑩

最后你就可以用自己的語(yǔ)音包替換掉其他明星語(yǔ)音包,可以在百度地圖的景區(qū)智能語(yǔ)音導(dǎo)覽、智能語(yǔ)音交互、導(dǎo)航等全部場(chǎng)景使用。

讓用戶使用地圖時(shí)聽(tīng)著自己的語(yǔ)音,這或許是一個(gè)對(duì)所有人來(lái)說(shuō),都是個(gè)饒有趣味的嘗試,這種嘗試的有趣之處在于:

1、滿足新鮮感;明星語(yǔ)音已經(jīng)是市面上大部分手機(jī)地圖的常規(guī)操作,由于傳導(dǎo)機(jī)制的不同,人們聽(tīng)自己聲音與自己聲音的錄音往往不同,這種“奇妙而羞恥”的感受往往比明星語(yǔ)音來(lái)得更有趣。

2、打破了圈層;明星語(yǔ)音畢竟只是一部分粉絲群體會(huì)選擇使用,但是自己的語(yǔ)音卻是所有人都感興趣的,不花一分錢請(qǐng)明星做代言,不針對(duì)少部分粉絲用戶群體,直接用技術(shù)手段覆蓋所有用戶群體,這種策略可謂是四兩撥千斤。

可以說(shuō),這既是一次營(yíng)銷活動(dòng),也是一次技術(shù)展示。而且兩者有著很好的結(jié)合,

已經(jīng)很少有品牌營(yíng)銷能夠真正讓技術(shù)能力得到釋放,但是百度地圖這次做到了。它讓技術(shù)和營(yíng)銷軟硬兼?zhèn)洹?/p>

語(yǔ)音技術(shù)的躍進(jìn)

這個(gè)功能主要應(yīng)用了百度獨(dú)創(chuàng)的風(fēng)格遷移技術(shù)Meitron模型。

所謂風(fēng)格遷移這個(gè)概念最早來(lái)源于圖像領(lǐng)域的概念,簡(jiǎn)單說(shuō)就是:將一張圖片的藝術(shù)風(fēng)格應(yīng)用到另外一張圖片上。

語(yǔ)音的風(fēng)格遷移其實(shí)也被稱作是“語(yǔ)音克隆”(voice clone)、“多說(shuō)話人風(fēng)格遷移”(multi-speaker)、“風(fēng)格遷移”(style transfer)、“語(yǔ)音轉(zhuǎn)換”(voice conversion)。

要知道語(yǔ)音的風(fēng)格遷移非常困難。

因?yàn)樯疃染W(wǎng)絡(luò)對(duì)于語(yǔ)音處理困難。一來(lái)不如圖像和文本領(lǐng)域研究火熱,二來(lái)語(yǔ)音所具有的信息,難以編碼到高維隱空間。一段語(yǔ)音時(shí)間序列中,混雜著以下方面的信息:說(shuō)話人特征(如一個(gè)人的音色,音調(diào)等);語(yǔ)言學(xué)內(nèi)容(語(yǔ)音表述的內(nèi)容);副語(yǔ)言特征(如情感等)。

2017年,美國(guó)曾有一篇名為《Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis》的學(xué)術(shù)論文講述風(fēng)格遷移的問(wèn)題。

百度地圖這次采用的Meitron模型其特點(diǎn)主要體現(xiàn)在發(fā)音人音色轉(zhuǎn)換,多情感朗讀和韻律風(fēng)格遷移三個(gè)方面,從而讓個(gè)性化語(yǔ)音合成的定制門檻大大降低。

要知道,過(guò)去明星地圖語(yǔ)音的錄制非常麻煩。以高德地圖的林志玲語(yǔ)音為例,它的制作分成兩塊。

一塊是按照錄音稿錄制出來(lái)的語(yǔ)音內(nèi)容。另一塊則是高德當(dāng)時(shí)找專人,跟了林志玲幾個(gè)月,貼身錄音,把原始聲音文件處理提取出數(shù)字特征。再采用通用的、很完善波型合成技術(shù),將元音、輔音及音調(diào)等采樣,通過(guò)算法實(shí)現(xiàn)文語(yǔ)轉(zhuǎn)換。

這是2014年明星語(yǔ)音生成的處理方案——看完你大概會(huì)想,錄個(gè)音實(shí)在太難了。

但是在Meitron模型下情況就不一樣了,這個(gè)模型背后的技術(shù)支撐是百度大腦語(yǔ)音技術(shù)的賦能。AI的加持讓地圖語(yǔ)音包生產(chǎn)實(shí)現(xiàn)了從月級(jí)別到分鐘級(jí)別的突破性進(jìn)展。

百度語(yǔ)音首席架構(gòu)師賈磊

該模型是目前行業(yè)領(lǐng)先的語(yǔ)音合成技術(shù)。用手機(jī)即可完美復(fù)刻說(shuō)話者的音色,風(fēng)格,情緒等。

關(guān)鍵是,僅僅只需要20分鐘就能全部生成。也就是說(shuō),未來(lái)不管是什么明星,他們的語(yǔ)音只需要在Meitron模型里跑20分鐘,基本就能生成一個(gè)完整的導(dǎo)航語(yǔ)音包。

語(yǔ)音合成能力越強(qiáng),其實(shí)也說(shuō)明未來(lái)人機(jī)交互、語(yǔ)義理解的可能性越大,機(jī)器閱讀的能力越強(qiáng)。

短短5年時(shí)間,AI加持下的語(yǔ)音技術(shù)可謂突飛猛進(jìn)。百度大腦的實(shí)力可見(jiàn)一斑。

未來(lái)商業(yè)的結(jié)合點(diǎn)

這次品牌營(yíng)銷其實(shí)也是百度語(yǔ)音技術(shù)的一次能力展示,它未來(lái)在ToB側(cè)、ToC側(cè)都可以有更多結(jié)合之處。

比如深度神經(jīng)網(wǎng)絡(luò)技術(shù),提供高度擬人、流暢自然的語(yǔ)音合成服務(wù),讓客戶的應(yīng)用、設(shè)備開(kāi)口說(shuō)話,更具個(gè)性。

1、教育和閱讀類產(chǎn)品:讓課程和講解變得更生動(dòng)

通過(guò)閱讀類APP閱讀小說(shuō)或新聞時(shí),如果使用語(yǔ)音合成技術(shù)為用戶提供多種發(fā)音人的朗讀功能,釋放雙手和雙眼,獲得更極致的閱讀體驗(yàn)。

2、生活和服務(wù)類產(chǎn)品:讓服務(wù)交互效率得以提升

語(yǔ)音合成還可應(yīng)用于打車軟件、餐飲叫號(hào)、排隊(duì)軟件等場(chǎng)景,通過(guò)語(yǔ)音合成進(jìn)行訂單播報(bào),讓用戶便捷獲得通知信息。面部識(shí)別則是可以展開(kāi)顧客識(shí)別、訂單校對(duì)。

3、智能硬件類產(chǎn)品:讓人機(jī)活動(dòng)變得更鮮活有趣

可集成到兒童故事機(jī)、智能機(jī)器人、平板設(shè)備等智能硬件設(shè)備,使用戶與設(shè)備的交互更自然、更親切。

當(dāng)然,對(duì)百度地圖自身而言,這次語(yǔ)音合成技術(shù)的使用使其人工智能地圖的稱謂名副其實(shí)——所謂人工智能地圖指的是,在AI賦能下,地圖在交互體驗(yàn)、位置信息、出行服務(wù)以及出行決策等方面產(chǎn)生了重大變革。

對(duì)ToC用戶來(lái)說(shuō),未來(lái)的百度地圖會(huì)具備更多AI能力和語(yǔ)音交互能力,它在使用過(guò)程中會(huì)變得更便捷、更智能,比如說(shuō),結(jié)合用戶的使用習(xí)慣和當(dāng)前的場(chǎng)景,通過(guò)用戶畫(huà)像、深度學(xué)習(xí)等能力,給每個(gè)用戶帶來(lái)個(gè)性化信息和服務(wù)推薦。

對(duì)ToB用戶而言,未來(lái)的百度地圖同樣可以運(yùn)用AI能力和語(yǔ)音交互能力,為客戶和商家基于語(yǔ)音的地理位置服務(wù),結(jié)合人口分布、客流分析、設(shè)施分布等多項(xiàng)大數(shù)據(jù)分析服務(wù);面向規(guī)劃、房產(chǎn)、商業(yè)、零售等行業(yè)提供解決方案。

當(dāng)“你應(yīng)我答”的模式出現(xiàn),在人與人之間、人與機(jī)器之間,交談就絕不只是一種純粹依靠邏輯展開(kāi)的過(guò)程。語(yǔ)言永遠(yuǎn)不是脫離內(nèi)容的外殼,人都會(huì)被語(yǔ)言影響或打動(dòng)。

未來(lái),我們與無(wú)處不在的機(jī)器構(gòu)成的世界,將是一個(gè)前所未見(jiàn)的更加豐富多彩的感性世界。

詹姆斯· 弗拉霍斯有這樣一個(gè)設(shè)想:

在云時(shí)代,“只要簡(jiǎn)單地加上一個(gè)麥克風(fēng)和一個(gè)Wi-Fi芯片,任何裝置都能實(shí)現(xiàn)語(yǔ)音驅(qū)動(dòng)。從浴室的水龍頭到孩子玩的布娃娃,任何裝置都能利用分布在全球的幾千臺(tái)計(jì)算機(jī)所提供的計(jì)算能力?!边@幾乎意味著“萬(wàn)物能言”的童話世界真的實(shí)現(xiàn)了。

在這樣的世界之中,商業(yè)邏輯和產(chǎn)品邏輯也將有著更多改變。語(yǔ)音可能真的要成為地圖等產(chǎn)品的入口之一。

--------------------------------------------

作者 | 吳俊宇 公眾號(hào) | 深幾度

作者系獨(dú)立撰稿人,微信號(hào)852405518

關(guān)注科技公司、互聯(lián)網(wǎng)現(xiàn)象的解讀

曾獲鈦媒體2015、2016、2018年度作者

新浪創(chuàng)事記2018年度十大作者

品途網(wǎng)2016年度十大作者

騰訊科技2015年度最具影響力自媒體

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2019-09-19
郭德綱out了,聽(tīng)自己的語(yǔ)音導(dǎo)航吧
文|吳俊宇美國(guó)鬼才科普作家詹姆斯·弗拉霍斯用《智能語(yǔ)音時(shí)代》這樣一個(gè)標(biāo)題形容了如今語(yǔ)音科技對(duì)人們的影響。他的副標(biāo)題很有趣——商業(yè)競(jìng)爭(zhēng)、技術(shù)創(chuàng)新與虛擬永生。在他看來(lái),每十年左右,人與技術(shù)的互動(dòng)方式就會(huì)有一個(gè)根本性的轉(zhuǎn)變。

長(zhǎng)按掃碼 閱讀全文