2015年百度世界展出了語(yǔ)音和圖像為代表的多媒體搜索技術(shù),這并非其首次亮相百度世界大會(huì),多媒體搜索已成為百度的重頭戲,與連接人與服務(wù)戰(zhàn)略、人工智能戰(zhàn)略一起構(gòu)成百度的“三駕馬車”。
多媒體搜索越來(lái)越重要
各大搜索引擎在搜索框之外,迎來(lái)兩個(gè)新圖標(biāo):話筒和相機(jī),分別對(duì)應(yīng)到語(yǔ)音和圖像搜索。通過向搜索引擎說一段話發(fā)號(hào)施令,或者直接拍攝生活中的實(shí)景,表明搜索意圖更加簡(jiǎn)單和自然。讓機(jī)器“聽”和“看”,是人類一直孜孜不倦的追求,這也是人類獲取信息最重要的兩種方式。
鑒于未來(lái)的搜索引擎不再是回答問題的“百科全書”,而是幫助人們解決生活中各類需求的“智能助手”,所以它必須越來(lái)越聰明,接近人類的智能。一個(gè)重要的改進(jìn)方向便是交互,搜索引擎必須能聽、會(huì)看,才能實(shí)現(xiàn)真正的智能。所以,在后移動(dòng)互聯(lián)網(wǎng)時(shí)代多媒體搜索會(huì)成為主流,依賴鍵盤輸入的文本搜索比重將越來(lái)越小。李彥宏對(duì)此早有斷言,他認(rèn)為未來(lái)超過一半的搜索將來(lái)自語(yǔ)音和圖像為代表的多媒體交互。
語(yǔ)音和圖像搜索并非新技術(shù),90年代IBM便推出了語(yǔ)音輸入軟件,2008年Google 就推出了Voice Search以及“以圖搜圖”,百度在PC時(shí)代也有過類似嘗試。移動(dòng)互聯(lián)網(wǎng)時(shí)代語(yǔ)音和圖像搜索才進(jìn)入真正意義上的商用階段。移動(dòng)互聯(lián)網(wǎng)帶來(lái)了語(yǔ)音和圖像搜索的使用場(chǎng)景,帶來(lái)了具備麥克風(fēng)、喇叭和攝像頭的智能設(shè)備,語(yǔ)音搜索和圖像搜索技術(shù)也迎來(lái)飛速發(fā)展,量變產(chǎn)生了質(zhì)變,語(yǔ)音和圖像搜索正在走向大眾化,與文本搜索一樣舉足輕重。
百度猛攻語(yǔ)音和圖像搜索
多媒體搜索有廣泛的涵義,除了文本之外的“富媒體”搜索都算多媒體搜索,例如語(yǔ)音、圖像、體感、位置、社交關(guān)系、物質(zhì)解析(百度筷搜)等輸入內(nèi)容。不過,最重要的兩類搜索是語(yǔ)音和圖像搜索。在去年百度展出了通過拍照搜索識(shí)別動(dòng)態(tài)衣服的技術(shù),基于圖像搜索技術(shù)的百度EYE以及小度機(jī)器人,2015百度世界重點(diǎn)展出了語(yǔ)音和圖像搜索技術(shù)的進(jìn)展,百度在語(yǔ)音和圖像上依然還在大力投入和不斷改進(jìn)。
Siri為代表的語(yǔ)音助手普及,培養(yǎng)了人們通過語(yǔ)音與機(jī)器交互的習(xí)慣,在家里為代表的安靜場(chǎng)景、在車內(nèi)為代表的雙手不空閑場(chǎng)景,在步行為代表的打字不便場(chǎng)景,語(yǔ)音都有很大的施展空間。而且語(yǔ)音不需要學(xué)習(xí),包含情感色彩,能夠傳遞更多信息。倘若技術(shù)達(dá)到應(yīng)用標(biāo)準(zhǔn),語(yǔ)音交互技術(shù)爆發(fā)是必然事件。
語(yǔ)音交互與搜索引擎的結(jié)合正在日趨緊密,不久前Siri與百度達(dá)成合作引入百科等內(nèi)容,百度在今年則陸續(xù)將語(yǔ)音與搜索、外賣等業(yè)務(wù)整合,百度做語(yǔ)音的底氣來(lái)自于兩點(diǎn):一是技術(shù)上應(yīng)用深度學(xué)習(xí)大幅提升了識(shí)別準(zhǔn)確率;二是百度擁有豐富的后端內(nèi)容和服務(wù)。這意味著百度語(yǔ)音和圖像搜索的發(fā)展對(duì)百度連接人與服務(wù)戰(zhàn)略有很強(qiáng)的支撐效果,百度強(qiáng)調(diào)要做更具技術(shù)含量的O2O,例如支持通過語(yǔ)音點(diǎn)外賣。
圖像搜索受益于二維碼的普及,不過二維碼是結(jié)構(gòu)化的圖形,機(jī)器的最終目標(biāo)是像人眼一樣去認(rèn)識(shí)世界。人類90%的信息來(lái)自于視覺,“看”在信息獲取上是主要方式。上傳一張圖片讓機(jī)器識(shí)別并不是很自然,但如果機(jī)器都擁有攝像頭和快速識(shí)別能力,其理解世界的方式將非常自然。將圖像識(shí)別與后端知識(shí)庫(kù)和各類服務(wù)打通的圖像搜索,是一種所見即所得的自然搜索。
百度在這塊進(jìn)行了大量探索,例如識(shí)別一張圖片中的物體并與廣告內(nèi)容結(jié)合,識(shí)別圖片中的文字進(jìn)行翻譯,識(shí)別文本化的題目并解答,識(shí)別藥品并介紹療效以及導(dǎo)入藥店……這些基于百度深度學(xué)習(xí)等后端人工智能技術(shù),以及海量的圖片數(shù)據(jù)庫(kù)和內(nèi)容知識(shí)圖譜。
對(duì)于百度而言,語(yǔ)音和圖像搜索的投入是站在交互角度來(lái)突破移動(dòng)搜索現(xiàn)有形態(tài)。鑒于使用場(chǎng)景的特性,多媒體搜索對(duì)于百度連接人與服務(wù)戰(zhàn)略將形成很強(qiáng)的支撐作用。服務(wù)搜索主要來(lái)自于移動(dòng)搜索,而移動(dòng)搜索未來(lái)將走向多媒體搜索。除了連接人與服務(wù),百度還有一個(gè)戰(zhàn)略是人工智能等前沿技術(shù)的布局,語(yǔ)音和圖像搜索的基礎(chǔ)正是來(lái)自于深度學(xué)習(xí)、大數(shù)據(jù)等技術(shù)成果的轉(zhuǎn)化。所以語(yǔ)音和圖像搜索成為百度將人工智能等研發(fā)成果轉(zhuǎn)化到連接人與服務(wù)實(shí)踐的“橋梁”。
多媒體搜索未來(lái)走向何方?
多媒體搜索依然還在起步階段,遠(yuǎn)遠(yuǎn)沒有文本搜索這樣成熟,這意味著還有很多創(chuàng)新空間。從多媒體搜索探路者百度的動(dòng)作來(lái)看,多媒體搜索在未來(lái)有以下發(fā)展趨勢(shì):
1、不同類型搜索相互結(jié)合。現(xiàn)在語(yǔ)音是語(yǔ)音、圖像是圖像,未來(lái)語(yǔ)音、圖像、位置、文本乃至視頻,各種形式的搜索會(huì)融合在一起,就像人與人的對(duì)話一樣,你理解對(duì)方的意圖即要聽、又要看(環(huán)境、表情、手勢(shì)……),可能還會(huì)結(jié)合上下文,總之是綜合多類搜索來(lái)理解的。未來(lái)多媒體搜索同樣會(huì)語(yǔ)音、圖像等并用,例如你可以拍照之后問百度一句話,“這張圖片中的狗是神馬品質(zhì)”,模擬人與人的交互。
2、多輪對(duì)話式搜索興起。語(yǔ)音搜索現(xiàn)在大都是用戶問一句,搜索引擎給出一個(gè)答案,圖像搜索同樣只能進(jìn)行“一輪”。但人與人之間的對(duì)話是有“上下文”聯(lián)系的,兩人之前談的內(nèi)容,會(huì)影響之后雙方的理解。因此語(yǔ)音、圖像搜索未來(lái)會(huì)更傾向于“多輪”,即搜索引擎可以記住之前的多次交互過程,并結(jié)合此理解用戶的語(yǔ)音或圖像,例如用戶可以先問“廣州的天氣怎么樣”再問”那邊有什么好吃的”,這樣搜索引擎就可以理解“那邊”是指代廣州。百度已為此申請(qǐng)“多輪交互專利”,語(yǔ)音交互可進(jìn)行需求引導(dǎo),根據(jù)上下文和大數(shù)據(jù)分析智能糾錯(cuò);Siri則初步實(shí)現(xiàn)了某些Case的多輪交互,比如語(yǔ)音調(diào)用聯(lián)系人之后的二次選擇。
3、解析速度決定用戶體驗(yàn)。語(yǔ)音和圖像搜索過去受限于計(jì)算速度以及網(wǎng)絡(luò)速度,有一定延遲,隨著云計(jì)算、大數(shù)據(jù)相關(guān)技術(shù)的成熟,識(shí)別速度得以快速提升。4G和WIFI的普及、帶寬提速也逐步消除了網(wǎng)絡(luò)障礙。不過識(shí)別速度依然還有提升空間,如果問人一句話,給人看一張圖,要等幾秒才有答案還是讓人不爽,近期某手機(jī)廠商主打離線語(yǔ)音助手提升識(shí)別速度就反映了這個(gè)問題。搜索引擎正在通過離線識(shí)別等技術(shù)來(lái)提升解析速度,百度語(yǔ)音識(shí)別采取動(dòng)態(tài)解碼技術(shù),實(shí)現(xiàn)了僅幾十毫秒延時(shí)的快速識(shí)別。
4、基于場(chǎng)景的搜索服務(wù)能力。語(yǔ)音和圖像搜索在復(fù)雜的場(chǎng)景中進(jìn)行,搜索發(fā)起的時(shí)間不同,地點(diǎn)不同,用戶的習(xí)慣、情緒有別,意味著背后有不同的需求,因此搜索引擎必須去識(shí)別用戶所處場(chǎng)景,與其位置、環(huán)境、個(gè)人畫像等數(shù)據(jù)結(jié)合起來(lái)分析,甚至嘗試根據(jù)語(yǔ)速、語(yǔ)調(diào)去分析用戶情感。同時(shí)整合豐富的服務(wù)對(duì)用戶需求進(jìn)行滿足,比如當(dāng)用戶在外面搜索“麥當(dāng)勞”應(yīng)該首先推薦周邊餐廳,在家里和辦公室則優(yōu)先推薦外賣服務(wù)……基于場(chǎng)景去滿足用戶的搜索需求。
5、無(wú)處不在的語(yǔ)音和圖像搜索。現(xiàn)在百度語(yǔ)音圖像搜索主要存在于網(wǎng)頁(yè)版百度、手機(jī)百度、百度HD版等百度系產(chǎn)品中,但同時(shí)要注意的是百度已經(jīng)通過開放平臺(tái)開放其語(yǔ)音和圖像搜索技術(shù)。這意味著許多應(yīng)用和設(shè)備都有機(jī)會(huì)用到語(yǔ)音和圖像搜索,它是一種開放能力,例如智能音箱可以用語(yǔ)音搜索歌曲并播放,汽車廠商在車內(nèi)預(yù)裝語(yǔ)音助手,智能電視通過語(yǔ)音操控和搜索節(jié)目……就是說,未來(lái)語(yǔ)音和圖像搜索是無(wú)處不在的。
微博@互聯(lián)網(wǎng)阿超 微信 羅超(luochaotmt)
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個(gè)大計(jì)劃瞄準(zhǔn)AI機(jī)器人
- 微信零錢通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費(fèi)引熱議
- 消息稱塔塔集團(tuán)將收購(gòu)和碩印度iPhone代工廠60%股份 并接管日常運(yùn)營(yíng)
- 蘋果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達(dá)新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場(chǎng)關(guān)注
- 馬斯克能否成為 AI 部部長(zhǎng)?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號(hào)發(fā)布,意外泄露引發(fā)關(guān)注
- 無(wú)人機(jī)“黑科技”亮相航展:全球首臺(tái)低空重力測(cè)量系統(tǒng)引關(guān)注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開展人形機(jī)器人合作
- 賽力斯觸及漲停,汽車整車股盤初強(qiáng)勢(shì)拉升
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。