三問AI手機:什么意圖?怎么識別?何種框架?

早在幾個月前,就有媒體同行問我:AI手機到底是什么?跟智能手機有什么本質(zhì)的不同?

試想一下,如果經(jīng)常跟科技企業(yè)、技術(shù)趨勢打交道的媒體人、分析師都對何謂AI手機云里霧里,更別提門店銷售和消費者了。

2024被認為是AI手機元年,但今天走進線下門店,會發(fā)現(xiàn)店員和用戶都對手機里的AI有啥不一樣,感知并不明顯。

移動互聯(lián)網(wǎng)時代,我們常說手機是人“肢體”的延伸,可以讓我們的“手”觸及更遠的地方,“看”到更廣闊的事物。到了AI時代,手機是“大腦”的延伸,心念一動、言出法隨,手機會根據(jù)我們的使用習(xí)慣和意圖,主動提供有價值的服務(wù)。

所以,AI手機區(qū)別于智能機的一個更高階、更本質(zhì)的能力,就是“意圖識別”。

目前,蘋果陣營、華為鴻蒙陣營、榮耀OV安卓陣營,都將意圖識別作為重點。

蘋果CEO庫克在AI系統(tǒng)“Apple Intelligence”的發(fā)布會上重點強調(diào),在“蘋果智能(Apple Intelligence)”的支持下,Siri具備了精準(zhǔn)識別用戶真正意圖的能力。

而安卓和鴻蒙用戶,恐怕對此并不陌生。

華榮OV等國產(chǎn)手機廠商早就上線了相應(yīng)能力。榮耀在2023開發(fā)者大會上帶來了行業(yè)首個基于AI意圖識別的人機交互(IUI)操作系統(tǒng)——MagicOS 8.0;華為在HDC 2024上提出Harmony Intelligence,使得小藝能力大幅提升,能夠理解并預(yù)測用戶需求,并通過意圖框架與合作伙伴應(yīng)用場景整合。

OV雖然沒有明確推出意圖框架等平臺,但也用行動參與其中。將大模型融入系統(tǒng)的底層設(shè)計中,升級OriginOS、BlueOS,來實現(xiàn)復(fù)雜的意圖識別和推理決策。

那么用戶又該迷惑了,各家都在說“意圖識別”,到底有啥不一樣呢?

“意圖”是人心中所想,帶有模糊和不確定性,“識別”結(jié)果也就有了很大的自由闡釋空間,廠商如何避免自說自話,把“手機懂你”這件事落在實處?

就要依靠一個操作系統(tǒng)級的全局意圖感知、理解、決策技術(shù)體系。

我們不妨把“意圖識別框架”這一新概念詳細拆分開,看看每一個環(huán)節(jié)的準(zhǔn)入門檻是什么。

意圖識別的第一步,當(dāng)然是搞清楚什么是用戶的“意圖”,也就是手機廠商所說的“懂你”。

但“意圖”并不是什么新概念。

早在互聯(lián)網(wǎng)時代,意圖識別就被應(yīng)用于搜索引擎、廣告推薦等場景。比如用戶在搜索框輸入“抓娃娃”,底層的檢索策略要識別到這是電影需求,再去電影的數(shù)據(jù)庫里檢索,如果電影意圖識別失敗,返回的搜索結(jié)果中,根本沒有《抓娃娃》電影相關(guān)內(nèi)容,或者要翻好幾頁才顯示,都會導(dǎo)致很糟糕的用戶體驗。所以,意圖識別很早是科技企業(yè)研究的對象。

那么,AI手機所謂的“意圖識別”,有啥特殊呢?

特殊在于,要游過深海。

今天手機所承載的“意圖”,有兩個特點:

一是范圍廣。一個動作或詞語可能對應(yīng)多個意圖?,F(xiàn)代消費電子設(shè)備的激增,帶來了豐富多樣的功能和服務(wù),幾乎涵蓋了我們生活的方方面面,終端設(shè)備的多元、服務(wù)的多樣,經(jīng)常會出現(xiàn)多種意圖,比如輸入“長城”,可能是景點、電影或者汽車,這就使手機的意圖識別更難做。

二是隱蔽性。傳統(tǒng)意圖識別可以根據(jù)用戶給出的query詞來進行判斷,屬于相對明確的“顯性意圖”,但日常使用手機時,還有大量隱性意圖,比如眼睛注視手機屏幕,可能是想看時間、看新消息通知或日程計劃;遺忘了出行計劃,可實際上航班時間應(yīng)該重點關(guān)注……這些是用戶真實需要,但自己很少意識到或清晰表達出來的“隱性意圖”,由于無法被清晰表達,難以轉(zhuǎn)譯成計算機語言,自然也就難以滿足。

這些多且隱蔽的意圖,構(gòu)成了一片“意識深?!?,需要手機廠商跋涉而過,找到一條最短路徑。

由此,我們不難明確,AI手機意圖識別的意義:

首先是化繁為簡。通過洞察用戶真正的需求,簡化獲取服務(wù)的步驟。

比如榮耀的“任意門”功能,帶來了行業(yè)首個基于意圖識別的人機交互,只需一拖不到1秒即可完成以往8步10秒的操作流程。當(dāng)用戶收到一條信息,復(fù)制之后,系統(tǒng)會自動分析語義并提煉關(guān)鍵內(nèi)容,預(yù)判接下來的需求和操作,自動一步直達備忘錄、地圖等應(yīng)用。華為智慧搜索支持“一鍵場景直達”、OPPO的ColorOS 14系統(tǒng)中的“流體云”功能,能預(yù)測用戶行為,自動接入相應(yīng)的使用場景……這些都簡化了操作步驟。

其次,多想一步。通過隱性意圖的識別和滿足,帶來超出用戶期望的驚喜體驗,構(gòu)建差異化優(yōu)勢。

華為曾在一次分享會中提到,HarmonyOS意圖框架可以通過長時間的學(xué)習(xí)訓(xùn)練,把人們自己都感覺不到的規(guī)律串聯(lián)起來,并通過端側(cè)的本地學(xué)習(xí)完成本地學(xué)習(xí)推薦,從而完成“超預(yù)期”的智慧搜索服務(wù)體驗。

接下來,可以主動服務(wù)。比用戶多想一步,就能將服務(wù)化被動為主動,更快更恰當(dāng)?shù)厮偷接脩舻难矍爸讣狻?/strong>

目前,鴻蒙系統(tǒng)的場景化入口,就可以根據(jù)意圖判斷,將不同服務(wù)融入實際場景中,比如搭乘飛機,航班信息會優(yōu)先顯示在實時狀態(tài)欄,榮耀Magic Live也有類似的主動服務(wù),在觀影、聽歌、走進地鐵站等場景中,提前將取票、聽歌偏好、地鐵碼等原子化服務(wù)進行推送。

基于意圖識別的人機交互,讓你最需要的服務(wù),涉過意識的深海。

洞察到了用戶的意圖,就能將服務(wù)精準(zhǔn)送達嗎?其實還要穿過一片AI的叢林。

有一個職場段子,老板讓秘書定一個航班,最低段位的秘書,就只會看那一班,而最高段位的,還會提供多個航班選擇,還考慮到出差需求,也把當(dāng)?shù)氐淖∷?、餐飲等都提前查好備選。

如果讓手機AI來應(yīng)聘做你的助理,你希望是哪一個段位呢?

最高段位的AI助理,要真正理解你說的話背后的真實意圖,并真正完成你想要的任務(wù),其實要拆分為幾個步驟。

步驟一:充分感知。一個優(yōu)秀的助理,并非“胡子眉毛一把抓”,什么事情都要提前安排,而是結(jié)合上下文背景和情境,來對用戶的潛在意圖進行判斷。所以,充分感知場景和情境,就非常必要了。

蘋果高級副總裁Craig曾表示,Apple Intelligence的真正獨特之處是能理解個人情境。能夠根據(jù)你的個人數(shù)據(jù),你現(xiàn)在打開的頁面等背景,來理解需求。

比蘋果更早一些,榮耀在2016年第一代Magic上首發(fā)Magic Live智慧系統(tǒng),就能夠自動感知判斷。

步驟二:分析判斷。

有了上下文背景,怎么推斷多個意圖的重要性和優(yōu)先級呢?這就涉及語義理解了。目前,檢索、問答等任務(wù),由于用戶有明確的檢索詞,利用大模型的自然語言理解能力,已經(jīng)可以很好地推斷用戶到底想干什么。

其中比較具有代表性的是Apple Intelligence蘋果智能+ GPT-4o大模型的方案?;贏pple Intelligence,蘋果為Siri引入了多模態(tài)交互能力,可以從輸入的自然語言中精準(zhǔn)地進行用戶意圖識別,將任務(wù)拆分為多個任務(wù),作為生成回答的基石。

步驟三:精準(zhǔn)執(zhí)行。

我們可以把每一個服務(wù)和功能,想象成一個個智能體,每個智能體只有孤立的識別和輸出能力,要完成用戶需要的復(fù)雜任務(wù),需要對這些智能體進行精巧地、自動化地調(diào)取和編排,才能在意圖判斷之后,做出最恰當(dāng)?shù)膱?zhí)行反饋。

OPPO與IDC聯(lián)合發(fā)布的《AI手機白皮書》中提到,成熟的AI手機系統(tǒng)要內(nèi)嵌用戶定義的專屬智能體,不斷理解用戶習(xí)慣,自學(xué)習(xí)、直覺化。

在VDC開發(fā)者大會的一場技術(shù)論壇中,vivo的技術(shù)人員也透露,作為業(yè)內(nèi)首個推出手機大模型(藍心大模型)的廠商,他們很早就開始研究agent,對手機原生化服務(wù)組件的拆分很細、編排恰當(dāng)。

這樣看,從意圖到服務(wù)之間,還要經(jīng)過數(shù)據(jù)(感知)、算法(分析)、智能體(執(zhí)行)的一片AI森林,只有具備完整AI技術(shù)體系的廠商,才能順利跑通。

從上述意圖識別的拆解中不難感受到,AI手機想做的“以人為中心”的主動服務(wù),跨設(shè)備的數(shù)據(jù)流轉(zhuǎn)(全場景感知),跨應(yīng)用的服務(wù)觸達,以及全局安全,是必不可少的。

如何將各層級、各終端、各系統(tǒng)、各應(yīng)用都整合在一起?

意圖框架,就是關(guān)鍵紐帶,具備操作系統(tǒng)平臺級的能力,可以讓AI貫穿從數(shù)據(jù)到服務(wù)的完整鏈路,帶來意圖識別的能力飛躍。

目前,榮耀、華為、蘋果都推出了自己的框架或平臺。

其中,Magic?Live智慧引擎是基于場景感知、用戶理解和意圖決策三大核心能力的平臺型AI解決方案,形成了一個能夠銜接各種軌跡和能力的“大腦”,實現(xiàn)了從單意圖到多意圖關(guān)聯(lián)的精準(zhǔn)意圖判斷。

蘋果也采用了“榮耀模式”,App Intent意圖框架包含了自學(xué)習(xí)引擎,實時學(xué)習(xí)用戶行為,并根據(jù)時間和空間信息,提供個性化服務(wù)。

華為HarmonyOS的意圖框架,則構(gòu)建全局意圖范式,基于鴻蒙系統(tǒng)的跨端互聯(lián)協(xié)作優(yōu)勢,實現(xiàn)多維系統(tǒng)感知,結(jié)合AI大模型、AI推理框架、端云協(xié)同等計算處理能力,將需求傳遞給服務(wù)方,拉起/執(zhí)行更恰當(dāng)?shù)姆?wù)。

總結(jié)一下榮耀、華為、蘋果的意圖框架,就是具備“地基”的能力。

為了更好的意圖理解,三家都進行了深度的技術(shù)搭建,實現(xiàn)了操作系統(tǒng)級別、跨終端的意圖感知、理解,只有深入到系統(tǒng)層面,才能真正重構(gòu)手機AI體驗。

同時,意圖識別會涉及敏感數(shù)據(jù)的采集、共享和流動,在隱私安全方面,無論是一貫以隱私保護著稱的蘋果,還是榮耀的MagicGuard和MagicRing信任環(huán),華為HarmonyOS NEXT的原生安全,都說明唯有平臺級的AI能力,能在釋放智慧的同時,守住安全的防線。

說到這里,你是不是有點疑惑,既然意圖識別這么難、需要改造和創(chuàng)新的地方這么多,效果也不是一時半會兒能體現(xiàn)出來的,主打一個“誰用誰知道”,要不還是先躺平算了。

確實,意圖識別的每一關(guān)都不好過,但這正是競爭白熱化、同質(zhì)化的手機市場,廠商突圍的關(guān)鍵。

更何況,AI手機應(yīng)該是消費電子市場最大的一個新蛋糕,華榮OV等一批國內(nèi)廠商又早已“上桌”,只要攻克一些技術(shù)難關(guān),就能成功分到大蛋糕,何樂而不為呢?

意圖識別框架上,正在醞釀一場從“以手機為中心”到“以人為中心”的交互之變,AI手機才剛剛萌芽。

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2024-08-23
三問AI手機:什么意圖?怎么識別?何種框架?
三問AI手機:什么意圖?怎么識別?何種框架?

長按掃碼 閱讀全文