近5年?duì)I收復(fù)合增長率超80%,一知智能的人工智能技術(shù)強(qiáng)在哪里?

人工智能這一概念,源自20世紀(jì)50年代中葉,由美國計(jì)算機(jī)技術(shù)專家約翰·麥卡錫首次提出。他與馬文·明斯基一樣,預(yù)言計(jì)算機(jī)將在20世紀(jì)70年代能擁有人類的智力水平,阿蘭·圖靈則認(rèn)為將在公元2000年實(shí)現(xiàn)。然而直至2023年ChatGPT橫空出世,才標(biāo)志著人工智能真正“出圈”,這項(xiàng)技術(shù)開始以前所未有的姿態(tài)走進(jìn)大眾視野,滲透到我們工作與生活的每一個(gè)角落。

一知智能自誕生起就貼著「人工智能」標(biāo)簽,追其根源,脫胎于浙江大學(xué)人工智能研究所,深耕多模態(tài)人機(jī)對話及生成式AI創(chuàng)新。現(xiàn)已為零售、金融、本地生活等20+行業(yè)提供了領(lǐng)先的AI外呼以及數(shù)字人解決方案。

那么,一知智能究竟是如何在眾多迅速崛起的AI公司中脫穎而出,并成功為品牌客戶與用戶搭建起高效交互橋梁的呢?

一、浙大·一知聯(lián)合研究中心,為研發(fā)創(chuàng)新保駕護(hù)航

一知智能「人工智能」標(biāo)簽的背后,始終離不開浙大·一知聯(lián)合研究中心的技術(shù)支持和前瞻性視野。一知脫胎于此、成就于此、亦反哺于此。

浙大·一知人工智能聯(lián)合研究中心自2019年2月成立以來,便成為一知智能技術(shù)創(chuàng)新與突破的強(qiáng)大后盾。該中心深耕多模態(tài)人機(jī)交互的產(chǎn)學(xué)研融合,擁有一支由超過40名碩士及博士研究生組成的精英團(tuán)隊(duì)。在人工智能國際頂級會(huì)議上屢獲佳績,于語音、語義、AIGC等前沿領(lǐng)域發(fā)表近40余篇國際頂級論文,申請多項(xiàng)專利與軟件著作權(quán),并斬獲國際自然語言推理競賽SNLI全球第一名和機(jī)器閱讀理解比賽SQuAD單模型組全球第二名的殊榮。

值得一提的是,研究中心與微軟亞洲研究院緊密合作,共同研發(fā)出基于Transformer的新型前饋網(wǎng)絡(luò)FastSpeech。實(shí)現(xiàn)了高質(zhì)量梅爾譜的并行、穩(wěn)定、可控生成,較傳統(tǒng)Transformer TTS技術(shù),梅爾譜生成速度提升近270倍,端到端語音合成速度提高近38倍,單GPU上的語音合成速度是實(shí)時(shí)語音速度的30倍。該技術(shù)幾乎完全消除了合成語音中重復(fù)吐詞和漏詞問題,同時(shí)支持語音速度與停頓的精細(xì)調(diào)整,優(yōu)化整體語句的韻律,為用戶帶來前所未有的自然語音交互體驗(yàn)。

坐落在浙大玉泉校區(qū)旁的研究中心

通過企業(yè)與學(xué)校強(qiáng)強(qiáng)聯(lián)手,充分發(fā)揮一知智能在人機(jī)交互領(lǐng)域引領(lǐng)性的研發(fā)優(yōu)勢,匯聚優(yōu)秀研發(fā)人才,力爭打造“技術(shù)創(chuàng)新、產(chǎn)品創(chuàng)新、人才創(chuàng)新”三位一體的創(chuàng)新型人工智能研究中心,保證了一知在人機(jī)交互領(lǐng)域的技術(shù)領(lǐng)先地位。同時(shí),一知智能積累的海量數(shù)據(jù)亦能反哺研究中心,讓數(shù)據(jù)產(chǎn)生價(jià)值,與浙大·一知聯(lián)合研究中心形成滾雪球般的良性循環(huán),共促技術(shù)革新與應(yīng)用落地。

二、從0到1,再到無限可能

先有技術(shù),再有產(chǎn)品。

在技術(shù)創(chuàng)新生態(tài)中,技術(shù)從“概念萌芽”到“規(guī)?;瘧?yīng)用”需融合學(xué)術(shù)深耕與產(chǎn)業(yè)實(shí)踐??蒲袡C(jī)構(gòu)先行,實(shí)現(xiàn)從0-1的技術(shù)突破。隨后,企業(yè)接過接力棒,結(jié)合市場需求,將成果轉(zhuǎn)化為市場解決方案。

一知智能自研語音合成技術(shù)的突破,也孕育出了一知的第一款產(chǎn)品——AI智能語音外呼。在語音交互層面實(shí)現(xiàn)了應(yīng)用落地,以電話為載體,助力1000+品牌客戶觸達(dá)上億次消費(fèi)者,提升品牌用戶的生命周期價(jià)值。同時(shí),在CTO姜興華和研究中心負(fù)責(zé)人薛弘揚(yáng)博士的技術(shù)帶領(lǐng)下,團(tuán)隊(duì)通過與浙江大學(xué)的產(chǎn)學(xué)研合作,研發(fā)了名為“太一”的新一代多模態(tài)交互大模型。

“太一”多模態(tài)交互大模型

“太一”大模型的誕生,使AI外呼產(chǎn)品在實(shí)際應(yīng)用中,更加精準(zhǔn)地洞悉說話人意圖,提升關(guān)鍵信息的捕捉能力。而這背后,是一知在不同細(xì)分行業(yè)所沉淀的海量場景數(shù)據(jù)。將這些數(shù)據(jù)注入大模型優(yōu)化應(yīng)用后,一知的NLP技術(shù)的準(zhǔn)確率已達(dá)到96%以上,實(shí)現(xiàn)了對話場景全面算法驅(qū)動(dòng)。語音交互技術(shù)的提升,使一知的產(chǎn)品實(shí)現(xiàn)從最初的10秒、30秒通話時(shí)長延長至如今的3分鐘以上深度交流,大幅提升了用戶的通話體驗(yàn)。

在幾萬小時(shí)數(shù)據(jù)量、transformer、diffusion基礎(chǔ)模型加持下,一知不斷優(yōu)化語音算法技術(shù),解決了傳統(tǒng)TTS技術(shù)用于語音客服時(shí)存在的錄音量大、訓(xùn)練時(shí)間長、聲音缺乏情感波動(dòng)、轉(zhuǎn)人工客服時(shí)音色差異大等問題。能夠在零樣本的前提下,在各個(gè)指標(biāo)(發(fā)音清晰度、音色相似度)上,全面超過擁有10~300秒樣本的算法。

2023年,一知延長了產(chǎn)品線,在語音人機(jī)交互的基礎(chǔ)上加入了視頻交互,推出了第二款產(chǎn)品——AI數(shù)字人。一知數(shù)字人是業(yè)內(nèi)少有的同時(shí)支持聲音克隆和形象克隆的數(shù)字人產(chǎn)品。在算法技術(shù)上,基于多模態(tài)人工智能模型,可實(shí)現(xiàn)120FPS無延時(shí)輸出,僅需少量數(shù)據(jù)訓(xùn)練就能輸出不同語種、語調(diào)視頻,經(jīng)過眾包測試,其口型和語音匹配準(zhǔn)確率高達(dá)99.9%;實(shí)時(shí)互動(dòng)“阿凡達(dá)”模式,流式變聲器功能,讓柯南里的變聲情節(jié)成為現(xiàn)實(shí)。近期,薛博士帶領(lǐng)的研發(fā)團(tuán)隊(duì)更是突破單圖即可生成數(shù)字人技術(shù),為一知的業(yè)務(wù)拓展帶來了無限可能。

三、不做「大」模型,做垂類行業(yè)的「小」模型

在當(dāng)今的AI領(lǐng)域,那些擁有雄厚技術(shù)實(shí)力的大廠正全力以赴地深耕底層模型,他們對此傾注了極大的關(guān)注與資源。這一趨勢的背后,是業(yè)界逐漸形成的共識(shí):底層技術(shù)的突破能夠帶來更為顯著的邊際效益。

然而,在應(yīng)用層,許多公司并未選擇開發(fā)垂直模型或行業(yè)模型,而是充分利用GPT等底層技術(shù)的強(qiáng)大能力,來構(gòu)建各種創(chuàng)新的應(yīng)用層產(chǎn)品。這一策略使得他們能夠迅速響應(yīng)市場變化,靈活調(diào)整產(chǎn)品方向,從而在激烈的市場競爭中占據(jù)有利地位。

面對這樣的行業(yè)背景,一知智能在選擇在AI技術(shù)發(fā)展方向上深耕場景化應(yīng)用。盡管通用模型已解決了諸多以前需依賴場景化解決方案的問題,但一知智能CTO姜興華在接受采訪時(shí)指出:“很多時(shí)候,我們發(fā)現(xiàn)通用技術(shù)在特定場景上的表現(xiàn)并不盡如人意,這正是我們著手進(jìn)行場景化開發(fā)的初衷。通過深入理解和優(yōu)化特定場景,我們能夠有效地降低解決問題的難度,從而在當(dāng)前的技術(shù)水平下,在一個(gè)小的、限定的范圍內(nèi)實(shí)現(xiàn)更好的效果。”

具體來說,現(xiàn)有的通用人機(jī)對話技術(shù),比如在AI外呼領(lǐng)域,往往難以很好地理解業(yè)務(wù)數(shù)據(jù),也無法自由地對話以達(dá)成業(yè)務(wù)指標(biāo)。因此,一知選擇聚焦于AI營銷場景,將更多的營銷數(shù)據(jù)注入到模型中,打造垂直領(lǐng)域的「小」模型。這樣,一知能夠在特定行業(yè)場景下提供更加有效的定制化解決方案,也滿足了市場對精準(zhǔn)營銷的迫切需求。

也正是因?yàn)橐恢腁I技術(shù)場景化策略,在成功跑通消費(fèi)品賽道的同時(shí),也不斷向各行各業(yè)拓展,真正意義上實(shí)現(xiàn)了技術(shù)與應(yīng)用的完美融合。隨著一知的不斷發(fā)展,一知易呼、視頻外呼等創(chuàng)新產(chǎn)品的相繼推出,豐富了人機(jī)交互的形式,更在多個(gè)行業(yè)場景中實(shí)現(xiàn)了深度應(yīng)用。

結(jié)尾

從浙大·一知聯(lián)合研究中心的研究成果出發(fā),以技術(shù)為底座,到AI智能語音外呼與AI數(shù)字人的相繼問世,再到實(shí)現(xiàn)場景化解決方案,一知智能始終站在技術(shù)創(chuàng)新的前沿,不斷探索人機(jī)交互的無限可能。

從20世紀(jì)50年代時(shí)期人工智能概念的萌芽,到一知智能在技術(shù)創(chuàng)新與應(yīng)用的征途上不斷前行,我們見證了智能科技如何逐步滲透并深刻改變著我們的生活與工作方式。一知智能作為這一變革的積極推動(dòng)者,一直在不斷探尋人工智能的邊界,致力于將最前沿的技術(shù)成果轉(zhuǎn)化為實(shí)際應(yīng)用,為用戶帶來更加智能、便捷、高效的體驗(yàn),讓交互產(chǎn)生更多價(jià)值。

從研究成果出發(fā),以技術(shù)為底座,到AI外呼與AI數(shù)字人的相繼問世,再到實(shí)現(xiàn)場景化解決方案,一知智能始終站在技術(shù)創(chuàng)新的前沿,不斷探索人機(jī)交互的無限可能。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )