RTE2024:聚焦Gen AI 時代的 RTE,聲網(wǎng)發(fā)布 RTE+AI 能力全景圖

10月26日消息,由聲網(wǎng)和 RTE 開發(fā)者社區(qū)聯(lián)合主辦的 RTE2024 第十屆實時互聯(lián)網(wǎng)大會正式開幕。今年是聲網(wǎng)成立的十周年,也是 RTE 大會的第十屆。十年間,實時互動從“理念”發(fā)展成一個“行業(yè)”。實時互動技術不僅助力社交泛娛樂、在線教育、IoT、企業(yè)服務等幾十個行業(yè)、數(shù)百個場景實現(xiàn)了跨越式成長,也支撐了諸多互聯(lián)網(wǎng)風口的進化,從過去的電商直播、互聯(lián)網(wǎng)醫(yī)療、秀場直播到如今的大模型,都離不開 RTE 能力的參與和賦能。

在全新的生成式 AI 時代,RTE 與 AI 也將迎來更多可能性。在RTE2024 主論壇中,聲網(wǎng)創(chuàng)始人兼 CEO 趙斌、Lepton AI 創(chuàng)始人兼 CEO 賈揚清、聲網(wǎng)首席科學家、CTO 鐘聲分別帶來主題演講,分享他們對于實時互動行業(yè)的深刻洞察。

趙斌:生成式 AI 將驅動 IT 行業(yè)四大變革

生成式 AI 正在驅動 IT 行業(yè)發(fā)生大變革,趙斌認為,這一趨勢主要體現(xiàn)在四個層面:終端、軟件、云和人機界面。在終端上,大模型能力將驅動 PC 和 Phone 往 AI PC 和 AI Phone 的方向進化。在軟件上,所有的軟件都可以、也將會通過大模型重新實現(xiàn),并從 Software with AI 發(fā)展至 AI Native Software 。在云的層面,所有云都需要具備對大模型訓練和推理的能力,AI Native Cloud 將成為主流。此外,人機界面的主流交互方式也將從鍵盤、鼠標、觸屏變成自然語言對話界面(LUI)。

隨著生成式 AI 成為下個時代 IT 行業(yè)進化的主題,RTE 也成為了多模態(tài)應用和基礎設施中一個關鍵的部分。10月初,聲網(wǎng)的兄弟公司 Agora 作為語音 API 合作者,出現(xiàn)在了OpenAI 發(fā)布的 Realtime API 公開測試版中。

在此次大會中,趙斌表示,聲網(wǎng)與 MiniMax 正在打磨中國第一個Realtime API。趙斌也展示了聲網(wǎng)基于 MiniMax Realtime API 打造的人工智能體。在演示視頻中,人與智能體輕松流暢的進行實時語音對話。當人類打斷智能體并提出新的疑問時,智能體也能夠非常靈敏的快速反應,實現(xiàn)了與人類自然流暢的對話。

在生成式 AI 的大潮下,RTE 將會提供更為廣闊的空間。趙斌也在分享中宣布,聲網(wǎng)正式發(fā)布了 RTE+AI 能力全景圖。在全景圖中,聲網(wǎng)從實時 AI 基礎設施、RTE+AI 生態(tài)能力、聲網(wǎng) AI Agent、實時多模態(tài)對話式 AI 解決方案、RTE+AI 應用場景五個維度,清晰呈現(xiàn)了當下 RTE 與 AI 相結合的技術能力與應用方案。生成式 AI 與RTE 結合帶來的場景創(chuàng)新,將成為下一個十年的主題。

過去十年,聲網(wǎng)不僅見證并推動了 RTE 從一個理念變成一個行業(yè)的過程,更身體力行的打破了國內(nèi)實時音視頻領域的三無狀態(tài)。趙斌稱,10年前行業(yè)內(nèi)沒有行業(yè)會議、專業(yè)書籍、以及專業(yè)媒體和社區(qū)。如今,RTE 大會邁入第10年,聲網(wǎng)也于今年8月正式出版行業(yè)首本系統(tǒng)介紹實時互動的技術型科普圖書《讀懂實時互動》,同時,RTE開發(fā)者社區(qū)也持續(xù)繁榮,加速推動。

賈揚清:AI 是云的第三次浪潮

隨著 AI 技術的發(fā)展,AI 時代的大模型應用開發(fā)、AI 云、以及 GPU 等基礎設施建設逐漸成為熱門話題,也成為了支撐整個行業(yè)發(fā)展、催生新應用誕生、新商業(yè)價值實現(xiàn)的基本底座。Lepton AI 創(chuàng)始人兼 CEO 賈揚清在 RTE2024 主論壇上分別從 AI 應用、云、GPU 算力云技術以及企業(yè)大模型自主性等層面帶來了他對 AI 基礎設施進化的解讀。

針對 AI 應用,賈揚清指出,今天是最容易建設 AI 應用的時代,越是簡潔的 AI 模型思路越容易產(chǎn)生優(yōu)秀的效果。AI 能力加持后,應用本身的開發(fā)范式也在從數(shù)據(jù)、模型、應用構建三個維度發(fā)生變化,未來的應用開發(fā)將從“以流程為中心” 轉化為“以模型為中心”。

除了 AI 應用層面,傳統(tǒng)的云架構也在大模型、GPU 優(yōu)化等需求的催化下發(fā)生了翻天覆地的變化。賈揚清認為,AI 是云的第三次浪潮,繼 Web 云、數(shù)據(jù)云之后,AI 將成為第三朵云。AI 云有以下三個特征:算力會成為智能的基礎、AI 云需要大量計算與大規(guī)模的異構集群,以及少量但高質(zhì)量的通訊。總體而言,云的產(chǎn)品形態(tài),本質(zhì)是計算和傳輸?shù)钠胶?。賈揚清指出,在 AI 云的形態(tài)下,實時的交流和智能的結合在用戶體驗環(huán)節(jié)非常重要。毫不夸張的說,實時將直接與生產(chǎn)力劃上等號。

企業(yè)在構建自己的大模型自主性上,到底該如何決策?賈揚清強調(diào),企業(yè)應該將開源和閉源大模型都納入考慮范疇。采用開源模型+定制化的優(yōu)勢不僅僅是具備更強的可定制性,還有更低的成本以及更高的速度,開源+定制化能夠達到比閉源模型更好的效果。

鐘聲:分布式端邊云結合的AI系統(tǒng)將成為現(xiàn)代基礎設施的基本形態(tài)

在已經(jīng)到來的 AI 時代,現(xiàn)代化基礎設施應該是什么樣?聲網(wǎng)首席科學家、CTO鐘聲提到,大量用戶設備往往會先接入邊緣節(jié)點、并在需要的時候再接入云端,數(shù)據(jù)將在端設備、邊緣節(jié)點和云之間往返傳遞。AI 時代的數(shù)據(jù)中心會包含以大量異構算力組成的超級計算集群(SuperScaler)。但是,停留在僅依賴超級計算集群的系統(tǒng)是遠遠不夠的,萬億參數(shù)、多模態(tài)引入所造成的高昂計算成本、缺乏機制約束的數(shù)據(jù)隱私保護、幾秒鐘的延時都將阻礙大模型的普惠,極大地限制其在很多場景下的應用。

鐘聲認為,分布式端邊云結合的 AI 系統(tǒng)將有效解決這些痛點。這個系統(tǒng)將把計算和傳輸在各節(jié)點做合理地配置,系統(tǒng)會智能地以自適應的方式把任務編排到端與邊上執(zhí)行,非常有效地降低了成本,同時提供了更低延時(低于1秒級的響應速度)、更高網(wǎng)絡抖動容忍度、優(yōu)秀的抗噪聲能力,并且完整的用戶數(shù)據(jù)只會保留在端上。

分享過程中,鐘聲還在大會現(xiàn)場演示了一個由STT、LLM、TTS 、RTC四個模塊組成的端邊結合實時對話AI智能體,這也是全球首次有廠商在比日常實際場景更具挑戰(zhàn)的環(huán)境下展示實時AI 對話能力。大會現(xiàn)場觀眾規(guī)模超過千人,面臨復雜的噪聲、回聲、麥克風延遲等困難,但智能體與鐘聲的互動仍然表現(xiàn)出了優(yōu)秀的對話能力,在普通5G網(wǎng)絡環(huán)境下實現(xiàn)了流暢、自然、有趣的雙向實時對話,對話模型的極快響應速度、及時打斷與被打斷的自然程度、對抗噪聲能力、遵循語音指令做等待能力都非常突出。

正如鐘聲在最后分享的,隨著端設備的多樣化以及能力的提升,AI 基礎設施會變得更優(yōu)化合理,使得 AI 無處不在,AI助理、AI分身幫助我們有效緩解時間稀缺性,改善工作效率和生活體驗。

圓桌:AI 的6000億難題,從基礎設施到商業(yè)化落地

AI 的6000億美元難題,一直都是整個行業(yè)非常關心的話題,在圓桌討論環(huán)節(jié)中,Lepton AI 創(chuàng)始人兼 CEO 賈揚清、MiniMax 合伙人魏偉、面壁智能聯(lián)合創(chuàng)始人&CTO 曾國洋、Hugging Face 工程師王鐵震、Agora 聯(lián)合創(chuàng)始人 Tony Wang 五位嘉賓一起探討了從 AI 基礎設施到 AI 商業(yè)化落地的機會與挑戰(zhàn)。

針對商用大模型和開源大模型未來的發(fā)展趨勢,賈揚清分享了兩個核心觀點:其一,同等質(zhì)量模型的Size會變得越來越小,計算效率會越來越高,模型架構也會變得更加開放和標準。其二,除了極少數(shù)頭部公司之外,越來越多的企業(yè)會采用開源架構來做下一代模型。因此,開源架構的應用會變的越來越普遍,通過開源架構訓練出來的模型也都會有各自不同的風格。

王鐵震則表示,我們將在未來看到越來越多 Infra 和 Realtime 的工作,大家不僅需要關注開源模型本身,還需要重視開源模型的基礎設施和數(shù)據(jù)閉環(huán),才能把開源模型跑得更好、更快。Realtime 需要TTS、也需要大模型,如果能夠通過一些方式放在一起,放在邊緣側、離用戶更近的地方,才能產(chǎn)生非常好的效果。

關于如何看待音視頻多模態(tài)模型的實際應用潛力,魏偉表示,隨著多模態(tài)的出現(xiàn),生成式人工智能的邊界一定會被繼續(xù)拓展,并加速這一產(chǎn)業(yè)的變革。從產(chǎn)品和用戶服務過程中魏偉發(fā)現(xiàn),文本、語音、音樂、視頻這些模型可以很好的幫助藝術、影視、音樂等領域的創(chuàng)作者極大地提高效率,并為他們提供新的思路和方法。

針對大模型技術巨大的成本使用問題,曾國洋分享到,隨著技術的前進,算力一定會變得越來越便宜,相同能力的模型規(guī)模也會變得越來越小,但算力成本優(yōu)化會最終轉化為訓練更強大的模型。真正達到 AGI 水平之前,我們只能感受到模型在變得越來越強,很難感受到成本的變化。他還提到,由于面壁智能是做端側模型的,所以很關注如何讓模型在端上跑得更快,在實際部署過程中,他們會用各種量化壓縮甚至是稀疏化方法去優(yōu)化實際部署的開銷。

總結來說,Tony Wang 認為想要推動 AI Infra 到模型、再到商業(yè)化落地,技術驅動和成本是最核心的兩個點。此外,在產(chǎn)品真正走向市場的過程中,流量和口碑也是關鍵。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。

2024-10-26
RTE2024:聚焦Gen AI 時代的 RTE,聲網(wǎng)發(fā)布 RTE+AI 能力全景圖
10月26日消息,由聲網(wǎng)和 RTE 開發(fā)者社區(qū)聯(lián)合主辦的 RTE2024 第十屆實時互聯(lián)網(wǎng)大會正式開幕。今年是聲網(wǎng)成立的十周年,也是 RTE 大會的第十屆。十年間,實時互動從“理念”發(fā)展成一個“行業(yè)”。

長按掃碼 閱讀全文