第十屆 RTE 大會開幕,探討生成式 AI 時代 RTE 的發(fā)展與進化

10月25日,由聲網和 RTE 開發(fā)者社區(qū)聯(lián)合主辦的 RTE2024 第十屆實時互聯(lián)網大會在北京正式開幕,本屆大會主題為“AI 愛”,覆蓋AI、出海、社交泛娛樂、IoT、Voice AI、空間計算等20+行業(yè)及技術分論壇。今年是聲網成立的十周年,也是 RTE 大會的第十屆。十年間,實時互動從“理念”發(fā)展成一個“行業(yè)”。實時互動技術不僅助力社交泛娛樂、在線教育、IoT、企業(yè)服務等幾十個行業(yè)、數(shù)百個場景實現(xiàn)了跨越式成長,也支撐了諸多互聯(lián)網風口的進化,從過去的電商直播、互聯(lián)網醫(yī)療、秀場直播到如今的大模型,都離不開 RTE 能力的參與和賦能。

在全新的生成式 AI 時代,RTE 與 AI 也將迎來更多可能性。25日上午的 RTE2024 主論壇中,聲網創(chuàng)始人兼 CEO 趙斌、Lepton AI 創(chuàng)始人兼 CEO 賈揚清、聲網首席科學家、CTO 鐘聲分別帶來主題演講。趙斌分享了聲網十年以來專注實時互動行業(yè)的深刻洞察,以及他對 RTE 在生成式 AI 時代下未來發(fā)展的趨勢判斷。賈揚清則站在 AI 基礎設施的視角下,分享了他對 AI 應用、云、和 GPU 算力云技術的獨到觀點。鐘聲的主題演講聚焦在對實時 AI 基礎設施的探討上,并分享了 AI 與 RTE 結合的前沿技術實踐。

圖片1.jpg

趙斌:生成式 AI 將驅動 IT 行業(yè)四大變革

生成式 AI 正在驅動 IT 行業(yè)發(fā)生大變革,趙斌認為,這一趨勢主要體現(xiàn)在四個層面:終端、軟件、云和人機界面。在終端上,大模型能力將驅動 PC 和 Phone 往 AI PC 和 AI Phone 的方向進化。在軟件上,所有的軟件都可以、也將會通過大模型重新實現(xiàn),并從 Software with AI 發(fā)展至 AI Native Software 。在云的層面,所有云都需要具備對大模型訓練和推理的能力,AI Native Cloud 將成為主流。此外,人機界面的主流交互方式也將從鍵盤、鼠標、觸屏變成自然語言對話界面(LUI)。

圖片2.jpg

隨著生成式 AI 成為下個時代 IT 行業(yè)進化的主題,RTE 也成為了多模態(tài)應用和基礎設施中一個關鍵的部分。10月初,聲網的兄弟公司 Agora 作為語音 API 合作者,出現(xiàn)在了OpenAI 發(fā)布的 Realtime API 公開測試版中。

在此次大會中,趙斌表示,聲網與 MiniMax 正在打磨中國第一個Realtime API。趙斌也展示了聲網基于 MiniMax Realtime API 打造的人工智能體。在演示視頻中,人與智能體輕松流暢的進行實時語音對話。當人類打斷智能體并提出新的疑問時,智能體也能夠非常靈敏的快速反應,實現(xiàn)了與人類自然流暢的對話。

圖片3.jpg

在生成式 AI 的大潮下,RTE 將會提供更為廣闊的空間。趙斌也在分享中宣布,聲網正式發(fā)布了 RTE+AI 能力全景圖。在全景圖中,聲網從實時 AI 基礎設施、RTE+AI 生態(tài)能力、聲網 AI Agent、實時多模態(tài)對話式 AI 解決方案、RTE+AI 應用場景五個維度,清晰呈現(xiàn)了當下 RTE 與 AI 相結合的技術能力與應用方案。生成式 AI 與RTE 結合帶來的場景創(chuàng)新,將成為下一個十年的主題。

圖片4.jpg

過去十年,聲網不僅見證并推動了 RTE 從一個理念變成一個行業(yè)的過程,更身體力行的打破了國內實時音視頻領域的三無狀態(tài)。趙斌稱,10年前行業(yè)內沒有行業(yè)會議、專業(yè)書籍、以及專業(yè)媒體和社區(qū)。如今,RTE 大會邁入第10年,聲網也于今年8月正式出版行業(yè)首本系統(tǒng)介紹實時互動的技術型科普圖書《讀懂實時互動》,同時,RTE開發(fā)者社區(qū)也持續(xù)繁榮,加速推動。

賈揚清:AI 是云的第三次浪潮

隨著 AI 技術的發(fā)展,AI 時代的大模型應用開發(fā)、AI 云、以及 GPU 等基礎設施建設逐漸成為熱門話題,也成為了支撐整個行業(yè)發(fā)展、催生新應用誕生、新商業(yè)價值實現(xiàn)的基本底座。Lepton AI 創(chuàng)始人兼 CEO 賈揚清在 RTE2024 主論壇上分別從 AI 應用、云、GPU 算力云技術以及企業(yè)大模型自主性等層面帶來了他對 AI 基礎設施進化的解讀。

針對 AI 應用,賈揚清指出,今天是最容易建設 AI 應用的時代,越是簡潔的 AI 模型思路越容易產生優(yōu)秀的效果。AI 能力加持后,應用本身的開發(fā)范式也在從數(shù)據(jù)、模型、應用構建三個維度發(fā)生變化,未來的應用開發(fā)將從“以流程為中心” 轉化為“以模型為中心”。

圖片5.jpg

除了 AI 應用層面,傳統(tǒng)的云架構也在大模型、GPU 優(yōu)化等需求的催化下發(fā)生了翻天覆地的變化。賈揚清認為,AI 是云的第三次浪潮,繼 Web 云、數(shù)據(jù)云之后,AI 將成為第三朵云。AI 云有以下三個特征:算力會成為智能的基礎、AI 云需要大量計算與大規(guī)模的異構集群,以及少量但高質量的通訊??傮w而言,云的產品形態(tài),本質是計算和傳輸?shù)钠胶?。賈揚清指出,在 AI 云的形態(tài)下,實時的交流和智能的結合在用戶體驗環(huán)節(jié)非常重要。毫不夸張的說,實時將直接與生產力劃上等號。

企業(yè)在構建自己的大模型自主性上,到底該如何決策?賈揚清強調,企業(yè)應該將開源和閉源大模型都納入考慮范疇。采用開源模型+定制化的優(yōu)勢不僅僅是具備更強的可定制性,還有更低的成本以及更高的速度,開源+定制化能夠達到比閉源模型更好的效果。

鐘聲:分布式端邊云結合的AI系統(tǒng)將成為現(xiàn)代基礎設施的基本形態(tài)

在已經到來的 AI 時代,現(xiàn)代化基礎設施應該是什么樣?聲網首席科學家、CTO鐘聲提到,大量用戶設備往往會先接入邊緣節(jié)點、并在需要的時候再接入云端,數(shù)據(jù)將在端設備、邊緣節(jié)點和云之間往返傳遞。AI 時代的數(shù)據(jù)中心會包含以大量異構算力組成的超級計算集群(SuperScaler)。但是,停留在僅依賴超級計算集群的系統(tǒng)是遠遠不夠的,萬億參數(shù)、多模態(tài)引入所造成的高昂計算成本、缺乏機制約束的數(shù)據(jù)隱私保護、幾秒鐘的延時都將阻礙大模型的普惠,極大地限制其在很多場景下的應用。

鐘聲認為,分布式端邊云結合的 AI 系統(tǒng)將有效解決這些痛點。這個系統(tǒng)將把計算和傳輸在各節(jié)點做合理地配置,系統(tǒng)會智能地以自適應的方式把任務編排到端與邊上執(zhí)行,非常有效地降低了成本,同時提供了更低延時(低于1秒級的響應速度)、更高網絡抖動容忍度、優(yōu)秀的抗噪聲能力,并且完整的用戶數(shù)據(jù)只會保留在端上。

圖片6.jpg

分享過程中,鐘聲還在大會現(xiàn)場演示了一個由STT、LLM、TTS 、RTC四個模塊組成的端邊結合實時對話AI智能體,這也是全球首次有廠商在比日常實際場景更具挑戰(zhàn)的環(huán)境下展示實時AI 對話能力。大會現(xiàn)場觀眾規(guī)模超過千人,面臨復雜的噪聲、回聲、麥克風延遲等困難,但智能體與鐘聲的互動仍然表現(xiàn)出了優(yōu)秀的對話能力,在普通5G網絡環(huán)境下實現(xiàn)了流暢、自然、有趣的雙向實時對話,對話模型的極快響應速度、及時打斷與被打斷的自然程度、對抗噪聲能力、遵循語音指令做等待能力都非常突出。

正如鐘聲在最后分享的,隨著端設備的多樣化以及能力的提升,AI 基礎設施會變得更優(yōu)化合理,使得 AI 無處不在,AI助理、AI分身幫助我們有效緩解時間稀缺性,改善工作效率和生活體驗。

圓桌:AI 的6000億難題,從基礎設施到商業(yè)化落地

AI 的6000億美元難題,一直都是整個行業(yè)非常關心的話題,在圓桌討論環(huán)節(jié)中,Lepton AI 創(chuàng)始人兼 CEO 賈揚清、MiniMax 合伙人魏偉、面壁智能聯(lián)合創(chuàng)始人&CTO 曾國洋、Hugging Face 工程師王鐵震、Agora 聯(lián)合創(chuàng)始人 Tony Wang 五位嘉賓一起探討了從 AI 基礎設施到 AI 商業(yè)化落地的機會與挑戰(zhàn)。

圖片7.jpg

針對商用大模型和開源大模型未來的發(fā)展趨勢,賈揚清分享了兩個核心觀點:其一,同等質量模型的Size會變得越來越小,計算效率會越來越高,模型架構也會變得更加開放和標準。其二,除了極少數(shù)頭部公司之外,越來越多的企業(yè)會采用開源架構來做下一代模型。因此,開源架構的應用會變的越來越普遍,通過開源架構訓練出來的模型也都會有各自不同的風格。

王鐵震則表示,我們將在未來看到越來越多 Infra 和 Realtime 的工作,大家不僅需要關注開源模型本身,還需要重視開源模型的基礎設施和數(shù)據(jù)閉環(huán),才能把開源模型跑得更好、更快。Realtime 需要TTS、也需要大模型,如果能夠通過一些方式放在一起,放在邊緣側、離用戶更近的地方,才能產生非常好的效果。

關于如何看待音視頻多模態(tài)模型的實際應用潛力,魏偉表示,隨著多模態(tài)的出現(xiàn),生成式人工智能的邊界一定會被繼續(xù)拓展,并加速這一產業(yè)的變革。從產品和用戶服務過程中魏偉發(fā)現(xiàn),文本、語音、音樂、視頻這些模型可以很好的幫助藝術、影視、音樂等領域的創(chuàng)作者極大地提高效率,并為他們提供新的思路和方法。

針對大模型技術巨大的成本使用問題,曾國洋分享到,隨著技術的前進,算力一定會變得越來越便宜,相同能力的模型規(guī)模也會變得越來越小,但算力成本優(yōu)化會最終轉化為訓練更強大的模型。真正達到 AGI 水平之前,我們只能感受到模型在變得越來越強,很難感受到成本的變化。他還提到,由于面壁智能是做端側模型的,所以很關注如何讓模型在端上跑得更快,在實際部署過程中,他們會用各種量化壓縮甚至是稀疏化方法去優(yōu)化實際部署的開銷。

總結來說,Tony Wang 認為想要推動 AI Infra 到模型、再到商業(yè)化落地,技術驅動和成本是最核心的兩個點。此外,在產品真正走向市場的過程中,流量和口碑也是關鍵。

過去十年,聲網不僅見證并推動了 RTE 從一個理念變成一個行業(yè)的過程,更身體力行的打破了國內實時音視頻領域無行業(yè)會議、無專業(yè)書籍、無專業(yè)媒體及社區(qū)的三無狀態(tài)。自此,RTE 大會邁入第10年,行業(yè)首本系統(tǒng)介紹實時互動的技術型科普圖書《讀懂實時互動》于今年8月正式出版,RTE開發(fā)者社區(qū)也正在秉持著“開放、連接、共創(chuàng)” 的理念加速實時互動和 AI 的共生。

未來,聲網將繼續(xù)和大家一起,站在全新的起點、擁抱繁榮且充滿挑戰(zhàn)的 AI + RTE 新時代。

(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )

贊助商
2024-10-26
第十屆 RTE 大會開幕,探討生成式 AI 時代 RTE 的發(fā)展與進化
10月25日,由聲網和 RTE 開發(fā)者社區(qū)聯(lián)合主辦的 RTE2024 第十屆實時互聯(lián)網大會在北京正式開幕,本屆大會主題為“AI 愛”,覆蓋AI、出海、社交泛娛樂、IoT、Voice AI、空間計算等20+行業(yè)及技術分論壇。

長按掃碼 閱讀全文