山海大模型亮相,云知聲交出AGI第一份答卷

有人說,AI大模型是少數(shù)巨頭才能玩得轉(zhuǎn)的游戲。

截至目前,認同此觀點的人不在少數(shù)。自從ChatGPT去年迅速火遍全球之后,忽如一夜春風來,AI大模型遍地開。Google、Amazon、阿里、百度等巨頭們紛紛加入AI大模型的“軍備競賽”,似乎預(yù)示著市場在向大公司集中。

但事實真是如此么?且不說國外Anthropic、Cohere等生成式AI獨角獸公司在市場中表現(xiàn)極為活躍,國內(nèi)也有不少AI公司從不同角度切入AI大模型的市場競爭中,市場呈現(xiàn)出百花齊放的景象。

近日,國內(nèi)AI獨角獸云知聲交出了在AI大模型領(lǐng)域的第一份答卷--山海大模型。云知聲對外全面展示了山海大模型語言生成、語言理解、知識問答、邏輯推理等十項能力,并且山海大模型在MedQA評測、臨床執(zhí)業(yè)醫(yī)師資格考試等醫(yī)療領(lǐng)域測試成績處于業(yè)界領(lǐng)先。

云知聲用實際行動表明,AI大模型的市場競爭才剛剛開啟,只有大公司才能玩得轉(zhuǎn)的謬論可以休矣。正如云知聲創(chuàng)始人、CEO黃偉所言:“云知聲將持續(xù)升級山海大模型的能力,目標是年內(nèi)通用能力比肩ChatGPT,并在醫(yī)療、物聯(lián)、教育等垂直領(lǐng)域超越GPT4?!?/p>

如何才能做好AI大模型

縱觀AI模型的發(fā)展歷程,經(jīng)歷了從大練模型到練大模型的階段。如今,AI大模型場景憑借通用、泛化和規(guī)模化復(fù)制等諸多優(yōu)勢,被業(yè)界視之為實現(xiàn) AGI(通用人工智能,Artificial General Intelligence)的重要路徑。

而人們之所以看好巨頭們在AI大模型的前景,無非是巨頭們具備雄厚的資金實力、龐大的研發(fā)隊伍以及完善的基礎(chǔ)設(shè)施等優(yōu)勢。

這些條件固然是研發(fā)AI大模型的關(guān)鍵因素,但并不是決定性因素。事實上,OpenAI的成功恰恰表明,AI大模型的研發(fā)本質(zhì)上是多種算法的組合+正確的訓(xùn)練方法,考驗的是基礎(chǔ)設(shè)施+數(shù)據(jù)+算法的綜合工程化能力,這種綜合能力并非是巨頭們的專屬。

比如,AI大模型的訓(xùn)練極其考驗算力,但并不意味著算力堆砌越多越好、越強越好。正所謂韓信點兵、多多益善,AI大模型需要源源不斷的算力,但更加需要能夠運籌帷幄的“韓信”。云知聲創(chuàng)始人、CTO 梁家恩直言:“大力能夠出奇跡,但蠻力出不了奇跡?!?/p>

據(jù)悉,云知聲屬于較早重視算力基礎(chǔ)設(shè)施建設(shè)與投入的AI公司,從2016年開始不斷布局算力等基礎(chǔ)設(shè)施,構(gòu)建起高效架構(gòu)+全棧算法的超算集群Atlas,成為東南地區(qū)最大的超算集群之一。云知聲山海大模型從去年底啟動,今年2月底就研發(fā)出第一版,短短半年內(nèi)正式對外發(fā)布,離不開超算集群Atlas的鼎力相助。

又如高質(zhì)量的數(shù)據(jù)集和科學的訓(xùn)練方法直接影響著大模型的效果,這考驗著AI公司的數(shù)據(jù)積累、數(shù)據(jù)處理以及訓(xùn)練數(shù)據(jù)的工程化能力。OpenAI 《Scaling Laws for Neural Language Models》伸縮法則就強調(diào)了增加高質(zhì)量數(shù)據(jù)集對于模型訓(xùn)練效果的重要性。OpenAI CEO Sam Altman也透露,OpenAI的數(shù)據(jù)集遠比外界想象的大,并且大量工作圍繞在數(shù)據(jù)工程層面。

同樣,成立十年的云知聲在數(shù)據(jù)積累和數(shù)據(jù)工程化方面有著豐富的積累,其UniScale訓(xùn)練推理一體化框架、UniDataOps數(shù)據(jù)優(yōu)化并行處理框架在各種場景中久經(jīng)考驗。梁家恩就透露,除了開源英文語料類別和中文語料類別之外,云知聲在訓(xùn)練山海大模型還增加了多年積累的中文和醫(yī)療數(shù)據(jù)。

所以,云知聲能夠在半年內(nèi)完成算力擴容、算法驗證、并行加速、數(shù)據(jù)優(yōu)選等工作,實現(xiàn)GPT為核心的架構(gòu)升級和成功發(fā)布山海大模型。黃偉直言,AI大模型是AI領(lǐng)域的一場“工程革命”,將過去各種AI技術(shù)進行整合和綜合應(yīng)用,逐步實現(xiàn)大模型從量變到質(zhì)變。

山海交出的答卷如何

眾所周知,過去幾個月里,國內(nèi)AI大模型層出不窮,但表現(xiàn)也是參差不齊,甚至還鬧過“宮保雞丁”梗、“套娃ChatGPT”等各種話題。

不過,AI大模型出現(xiàn)回答錯誤實屬正常,因為涉及到數(shù)據(jù)集質(zhì)量、訓(xùn)練時長等各種因素。因此,大家都很好奇,云知聲在短時間內(nèi)訓(xùn)練出的山海大模型到底表現(xiàn)如何?

根據(jù)云知聲介紹,山海大模型具備十大能力:即語言生成、語言理解、知識問答、邏輯推理、代碼能力、數(shù)學能力、安全合規(guī)能力七項通用能力及插件擴展、領(lǐng)域增強、企業(yè)定制三項行業(yè)落地能力。

大數(shù)據(jù)在線也對山海大模型進行了一番測試,包括邏輯推理、數(shù)學運算、代碼能力等,整體表現(xiàn)優(yōu)秀,遇到邏輯問題時候能夠很清晰和準確的給出答案。

開放式知識問答,山海大模型在連續(xù)追問的情況下,能夠給出準確的答案,表現(xiàn)令人驚艷。

數(shù)學運算,山海大模型能夠很好理解題目的含義,并且轉(zhuǎn)換為計算公式進行計算和得出正確結(jié)果。

邏輯推理,針對各種邏輯問題,山海大模型能夠有效判斷問題的關(guān)鍵,并給出合理解釋。

代碼能力,山海大模型有較強的代碼生成能力。

人類價值觀對齊

值得關(guān)注的是,山海大模型還準備了計算器、天氣查詢、Web搜索、發(fā)現(xiàn)周邊等豐富的插件功能,用戶可以通過豐富的插件功能來獲得更加準確的信息。

整體來看,山海大模型的通用能力讓人較為滿意。比如,在開放式知識問答方面,山海大模型能夠準確理解問答含義和給出正確答案,并且在連續(xù)追問的情況下,能夠連貫性的回答;又如,在邏輯推理方面,山海大模型針對一般性推理問題回答都能游刃有余,很少掉入“陷進”之中;再如,針對“不健康網(wǎng)站”的陷進問題,山海大模型的回答能夠有效避坑,并且連續(xù)追問下去可以給出相應(yīng)的解決方案,符合人類價值觀的對齊。

無疑,山海大模型的出色表現(xiàn),也給了云知聲極大的信心?!吧胶4竽P湍繕耸悄陜?nèi)通用能力比肩ChatGPT?!秉S偉如是說。

在To B開啟大模型價值之路

當前,AI大模型已經(jīng)在互聯(lián)網(wǎng)場景中小試牛刀,從ChatGPT成為史上最快達到億級用戶的App,到互聯(lián)網(wǎng)企業(yè)利用互聯(lián)網(wǎng)技術(shù)與搜索引擎結(jié)合,互聯(lián)網(wǎng)公司普遍都在利用AI大模型重塑自己的產(chǎn)品。

除了To C之外,AI大模型在To B領(lǐng)域的拓展亦開啟了人工智能的商業(yè)化價值之路。IDC統(tǒng)計,過去兩年中國人工智能在各行業(yè)的滲透率均不斷提升。其中,電信、金融和制造業(yè)的滲透率提升幅度靠前,超過4%;教育、能源和醫(yī)療等行業(yè)絕對滲透率較低,未來提升空間巨大。預(yù)計到2026年,人工智能行業(yè)滲透率有望達到20%。

眾所周知,從數(shù)字經(jīng)濟、數(shù)字中國建設(shè)的大趨勢來看,產(chǎn)業(yè)數(shù)字化、行業(yè)智能化升級是一塊重要拼圖,這其中AI大模型在行業(yè)中的應(yīng)用又是最重要抓手。黃偉直言:AI大模型為人工智能帶來了新的能力,可以打造更多產(chǎn)品來滿足行業(yè)用戶對于智能化的需求。

事實上,AGI在行業(yè)場景的應(yīng)用前景廣闊,卻也絕非易事。在筆者看來,云知聲的U+X戰(zhàn)略(U:AI技術(shù)和產(chǎn)品能力, X:行業(yè)應(yīng)用場景)為AI大模型、AGI在行業(yè)的深耕開辟出一條價值之路。

筆者認為,云知聲U+X戰(zhàn)略的好處就是能夠?qū)?shù)據(jù)、應(yīng)用和模型連接起來,形成類似飛輪。首先在行業(yè)中尋找到合適的場景,然后通過用戶行為反饋積累特定的有效數(shù)據(jù),再反哺AI大模型;AI大模型的不斷迭代與優(yōu)化,則有利于AGI在行業(yè)中的進一步應(yīng)用和收集更多有效數(shù)據(jù),從而形成飛輪效應(yīng),越到后面大模型效果會更好。

以醫(yī)療領(lǐng)域為例,屬于復(fù)雜度和知識密度極高的行業(yè),云知聲U+X戰(zhàn)略在醫(yī)療行業(yè)的深耕,使得其山海大模型在醫(yī)療領(lǐng)域著實驚艷了一把。在發(fā)布會現(xiàn)場,云知聲演示了在山海大模型的輔助下,基于病歷輔助醫(yī)生生成完整的病歷方案、輔助醫(yī)療相關(guān)理賠等多個場景,大幅提升了業(yè)務(wù)效率和智能化程度。此外,在MedQA 測評中,山海大模型以 81.56%位居第一,超過GPT4、Med-PalM等模型;在臨床執(zhí)業(yè)醫(yī)師資格考試中,山海大模型得分高達511 分,遠超平均分和及格線。

據(jù)悉,山海大模型接下來將在國內(nèi)頭部三甲醫(yī)院陸續(xù)落地??梢韵胂螅S著山海大模型在更多醫(yī)療場景中的應(yīng)用,通過學習更多醫(yī)療數(shù)據(jù),未來有望進一步提升AGI在醫(yī)療場景的應(yīng)用范圍和深度。除了醫(yī)療領(lǐng)域之外,云知聲還演示了山海大模型在銷售、知識管理、教育、智慧物聯(lián)等場景的應(yīng)用。

“從長遠來看,AI大模型將成為AI 2.0時代的‘發(fā)電廠’,大數(shù)據(jù)是燃料、算力是鍋爐、算法則是發(fā)電機,未來使用大模型類似用電那樣便捷與方便?!秉S偉補充道。

為什么看好云知聲

當前,AI大模型屬于一擁而上的情形,既有互聯(lián)網(wǎng)、云計算等巨頭們,也有新成立的AI企業(yè),更有像云知聲這樣深耕AI領(lǐng)域多年的獨角獸。可以預(yù)見,未來AI大模型市場的競爭會愈發(fā)積累。

那么,面對未來激烈的市場競爭,云知聲的前景如何?在筆者看來,從人工智能市場前景、云知聲的戰(zhàn)略以及核心能力來判斷,云知聲有望在市場中不斷突破,實現(xiàn)自我超越。

首先,在數(shù)字經(jīng)濟和數(shù)字中國建設(shè)的大背景下,為云知聲提供了極為廣闊的市場舞臺。IDC預(yù)計,中國人工智能市場規(guī)模在2023年將超過147億美元,到2026年將超過263億美元,市場增量將主要源于基于大模型的應(yīng)用替換過去幾年建設(shè)的AI應(yīng)用、生成式AI帶來的增量市場和全新的AI賦能的企業(yè)級應(yīng)用。

其次,云知聲過去十年堅持的U+X戰(zhàn)略被證明是一條艱難但正確的AI商業(yè)化之路。隨著AI大模型時代的到來,無疑讓云知聲U+X戰(zhàn)略如虎添翼,有利于加速了AGI在行業(yè)的商業(yè)化,以及有望打開更加廣闊的行業(yè)市場。

第三,山海大模型的驚艷兩項,證明云知聲深厚的數(shù)據(jù)積累和工程化能力是業(yè)界一流,這也是云知聲十年實踐積累的核心優(yōu)勢。隨著OpenAI走出一條AI大模型之路,云知聲憑借數(shù)據(jù)積累和工程化能力等核心優(yōu)勢,也有望跟上甚至超越。

綜合觀察,AI大模型正在步入戰(zhàn)國時代,市場競爭格局遠未確定。而AI獨角獸云知聲在短短半年內(nèi)打造出山海大模型,充分證明中國的AI企業(yè)一樣能打。面向未來,AI大模型和AGI在行業(yè)應(yīng)用之路曲折卻光明,而云知聲有望憑借自身優(yōu)勢,讓山海大模型逐云破浪、揚帆遠航。

免責聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2023-05-29
山海大模型亮相,云知聲交出AGI第一份答卷
有人說,AI大模型是少數(shù)巨頭才能玩得轉(zhuǎn)的游戲。 截至目前,認同此觀點的人不在少數(shù)。自從ChatGPT去年迅速火遍全球之后,忽如一夜春風來,A...

長按掃碼 閱讀全文