山海大模型亮相,云知聲交出AGI第一份答卷

有人說(shuō),AI大模型是少數(shù)巨頭才能玩得轉(zhuǎn)的游戲。

截至目前,認(rèn)同此觀點(diǎn)的人不在少數(shù)。自從ChatGPT去年迅速火遍全球之后,忽如一夜春風(fēng)來(lái),AI大模型遍地開(kāi)。Google、Amazon、阿里、百度等巨頭們紛紛加入AI大模型的“軍備競(jìng)賽”,似乎預(yù)示著市場(chǎng)在向大公司集中。

但事實(shí)真是如此么?且不說(shuō)國(guó)外Anthropic、Cohere等生成式AI獨(dú)角獸公司在市場(chǎng)中表現(xiàn)極為活躍,國(guó)內(nèi)也有不少AI公司從不同角度切入AI大模型的市場(chǎng)競(jìng)爭(zhēng)中,市場(chǎng)呈現(xiàn)出百花齊放的景象。

近日,國(guó)內(nèi)AI獨(dú)角獸云知聲交出了在AI大模型領(lǐng)域的第一份答卷--山海大模型。云知聲對(duì)外全面展示了山海大模型語(yǔ)言生成、語(yǔ)言理解、知識(shí)問(wèn)答、邏輯推理等十項(xiàng)能力,并且山海大模型在MedQA評(píng)測(cè)、臨床執(zhí)業(yè)醫(yī)師資格考試等醫(yī)療領(lǐng)域測(cè)試成績(jī)處于業(yè)界領(lǐng)先。

云知聲用實(shí)際行動(dòng)表明,AI大模型的市場(chǎng)競(jìng)爭(zhēng)才剛剛開(kāi)啟,只有大公司才能玩得轉(zhuǎn)的謬論可以休矣。正如云知聲創(chuàng)始人、CEO黃偉所言:“云知聲將持續(xù)升級(jí)山海大模型的能力,目標(biāo)是年內(nèi)通用能力比肩ChatGPT,并在醫(yī)療、物聯(lián)、教育等垂直領(lǐng)域超越GPT4。”

如何才能做好AI大模型

縱觀AI模型的發(fā)展歷程,經(jīng)歷了從大練模型到練大模型的階段。如今,AI大模型場(chǎng)景憑借通用、泛化和規(guī)?;瘡?fù)制等諸多優(yōu)勢(shì),被業(yè)界視之為實(shí)現(xiàn) AGI(通用人工智能,Artificial General Intelligence)的重要路徑。

而人們之所以看好巨頭們?cè)贏I大模型的前景,無(wú)非是巨頭們具備雄厚的資金實(shí)力、龐大的研發(fā)隊(duì)伍以及完善的基礎(chǔ)設(shè)施等優(yōu)勢(shì)。

這些條件固然是研發(fā)AI大模型的關(guān)鍵因素,但并不是決定性因素。事實(shí)上,OpenAI的成功恰恰表明,AI大模型的研發(fā)本質(zhì)上是多種算法的組合+正確的訓(xùn)練方法,考驗(yàn)的是基礎(chǔ)設(shè)施+數(shù)據(jù)+算法的綜合工程化能力,這種綜合能力并非是巨頭們的專屬。

比如,AI大模型的訓(xùn)練極其考驗(yàn)算力,但并不意味著算力堆砌越多越好、越強(qiáng)越好。正所謂韓信點(diǎn)兵、多多益善,AI大模型需要源源不斷的算力,但更加需要能夠運(yùn)籌帷幄的“韓信”。云知聲創(chuàng)始人、CTO 梁家恩直言:“大力能夠出奇跡,但蠻力出不了奇跡?!?/p>

據(jù)悉,云知聲屬于較早重視算力基礎(chǔ)設(shè)施建設(shè)與投入的AI公司,從2016年開(kāi)始不斷布局算力等基礎(chǔ)設(shè)施,構(gòu)建起高效架構(gòu)+全棧算法的超算集群Atlas,成為東南地區(qū)最大的超算集群之一。云知聲山海大模型從去年底啟動(dòng),今年2月底就研發(fā)出第一版,短短半年內(nèi)正式對(duì)外發(fā)布,離不開(kāi)超算集群Atlas的鼎力相助。

又如高質(zhì)量的數(shù)據(jù)集和科學(xué)的訓(xùn)練方法直接影響著大模型的效果,這考驗(yàn)著AI公司的數(shù)據(jù)積累、數(shù)據(jù)處理以及訓(xùn)練數(shù)據(jù)的工程化能力。OpenAI 《Scaling Laws for Neural Language Models》伸縮法則就強(qiáng)調(diào)了增加高質(zhì)量數(shù)據(jù)集對(duì)于模型訓(xùn)練效果的重要性。OpenAI CEO Sam Altman也透露,OpenAI的數(shù)據(jù)集遠(yuǎn)比外界想象的大,并且大量工作圍繞在數(shù)據(jù)工程層面。

同樣,成立十年的云知聲在數(shù)據(jù)積累和數(shù)據(jù)工程化方面有著豐富的積累,其UniScale訓(xùn)練推理一體化框架、UniDataOps數(shù)據(jù)優(yōu)化并行處理框架在各種場(chǎng)景中久經(jīng)考驗(yàn)。梁家恩就透露,除了開(kāi)源英文語(yǔ)料類別和中文語(yǔ)料類別之外,云知聲在訓(xùn)練山海大模型還增加了多年積累的中文和醫(yī)療數(shù)據(jù)。

所以,云知聲能夠在半年內(nèi)完成算力擴(kuò)容、算法驗(yàn)證、并行加速、數(shù)據(jù)優(yōu)選等工作,實(shí)現(xiàn)GPT為核心的架構(gòu)升級(jí)和成功發(fā)布山海大模型。黃偉直言,AI大模型是AI領(lǐng)域的一場(chǎng)“工程革命”,將過(guò)去各種AI技術(shù)進(jìn)行整合和綜合應(yīng)用,逐步實(shí)現(xiàn)大模型從量變到質(zhì)變。

山海交出的答卷如何

眾所周知,過(guò)去幾個(gè)月里,國(guó)內(nèi)AI大模型層出不窮,但表現(xiàn)也是參差不齊,甚至還鬧過(guò)“宮保雞丁”梗、“套娃ChatGPT”等各種話題。

不過(guò),AI大模型出現(xiàn)回答錯(cuò)誤實(shí)屬正常,因?yàn)樯婕暗綌?shù)據(jù)集質(zhì)量、訓(xùn)練時(shí)長(zhǎng)等各種因素。因此,大家都很好奇,云知聲在短時(shí)間內(nèi)訓(xùn)練出的山海大模型到底表現(xiàn)如何?

根據(jù)云知聲介紹,山海大模型具備十大能力:即語(yǔ)言生成、語(yǔ)言理解、知識(shí)問(wèn)答、邏輯推理、代碼能力、數(shù)學(xué)能力、安全合規(guī)能力七項(xiàng)通用能力及插件擴(kuò)展、領(lǐng)域增強(qiáng)、企業(yè)定制三項(xiàng)行業(yè)落地能力。

大數(shù)據(jù)在線也對(duì)山海大模型進(jìn)行了一番測(cè)試,包括邏輯推理、數(shù)學(xué)運(yùn)算、代碼能力等,整體表現(xiàn)優(yōu)秀,遇到邏輯問(wèn)題時(shí)候能夠很清晰和準(zhǔn)確的給出答案。

開(kāi)放式知識(shí)問(wèn)答,山海大模型在連續(xù)追問(wèn)的情況下,能夠給出準(zhǔn)確的答案,表現(xiàn)令人驚艷。

數(shù)學(xué)運(yùn)算,山海大模型能夠很好理解題目的含義,并且轉(zhuǎn)換為計(jì)算公式進(jìn)行計(jì)算和得出正確結(jié)果。

邏輯推理,針對(duì)各種邏輯問(wèn)題,山海大模型能夠有效判斷問(wèn)題的關(guān)鍵,并給出合理解釋。

代碼能力,山海大模型有較強(qiáng)的代碼生成能力。

人類價(jià)值觀對(duì)齊

值得關(guān)注的是,山海大模型還準(zhǔn)備了計(jì)算器、天氣查詢、Web搜索、發(fā)現(xiàn)周邊等豐富的插件功能,用戶可以通過(guò)豐富的插件功能來(lái)獲得更加準(zhǔn)確的信息。

整體來(lái)看,山海大模型的通用能力讓人較為滿意。比如,在開(kāi)放式知識(shí)問(wèn)答方面,山海大模型能夠準(zhǔn)確理解問(wèn)答含義和給出正確答案,并且在連續(xù)追問(wèn)的情況下,能夠連貫性的回答;又如,在邏輯推理方面,山海大模型針對(duì)一般性推理問(wèn)題回答都能游刃有余,很少掉入“陷進(jìn)”之中;再如,針對(duì)“不健康網(wǎng)站”的陷進(jìn)問(wèn)題,山海大模型的回答能夠有效避坑,并且連續(xù)追問(wèn)下去可以給出相應(yīng)的解決方案,符合人類價(jià)值觀的對(duì)齊。

無(wú)疑,山海大模型的出色表現(xiàn),也給了云知聲極大的信心?!吧胶4竽P湍繕?biāo)是年內(nèi)通用能力比肩ChatGPT?!秉S偉如是說(shuō)。

在To B開(kāi)啟大模型價(jià)值之路

當(dāng)前,AI大模型已經(jīng)在互聯(lián)網(wǎng)場(chǎng)景中小試牛刀,從ChatGPT成為史上最快達(dá)到億級(jí)用戶的App,到互聯(lián)網(wǎng)企業(yè)利用互聯(lián)網(wǎng)技術(shù)與搜索引擎結(jié)合,互聯(lián)網(wǎng)公司普遍都在利用AI大模型重塑自己的產(chǎn)品。

除了To C之外,AI大模型在To B領(lǐng)域的拓展亦開(kāi)啟了人工智能的商業(yè)化價(jià)值之路。IDC統(tǒng)計(jì),過(guò)去兩年中國(guó)人工智能在各行業(yè)的滲透率均不斷提升。其中,電信、金融和制造業(yè)的滲透率提升幅度靠前,超過(guò)4%;教育、能源和醫(yī)療等行業(yè)絕對(duì)滲透率較低,未來(lái)提升空間巨大。預(yù)計(jì)到2026年,人工智能行業(yè)滲透率有望達(dá)到20%。

眾所周知,從數(shù)字經(jīng)濟(jì)、數(shù)字中國(guó)建設(shè)的大趨勢(shì)來(lái)看,產(chǎn)業(yè)數(shù)字化、行業(yè)智能化升級(jí)是一塊重要拼圖,這其中AI大模型在行業(yè)中的應(yīng)用又是最重要抓手。黃偉直言:AI大模型為人工智能帶來(lái)了新的能力,可以打造更多產(chǎn)品來(lái)滿足行業(yè)用戶對(duì)于智能化的需求。

事實(shí)上,AGI在行業(yè)場(chǎng)景的應(yīng)用前景廣闊,卻也絕非易事。在筆者看來(lái),云知聲的U+X戰(zhàn)略(U:AI技術(shù)和產(chǎn)品能力, X:行業(yè)應(yīng)用場(chǎng)景)為AI大模型、AGI在行業(yè)的深耕開(kāi)辟出一條價(jià)值之路。

筆者認(rèn)為,云知聲U+X戰(zhàn)略的好處就是能夠?qū)?shù)據(jù)、應(yīng)用和模型連接起來(lái),形成類似飛輪。首先在行業(yè)中尋找到合適的場(chǎng)景,然后通過(guò)用戶行為反饋積累特定的有效數(shù)據(jù),再反哺AI大模型;AI大模型的不斷迭代與優(yōu)化,則有利于AGI在行業(yè)中的進(jìn)一步應(yīng)用和收集更多有效數(shù)據(jù),從而形成飛輪效應(yīng),越到后面大模型效果會(huì)更好。

以醫(yī)療領(lǐng)域?yàn)槔瑢儆趶?fù)雜度和知識(shí)密度極高的行業(yè),云知聲U+X戰(zhàn)略在醫(yī)療行業(yè)的深耕,使得其山海大模型在醫(yī)療領(lǐng)域著實(shí)驚艷了一把。在發(fā)布會(huì)現(xiàn)場(chǎng),云知聲演示了在山海大模型的輔助下,基于病歷輔助醫(yī)生生成完整的病歷方案、輔助醫(yī)療相關(guān)理賠等多個(gè)場(chǎng)景,大幅提升了業(yè)務(wù)效率和智能化程度。此外,在MedQA 測(cè)評(píng)中,山海大模型以 81.56%位居第一,超過(guò)GPT4、Med-PalM等模型;在臨床執(zhí)業(yè)醫(yī)師資格考試中,山海大模型得分高達(dá)511 分,遠(yuǎn)超平均分和及格線。

據(jù)悉,山海大模型接下來(lái)將在國(guó)內(nèi)頭部三甲醫(yī)院陸續(xù)落地??梢韵胂螅S著山海大模型在更多醫(yī)療場(chǎng)景中的應(yīng)用,通過(guò)學(xué)習(xí)更多醫(yī)療數(shù)據(jù),未來(lái)有望進(jìn)一步提升AGI在醫(yī)療場(chǎng)景的應(yīng)用范圍和深度。除了醫(yī)療領(lǐng)域之外,云知聲還演示了山海大模型在銷售、知識(shí)管理、教育、智慧物聯(lián)等場(chǎng)景的應(yīng)用。

“從長(zhǎng)遠(yuǎn)來(lái)看,AI大模型將成為AI 2.0時(shí)代的‘發(fā)電廠’,大數(shù)據(jù)是燃料、算力是鍋爐、算法則是發(fā)電機(jī),未來(lái)使用大模型類似用電那樣便捷與方便?!秉S偉補(bǔ)充道。

為什么看好云知聲

當(dāng)前,AI大模型屬于一擁而上的情形,既有互聯(lián)網(wǎng)、云計(jì)算等巨頭們,也有新成立的AI企業(yè),更有像云知聲這樣深耕AI領(lǐng)域多年的獨(dú)角獸??梢灶A(yù)見(jiàn),未來(lái)AI大模型市場(chǎng)的競(jìng)爭(zhēng)會(huì)愈發(fā)積累。

那么,面對(duì)未來(lái)激烈的市場(chǎng)競(jìng)爭(zhēng),云知聲的前景如何?在筆者看來(lái),從人工智能市場(chǎng)前景、云知聲的戰(zhàn)略以及核心能力來(lái)判斷,云知聲有望在市場(chǎng)中不斷突破,實(shí)現(xiàn)自我超越。

首先,在數(shù)字經(jīng)濟(jì)和數(shù)字中國(guó)建設(shè)的大背景下,為云知聲提供了極為廣闊的市場(chǎng)舞臺(tái)。IDC預(yù)計(jì),中國(guó)人工智能市場(chǎng)規(guī)模在2023年將超過(guò)147億美元,到2026年將超過(guò)263億美元,市場(chǎng)增量將主要源于基于大模型的應(yīng)用替換過(guò)去幾年建設(shè)的AI應(yīng)用、生成式AI帶來(lái)的增量市場(chǎng)和全新的AI賦能的企業(yè)級(jí)應(yīng)用。

其次,云知聲過(guò)去十年堅(jiān)持的U+X戰(zhàn)略被證明是一條艱難但正確的AI商業(yè)化之路。隨著AI大模型時(shí)代的到來(lái),無(wú)疑讓云知聲U+X戰(zhàn)略如虎添翼,有利于加速了AGI在行業(yè)的商業(yè)化,以及有望打開(kāi)更加廣闊的行業(yè)市場(chǎng)。

第三,山海大模型的驚艷兩項(xiàng),證明云知聲深厚的數(shù)據(jù)積累和工程化能力是業(yè)界一流,這也是云知聲十年實(shí)踐積累的核心優(yōu)勢(shì)。隨著OpenAI走出一條AI大模型之路,云知聲憑借數(shù)據(jù)積累和工程化能力等核心優(yōu)勢(shì),也有望跟上甚至超越。

綜合觀察,AI大模型正在步入戰(zhàn)國(guó)時(shí)代,市場(chǎng)競(jìng)爭(zhēng)格局遠(yuǎn)未確定。而AI獨(dú)角獸云知聲在短短半年內(nèi)打造出山海大模型,充分證明中國(guó)的AI企業(yè)一樣能打。面向未來(lái),AI大模型和AGI在行業(yè)應(yīng)用之路曲折卻光明,而云知聲有望憑借自身優(yōu)勢(shì),讓山海大模型逐云破浪、揚(yáng)帆遠(yuǎn)航。

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2023-05-29
山海大模型亮相,云知聲交出AGI第一份答卷
有人說(shuō),AI大模型是少數(shù)巨頭才能玩得轉(zhuǎn)的游戲。 截至目前,認(rèn)同此觀點(diǎn)的人不在少數(shù)。自從ChatGPT去年迅速火遍全球之后,忽如一夜春風(fēng)來(lái),A...

長(zhǎng)按掃碼 閱讀全文