零點(diǎn)有數(shù)董事長(zhǎng)袁岳:算法產(chǎn)業(yè)化應(yīng)更多聚焦中模型發(fā)展

袁岳,零點(diǎn)有數(shù)董事長(zhǎng),黑蘋果青年公益理事長(zhǎng),飛馬旅聯(lián)合創(chuàng)始人,獨(dú)立媒體人,發(fā)表關(guān)于數(shù)據(jù)科學(xué)、管理科學(xué)、社會(huì)群體研究等相關(guān)領(lǐng)域著作逾一千三百五十萬(wàn)字。2021年,在世界人工智能大會(huì)之算法峰會(huì)期間,袁岳接受億歐專訪,就“算法產(chǎn)業(yè)化”進(jìn)程中的機(jī)遇與挑戰(zhàn)分享了洞見。本次2023世界人工智能大會(huì)期間,袁岳再次接受媒體關(guān)于算法模型的專訪,闡述當(dāng)下算法模型發(fā)展的產(chǎn)業(yè)價(jià)值,深化大模型背景下算法模型發(fā)展的新議題。

問(wèn):ChatGPT的到來(lái)引發(fā)了對(duì)模型的廣泛討論,而在此之前,我們更多提到的是算法,您認(rèn)為“模型”和“算法”之間有什么聯(lián)系?

零點(diǎn)有數(shù)董事長(zhǎng)袁岳:ChatGPT作為人工智能領(lǐng)域的熱門話題之一,引發(fā)了公眾對(duì)大模型的關(guān)注熱潮,并將其視為一個(gè)新興概念。實(shí)際上,"算法"和"模型"可以理解為同一概念,在我們談?wù)撊斯ぶ悄軙r(shí),算法模型作為其核心的基礎(chǔ)組成部分,不僅在模型精度上,在表達(dá)技術(shù)和系統(tǒng)鑲嵌方式上也存在差異。

未來(lái)的人工智能在實(shí)現(xiàn)其功能時(shí)需要多個(gè)系列的算法模型來(lái)支撐,把整個(gè)算法系列叢串聯(lián)起來(lái),可以直觀地看到若干算法模型的組成。

首先,讀取算法在人工智能中扮演著關(guān)鍵角色,它能自動(dòng)閱讀不同形式的數(shù)據(jù),包括視覺、文本、數(shù)字,還是掃描探頭中的數(shù)據(jù),并承擔(dān)著學(xué)習(xí)和數(shù)據(jù)分析的任務(wù)。最后數(shù)據(jù)讀取完成后,再通過(guò)分析算法進(jìn)行數(shù)據(jù)分析,進(jìn)一步做出相應(yīng)的決策或針對(duì)性行動(dòng)。

附圖 2021年億歐專訪零點(diǎn)有數(shù)董事長(zhǎng)袁岳

不論是推理、預(yù)測(cè)、判別、搜索、推薦、匹配、治療、危機(jī)管理還是人員調(diào)度等任務(wù),都涉及特定類別的算法模型。這些模型在協(xié)同工作中形成一個(gè)完整的人工智能系統(tǒng),為公眾提供了優(yōu)越的決策支持和行動(dòng)能力。未來(lái),這些模型將不斷優(yōu)化,為各領(lǐng)域發(fā)展帶來(lái)更廣闊的應(yīng)用前景。

問(wèn):如今業(yè)界內(nèi)大、中、小模型蓬勃發(fā)展,這三者之間有何區(qū)別?在大模型時(shí)代,中小模型將如何發(fā)展?

零點(diǎn)有數(shù)董事長(zhǎng)袁岳:從小模型,中模型,再到大模型,其實(shí)可以看作是模型復(fù)雜程度和應(yīng)用范圍的遞增關(guān)系。

附圖 袁岳在第三屆BPAA算法應(yīng)用實(shí)踐典范進(jìn)行主題分享

小模型通常用于解決具體的問(wèn)題或細(xì)節(jié)場(chǎng)景,以股票交易為例,通過(guò)簡(jiǎn)單算法的開發(fā),可設(shè)定一個(gè)止損點(diǎn)和最佳賣出點(diǎn),當(dāng)股票上漲到某個(gè)閾值時(shí)則自動(dòng)賣出股票,同樣地,當(dāng)股票下跌到一定程度時(shí)也將自動(dòng)賣出,以免造成更大損失。

而大模型具有通用人工智能的特點(diǎn),涉及高密度技術(shù)學(xué)習(xí)技術(shù)、算法模塊的自動(dòng)組合技術(shù),從而使其預(yù)備更強(qiáng)的遷移使用和算法生存能力。以ChatGPT為代表的大模型為例,其在開始階段就涵蓋多領(lǐng)域的算法模塊,具備更豐富的模塊組合能力、跨領(lǐng)域和多領(lǐng)域的行動(dòng)能力及決策指導(dǎo)能力,能夠?qū)崿F(xiàn)聊天、決策等多種功能。另一方面,大模型也為我們利用技術(shù)學(xué)習(xí)和算法生成技術(shù)來(lái)高效建設(shè)中小模型提供了重要基礎(chǔ)。

中模型則介于小模型和大模型之間,在特定領(lǐng)域中發(fā)揮作用。例如在相親網(wǎng)站上找對(duì)象,需要收集各類信息,考察其在不同維度上的表現(xiàn),然后進(jìn)行綜合判斷。在這種情況下,對(duì)算法的準(zhǔn)確性和精度要求較高,需要集成多個(gè)算法模塊,形成一定規(guī)模和密集度的中模型。

如果把基礎(chǔ)算法作為我們得以展開技術(shù)建模的算法基本工具庫(kù)看成一層樓,那么通用算法就是二層樓,而GPT類的大模型建設(shè)為我們開發(fā)應(yīng)用算法累積了足夠強(qiáng)悍的二層樓機(jī)制,它不僅為很多主體提供了便捷的問(wèn)題探索解決方案,還為處在三層樓的我們?cè)谔囟I(lǐng)域開發(fā)垂直應(yīng)用算法提供了高效的支持。因此,我們今天需要形成起碼的小模型開發(fā)能力,在中模型領(lǐng)域形成實(shí)際的操作能力,再邁向具有實(shí)際意義的大模型建設(shè)。

問(wèn):2023 WAIC 數(shù)據(jù)要素與隱私計(jì)算高峰論壇上提到,數(shù)據(jù)流通與隱私安全的平衡,是大模型應(yīng)用面臨的一個(gè)重要問(wèn)題。您如何看待模型開源的重要性?

零點(diǎn)有數(shù)董事長(zhǎng)袁岳:算法本身的快速發(fā)展高度依賴于開源,作為應(yīng)用算法的開發(fā)工具和基礎(chǔ)條件,開源的算法資源庫(kù)對(duì)人工智能發(fā)展至關(guān)重要。全球范圍內(nèi),美國(guó)互聯(lián)網(wǎng)大廠、軟件巨頭和歐美相當(dāng)部分的計(jì)算機(jī)大學(xué)為基礎(chǔ)算法的開發(fā)和開源做出了最重要的貢獻(xiàn),在大模型和中模型部分也匯集了大量開源的通用算法和技術(shù)。目前GPT-3.5和GPT-3.0已經(jīng)在很大程度上進(jìn)行開源,國(guó)內(nèi)的大模型項(xiàng)目也提供了開源和API接入合作,大幅降低技術(shù)更新成本,極大地改善了算法開發(fā)和演進(jìn)的通道。

附圖 BPAA第三屆應(yīng)用算法實(shí)踐典范正式啟動(dòng)

開源的另一個(gè)意義在于模型的高度重復(fù)使用性。例如在智慧政務(wù)領(lǐng)域,我們不再需要所有部門建立系統(tǒng)和算法,而是通過(guò)高度可復(fù)用的模型進(jìn)行開發(fā)。在各行政部門解決類似問(wèn)題的情況下,可以復(fù)用和調(diào)用其中的模塊技術(shù),通過(guò)重新集成和組合不同的可調(diào)用模塊技術(shù),更快、更高效地開發(fā)出新的深度解決問(wèn)題的算法模型。因此,即使在規(guī)模龐大的情況下,開源和有限范圍內(nèi)的共享也能夠極大地提高數(shù)字化的效率,同時(shí)降低數(shù)字化成本,極大減少重復(fù)建設(shè)的投入。在這樣的背景下,算法模型將以更高的水平拓展,為社會(huì)提供更優(yōu)質(zhì)、更智能的服務(wù)。

總的來(lái)說(shuō),算法模型是值得投資的領(lǐng)域。盡管對(duì)于僅擅長(zhǎng)或熱衷于提供系統(tǒng)平臺(tái)開發(fā)和重復(fù)開發(fā)的數(shù)字化技術(shù)企業(yè)來(lái)說(shuō),這并不能算是好消息,因?yàn)槠渖饪偭吭跍p少,但從可持續(xù)性和真實(shí)需求的角度來(lái)看,特別是在當(dāng)前經(jīng)濟(jì)增長(zhǎng)面臨巨大挑戰(zhàn)、政府財(cái)稅能力受限的情況下,通過(guò)算法模型的發(fā)展進(jìn)入到數(shù)字化內(nèi)容建設(shè)階段和高精度智能建設(shè)階段是十分重要且必要的。這個(gè)階段性價(jià)比更高,具有更清晰的建設(shè)目標(biāo)和更高的建設(shè)精準(zhǔn)度。

問(wèn):隨著ChatGPT興起,大模型爆發(fā)式涌現(xiàn),有人提出大模型已成為發(fā)展趨勢(shì),推動(dòng)AI邁向通用人工智能,也有人認(rèn)為大模型沒有投資價(jià)值,您對(duì)此持何看法?

零點(diǎn)有數(shù)董事長(zhǎng)袁岳:我非常贊同最近一些業(yè)界人士的觀點(diǎn),即我們當(dāng)前在算法模型的發(fā)展方面應(yīng)聚焦于垂直領(lǐng)域和關(guān)鍵領(lǐng)域,并在這些領(lǐng)域積累基礎(chǔ)數(shù)據(jù)語(yǔ)料,訓(xùn)練出足夠精度的模型,并將其匯聚成具有領(lǐng)域解決能力和競(jìng)爭(zhēng)力的綜合性解決方案。從我自身的觀點(diǎn)和敏感度來(lái)看,中模型領(lǐng)域是一個(gè)重點(diǎn)發(fā)展方向,我認(rèn)為這種方法更具范例性,也更具投資價(jià)值。

附圖 第三屆BPAA應(yīng)用算法實(shí)踐典范圓桌論壇

一方面,算法模型的發(fā)展將改變對(duì)數(shù)據(jù)的要求,推動(dòng)和優(yōu)化數(shù)據(jù)的價(jià)值體現(xiàn)、供應(yīng)能力和交易方式。模型的應(yīng)用精度將隨著數(shù)據(jù)不斷豐富而提高,同時(shí)隨著算法模型不斷優(yōu)化,其數(shù)據(jù)處理效率和數(shù)據(jù)復(fù)用能力都將顯著提高。

另一方面,先進(jìn)的算法需要更大的算力支持,算法的不斷進(jìn)化對(duì)算力的要求不斷提高,需要高精度和高通量的算法支持,因此,對(duì)于建設(shè)算力中心和提供算力支持的要求變得更加明確、精準(zhǔn)和清晰。從這個(gè)意義上說(shuō),算法實(shí)際上定義了算力和算量發(fā)展的最新方向和要求。

問(wèn):與國(guó)際相比,您認(rèn)為我國(guó)算法模型發(fā)展是否已經(jīng)能夠與ChatGPT等大模型競(jìng)爭(zhēng)?

零點(diǎn)有數(shù)董事長(zhǎng)袁岳:隨著ChatGPT的問(wèn)世,網(wǎng)絡(luò)輿論中出現(xiàn)了所謂“百模大戰(zhàn)”的說(shuō)法。盡管當(dāng)前號(hào)稱的“大模型”引起了廣泛關(guān)注,給人以數(shù)量眾多的印象,但這些模型在用戶實(shí)際應(yīng)用和競(jìng)爭(zhēng)領(lǐng)域中,并未真正進(jìn)入實(shí)戰(zhàn)場(chǎng)景,也沒有展現(xiàn)出實(shí)際競(jìng)爭(zhēng)力??梢哉f(shuō),“百模大戰(zhàn)”也許只是一場(chǎng)虛張聲勢(shì)。

與國(guó)際相比,我國(guó)算法模型在整個(gè)大模型項(xiàng)目中缺乏競(jìng)爭(zhēng)力。盡管科技部新一代人工智能發(fā)展研究中心發(fā)布的《中國(guó)人工智能大模型地圖研究報(bào)告》(以下簡(jiǎn)稱為《報(bào)告》)顯示,中國(guó)研發(fā)的大模型數(shù)量排名全球第二,僅次于美國(guó),但實(shí)際上我們能夠真正達(dá)到大模型水平的數(shù)量有限,能與ChatGPT匹敵的模型更是沒有,無(wú)論是在投入準(zhǔn)備、開發(fā)目標(biāo)還是應(yīng)用經(jīng)驗(yàn)方面,目前仍然沒有與GPT技術(shù)相對(duì)應(yīng)的解決方案。

《報(bào)告》顯示,我國(guó)參數(shù)規(guī)模在10億以上的大模型數(shù)達(dá)79個(gè),其中約有1/3的為通用大模型,其余2/3被稱為行業(yè)垂直大模型或行業(yè)應(yīng)用大模型。

在這些通用大模型中,僅有1/5具備多領(lǐng)域的語(yǔ)料標(biāo)注和實(shí)際場(chǎng)景的訓(xùn)練和應(yīng)用經(jīng)驗(yàn),其余4/5的模型是基于GPT或準(zhǔn)GPT等開源算法技術(shù)進(jìn)行集成。這些集成提供了一些基礎(chǔ)工具和支持,但由于缺乏特定領(lǐng)域或場(chǎng)景的語(yǔ)料和基礎(chǔ)數(shù)據(jù)進(jìn)行模型訓(xùn)練和實(shí)際應(yīng)用的實(shí)踐與探索,也可稱為大模型殼兒或技術(shù)框架。

行業(yè)垂直大模型在某個(gè)或多個(gè)領(lǐng)域中具有豐富的應(yīng)用功能,積累了領(lǐng)域內(nèi)的語(yǔ)料標(biāo)注、模型訓(xùn)練和應(yīng)用經(jīng)驗(yàn),并提供了一些解決方案。然而實(shí)際上,這些模型中預(yù)訓(xùn)練模型、生成模型或?yàn)樘囟▓?chǎng)景提供的解決方案數(shù)量很少,甚至有的尚未付諸實(shí)踐。

從這方面上看,在數(shù)字化解決方法中,算法模型的投入需求已十分迫切,亟需加強(qiáng)對(duì)關(guān)鍵領(lǐng)域的投入和投資,包括算法模型的開發(fā),以及算法模塊和算法系列的構(gòu)建。

問(wèn):您認(rèn)為當(dāng)前算法模型建設(shè)需要如何努力?結(jié)合本次bpaa各領(lǐng)域賽道的案例呈現(xiàn),您對(duì)其算法產(chǎn)業(yè)走向深層次應(yīng)用有何展望?

零點(diǎn)有數(shù)董事長(zhǎng)袁岳:當(dāng)前算法模型建設(shè)面臨重重挑戰(zhàn),任重而道遠(yuǎn)。各地的人工智能項(xiàng)目、智慧城市建設(shè)和智慧行業(yè)建設(shè)對(duì)于模型開發(fā)的預(yù)算不足,合作伙伴、客戶和供應(yīng)商之間對(duì)于模型開發(fā)投入方面的觀念和結(jié)構(gòu)也沒有發(fā)生重大調(diào)整。從這方面來(lái)說(shuō),我們不僅需要在算法模型領(lǐng)域進(jìn)行投資,更需要加強(qiáng)對(duì)垂直化機(jī)制、智慧化建設(shè)和內(nèi)容建設(shè)的投入。

在人才建設(shè)方面,目前也存在較大人才缺口,算法模型領(lǐng)域的前進(jìn)步伐需要更多實(shí)用的前沿人才提供支撐,而現(xiàn)有人才教育機(jī)制的滯后性需要算法模型行業(yè)積極投身到算法模型人才培訓(xùn)的一線,提供從系統(tǒng)概念、開發(fā)技能,到應(yīng)用方法、實(shí)案訓(xùn)練的全程支持。

附圖 BPAA算法應(yīng)用實(shí)踐典范200強(qiáng)團(tuán)隊(duì)

在大模型熱的背景下,應(yīng)用算法為中模型及行業(yè)應(yīng)用大模型的發(fā)展提供了更好的運(yùn)行環(huán)境和技術(shù)基礎(chǔ),為算法人才發(fā)展、部署和投入提供更多支持。從2020年上海世界人工智能大會(huì)上提出要重視算法產(chǎn)業(yè)化建設(shè),到如今連續(xù)三年成功舉辦BPAA算法應(yīng)用實(shí)踐典范,我們每年都積累了優(yōu)秀的算法模型TOP50代表,而在第三屆新設(shè)置創(chuàng)新組和創(chuàng)業(yè)組,分別評(píng)選TOP50算法模型代表,迄今為止積累了200強(qiáng)算法團(tuán)隊(duì)。這些團(tuán)隊(duì)是中國(guó)本土算法模型的先行者,是在中、小模型已有成就的建設(shè)者,也是未來(lái)大模型建設(shè)重要的支持力量。

在數(shù)字新基建的浪潮中,上海市首先強(qiáng)調(diào)算法要素建設(shè),于2021年推出《上海新一代人工智能算法創(chuàng)新行動(dòng)計(jì)劃》,同時(shí)在普陀區(qū)也形成了屬于自己的算法發(fā)展特色,為BPAA人才落地提供了有力支持。最后,期待更多算法人才和團(tuán)隊(duì)能夠加入進(jìn)來(lái),助推上海算法產(chǎn)業(yè)化高質(zhì)量發(fā)展。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )