智譜AI COO張帆:千億模型是AIGC的船票

5月17日消息,由搜狐主辦的2023搜狐科技峰會(huì)17日上午在北京開(kāi)幕。峰會(huì)下午,智譜AI COO張帆發(fā)表了《大模型的探索和實(shí)踐》的演講。他認(rèn)為,ChatGPT背后是大模型技術(shù),只有做到千億模型,才是AIGC的船票。

張帆認(rèn)為,做大模型需要面臨算法、算力的挑戰(zhàn),還需要數(shù)據(jù)經(jīng)驗(yàn)。所謂名師出高徒,越好的數(shù)據(jù),喂出來(lái)的模型越好。如果數(shù)據(jù)有問(wèn)題,或者數(shù)據(jù)的價(jià)值觀有問(wèn)題,傳導(dǎo)到模型后,將很難修復(fù)。

同時(shí)他表示,大模型有很多應(yīng)用場(chǎng)景,比如文本生成、信息抽取等。大模型可以進(jìn)一步讓AI普惠,可以更加低成本、快速地把AI應(yīng)用到各種業(yè)務(wù)場(chǎng)景中。

以下為張帆演講全文:

首先大家能夠看到今年被震撼的事件,就是ChatGPT用了兩個(gè)月的時(shí)間,全球破億用戶的神話,特別是對(duì)比傳統(tǒng)的技術(shù),這個(gè)速度變得非常快。在ChatGPT背后的技術(shù)是什么呢?是一個(gè)大模型的技術(shù),我簡(jiǎn)單羅列了一下大模型發(fā)展趨勢(shì)。

大模型從2017年Transformer這篇論文出現(xiàn),開(kāi)始有了這個(gè)賽道,18年發(fā)布GPT-1開(kāi)始,橫軸是時(shí)間線,縱軸是參數(shù)量,越來(lái)越多的模型和越來(lái)越大的參數(shù)出現(xiàn)。智譜是比較早就關(guān)注到這個(gè)方向。

從19年公司成立就在關(guān)注大模型,那個(gè)時(shí)候沒(méi)有那么火熱,一直投入資源在做。一直到21年下半年,我們開(kāi)始訓(xùn)練我們第一個(gè)希望能夠普惠的千億稠密的大模型,大概訓(xùn)練了8、9個(gè)月之后,到22年8月份發(fā)布第一個(gè)版本,并且開(kāi)源出來(lái),在國(guó)際社會(huì)上有很多正向的反饋。

到了今年3月份,我們對(duì)標(biāo)ChatGPT,出臺(tái)了ChatGLM對(duì)話式模型反饋非常好。今年3月份,發(fā)布了6B小號(hào)的大模型更加普惠,甚至在單張游戲卡上就可以跑出來(lái),一個(gè)多月的時(shí)間,全球有200萬(wàn)的用戶,熱度非常高的。

從最開(kāi)始OpenAI有GPT-1、GPT-2,到GPT-3,有代碼、網(wǎng)頁(yè)指令等,到后面的GPT-4。我們?nèi)ツ?也許發(fā)布了千億模型之后,也在跟進(jìn)每個(gè)環(huán)節(jié),我們有對(duì)應(yīng)的對(duì)標(biāo),比如說(shuō)代碼模型、指令微調(diào),讓大模型遵循指令,Web及時(shí)獲取真實(shí)信息,Chat更像是跟人聊天,按照這樣的節(jié)奏,在今年3、4月份,基本上補(bǔ)齊3.5對(duì)標(biāo)的邏輯,我們正在追趕GPT-4的邏輯。

為什么我們叫千億大模型?它的模型參數(shù)從一開(kāi)始1億、10億、百億、千億這樣的流程,縱向是由機(jī)器生成一篇文章,讓人判別,有多大概率是機(jī)器寫(xiě)的,判別這個(gè)事兒,最低線是隨機(jī)猜,下面是50%的底線。隨著參數(shù)量從1億到千億,每次增長(zhǎng)人類(lèi)越來(lái)越發(fā)現(xiàn)不了,這篇文章是不是機(jī)器寫(xiě)的,等到達(dá)千億的時(shí)候,幾乎人類(lèi)已經(jīng)很難分辨是機(jī)器寫(xiě)的還是人類(lèi)寫(xiě)的,只有做到千億模型,才是AIGC的船票。

為什么會(huì)產(chǎn)生這樣的智能?其實(shí)很多研究中,很多的任務(wù)中,我們可以看到,隨著參數(shù)量的變化,從百億到接近千億,甚至到大幾百億的時(shí)候,突然智能有快速的突增,這就是所謂的涌現(xiàn),包括思考的能力、遵循指令的能力,推理的能力,都在很大規(guī)模才開(kāi)始產(chǎn)生的。但是這個(gè)背后的原因雖然有各種各樣的猜測(cè)和說(shuō)法,也沒(méi)有很明確的定論。

但是我們認(rèn)為這個(gè)邏輯還是講得通的。其實(shí),人類(lèi)的智能不是隨著神經(jīng)元做的線性增長(zhǎng),我們1歲的時(shí)候,有一些基礎(chǔ)的智力,談不上很聰明,到了2歲、3歲,結(jié)果到了3歲以后,開(kāi)始快速具備智能,這些能力也不是線性的。所以我們覺(jué)得機(jī)器跟人很像,而且人有多少神經(jīng)元,人類(lèi)大概有800億神經(jīng)元,今天到了千億參數(shù)量,開(kāi)始接近人類(lèi)了,至少接近一個(gè)數(shù)量級(jí)的情況下了,這是我們從大模型里看到的變化。

但是做大模型本身也是很難的,這個(gè)好比我們蓋樓房一樣,咱們蓋五層樓和蓋50層樓,不是一個(gè)線性關(guān)系,用的基礎(chǔ)技術(shù)都不一樣,5層樓用木頭就可以了,50層樓要用到鋼筋。

我們總結(jié)幾個(gè)挑戰(zhàn)。

第一個(gè)挑戰(zhàn)是算法挑戰(zhàn)。大模型精度非常高,它在非常復(fù)雜的計(jì)算的時(shí)候,我們本身是希望會(huì)逐步收斂起來(lái),變成穩(wěn)定的模型,現(xiàn)實(shí)當(dāng)中,復(fù)雜精度訓(xùn)練當(dāng)中,經(jīng)常出現(xiàn)由于精度不夠,代替梯度爆炸,模型突然訓(xùn)壞了,沒(méi)有收斂了,而且爆炸了,這種情況非常常見(jiàn)。

另外一個(gè)是算力挑戰(zhàn)。我們整個(gè)千億130B模型的訓(xùn)練,純的算力費(fèi)用超過(guò)一個(gè)億,這是去年的,今年所有的算力都翻倍,甚至更高,關(guān)鍵是買(mǎi)不到了。

另外就是數(shù)據(jù)上的經(jīng)驗(yàn)。這通常就是大家所理解的名師出高徒,也就是越好的數(shù)據(jù),喂出來(lái)的模型越好,如果數(shù)據(jù)有問(wèn)題,或者數(shù)據(jù)的質(zhì)量?jī)r(jià)值觀有問(wèn)題,直接傳導(dǎo)到模型上,后面很難去修復(fù)。

下面簡(jiǎn)單介紹一下我們整體大模型矩陣,智譜有完整的大模型矩陣,我們?nèi)婧w了文本、代碼、圖像、視頻,基本上對(duì)標(biāo)OpenAI,我們有一個(gè)大號(hào)的大模型130B,到小號(hào)的大模型到6B,從基座模型到對(duì)話模型,以及應(yīng)用端的代碼模型,有文生圖模型,還有CogVideo文生圖視頻,整個(gè)矩陣比較完整。

更關(guān)鍵的是大模型生產(chǎn)過(guò)程中,我們大多數(shù)人用的是GPT,而我們用的是GLM,百分之百自主知識(shí)產(chǎn)權(quán)的算法自研的,這個(gè)相當(dāng)于一方面有把GPT單向模型的能力,只會(huì)單向預(yù)測(cè)出現(xiàn)的概率,到雙向的,從文本中間摳掉字,通過(guò)兩種特殊能力的結(jié)合,產(chǎn)生GLM的算法。我們明顯超過(guò)GPT-3的水平,得益于算法本身從訓(xùn)練當(dāng)中挖掘更多的知識(shí)信息。

講一下我們具體模型特點(diǎn),130B模型,1300億大語(yǔ)言模型在去年8月份發(fā)布的,今年持續(xù)迭代,這個(gè)模型有幾個(gè)特點(diǎn),在去年8月份,我們率先把它做了開(kāi)源,一個(gè)雙語(yǔ)的模型,尤其在中文的數(shù)據(jù)集上有領(lǐng)先優(yōu)勢(shì)。

另外兩個(gè)特色,第一個(gè)是無(wú)損量化,我們是極其少有的,我們能夠用int4無(wú)損壓縮大模型,每個(gè)參數(shù)用全精度32個(gè)位,現(xiàn)在變成4個(gè)位還不影響精度,它占據(jù)的空間非常小。另外我們?nèi)嬷С謬?guó)產(chǎn)信創(chuàng),我們甚至有一些模型完全在華為的昇騰上面完成訓(xùn)練,我們對(duì)于國(guó)產(chǎn)的芯片都是有較好的支持。

另外分享一下,我們還有一個(gè)CodeGeeX,全球領(lǐng)先的多語(yǔ)言代碼,我們?cè)诙嗾Z(yǔ)言模型上僅次于OpenAI,像Meta的,其他的開(kāi)放平臺(tái),Salesforce都是勝出的,我們包裝成中國(guó)的插件,也是對(duì)標(biāo)GitHub,中國(guó)每天產(chǎn)生400萬(wàn)行的代碼為我們的用戶。另外在評(píng)測(cè)當(dāng)中,有84%的用戶都覺(jué)得它的效果是比較好的。

我們?cè)谶^(guò)去一段時(shí)間,大概溝通有將近100家客戶,在這個(gè)過(guò)程當(dāng)中,我們不斷的產(chǎn)生新的idea,讓我們了解大模型如何應(yīng)用到應(yīng)用當(dāng)中。每一次交互的變化,都可能對(duì)某一類(lèi)需求產(chǎn)生洗牌的機(jī)會(huì),我們更了解大模型,大模型應(yīng)用場(chǎng)景非常值得關(guān)注。

我們選了幾個(gè)常見(jiàn)的點(diǎn),跟大家做簡(jiǎn)單的分享。

第一個(gè)文本生成。沒(méi)有大模型之前,我們的文本生成基本上都是規(guī)則作為基礎(chǔ),都是以規(guī)則的拼接方式來(lái)做的,基本上很容易發(fā)現(xiàn)是人還是機(jī)器做的,而且它的影響面和應(yīng)用場(chǎng)景非常小。

現(xiàn)在模型大文本生成能力非常強(qiáng),比如廣告文案生成,工作當(dāng)中周報(bào)的生成,新聞的生成,標(biāo)書(shū)的生成,招聘的話,職位的生成,旅游的話,游記的生成,它的生成能力放在無(wú)數(shù)的地方,可能對(duì)市場(chǎng)的生態(tài)帶來(lái)新的可能性,或者新的機(jī)會(huì)。這是一個(gè)非常好的場(chǎng)景。

第二個(gè)信息抽取。我們以前做信息抽取,基本上都靠NLP的方法,來(lái)打標(biāo),各種規(guī)則等等方法,其實(shí)它的泛化能力非常差,生產(chǎn)成本特別高,我們?cè)谝恍┛蛻粜枨蟪槿?lè)得長(zhǎng)江,有一些銷(xiāo)售戴著智能工牌,跟客戶聊天有一萬(wàn)字的生成,我們提取用戶畫(huà)像,用戶需求,甚至做客服的質(zhì)檢,有沒(méi)有該說(shuō)的話,不該說(shuō)的話也說(shuō)了來(lái)打分。

如用傳統(tǒng)的NLP的方法,則需要用兩三個(gè)月的時(shí)間不斷調(diào)整,而在今天大模型時(shí)代,它的生產(chǎn)成本,一個(gè)人搞半天就可以搞好了,在這種情況下,大模型進(jìn)一步讓AI普惠,在每個(gè)地方更加低成本、大家快速的把AI應(yīng)用到自己的業(yè)務(wù)場(chǎng)景里面去。

再比如說(shuō)信息檢索,微軟的New Bing,帶來(lái)一種全新的模式。我們?cè)瓉?lái)的搜索引擎,搜索完了之后,把10條結(jié)果全部要讀一遍,看完要一個(gè)小時(shí),大模型可以幫你完全看完,基于你的問(wèn)題,針對(duì)性做回答,甚至還可以進(jìn)一步做追問(wèn),這個(gè)體驗(yàn)會(huì)帶來(lái)完全顛覆。

這僅僅是網(wǎng)頁(yè),它本身內(nèi)容密度比較高的。我們今天搜一個(gè)視頻,往往只能得到封面或者是一個(gè)標(biāo)題,你完全不知道自己查的內(nèi)容在哪,如果把整個(gè)視頻看了,半天就沒(méi)了,大語(yǔ)言能不能把字幕里的內(nèi)容提取出來(lái),閱讀完之后,轉(zhuǎn)成對(duì)應(yīng)的方式給我們,不再受制于展現(xiàn)形式。

比如說(shuō)我們簡(jiǎn)歷的檢索,原來(lái)簡(jiǎn)歷檢索到這個(gè)人的職位和公司,它對(duì)于每一場(chǎng)項(xiàng)目經(jīng)驗(yàn)的描述,我們沒(méi)辦法轉(zhuǎn)化成語(yǔ)義,在今天有可能完全改變垂直領(lǐng)域,用戶搜索的習(xí)慣和場(chǎng)景,這也是一個(gè)非常大的機(jī)會(huì)。在原來(lái)的方式里面做不到的。

比如說(shuō)對(duì)話系統(tǒng),原來(lái)對(duì)話系統(tǒng),基本上以QA為基礎(chǔ),我們寫(xiě)好的問(wèn)題,不夠的話,我們不停擴(kuò)展擴(kuò)寫(xiě),用各種各樣的方法,非常生硬,稍微長(zhǎng)一點(diǎn)的上下文理解不了,在大模型領(lǐng)域里面,有無(wú)數(shù)的場(chǎng)景,更好把對(duì)話能力植入進(jìn)去,不斷有更豐富的對(duì)話,即使QA里面沒(méi)有,放一個(gè)用戶手冊(cè),可以隨便提問(wèn)題,它了門(mén)檻、效果、上下文能力,泛化能力,遠(yuǎn)遠(yuǎn)超過(guò)之前的傳統(tǒng)方法,包括我們?cè)跁?huì)議場(chǎng)景上做會(huì)議紀(jì)要,會(huì)議紀(jì)要直接變成排期,都是有機(jī)會(huì)。

我們會(huì)看到僅僅在過(guò)去兩個(gè)月時(shí)間,就見(jiàn)到無(wú)數(shù)這樣的場(chǎng)景,一次一次被我們大模型能力驚艷到,它在各個(gè)場(chǎng)景里會(huì)出現(xiàn)越來(lái)越多的應(yīng)用,這將是一個(gè)值得大家關(guān)注的方向。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2023-05-17
智譜AI COO張帆:千億模型是AIGC的船票
大模型將推動(dòng)AI普惠。

長(zhǎng)按掃碼 閱讀全文