開源大型語言模型給OpenAI、谷歌和微軟帶來哪些挑戰(zhàn)?

極客網·人工智能5月12日 在過去的幾年,科技巨頭似乎能夠壟斷規(guī)模不斷增長的大型語言模型(LLM)市場。最近一些大型科技公司的財報電話會議表明,他們在人工智能開發(fā)方面仍掌握著控制權。微軟發(fā)布的公告尤其表明,該公司已經通過其人工智能服務創(chuàng)造了數(shù)十億美元的業(yè)務,包括通過Azure OpenAI服務和OpenAI在其云基礎設施上運行的工作負載。

OpenAI、谷歌和微軟如何應對開源大型語言模型帶來的挑戰(zhàn)?.jpg

然而,谷歌最近泄露的一份內部文件表明,由于大型語言模型的快速進步,大型科技公司的市場地位并不像看起來那么穩(wěn)固。谷歌在這份文件指出:“我們沒有護城河,OpenAI也沒有?!?/p>

人工智能市場的動態(tài)正在逐漸從“越大越好”轉變?yōu)椤霸奖阋嗽胶谩?、“效率越高越好”以及“越定制越好”。雖然基于云的大型語言模型和生成式人工智能產品總有自己的市場,但客戶現(xiàn)在也有開源的選擇可以探索。

大型語言模型的“護城河”

2020年發(fā)表的有關GPT-3論文預測了大型語言模型規(guī)模化的前景。GPT-3有1750億個參數(shù),這個大型語言模型可以做很多它沒有訓練過的事情。GPT模型的發(fā)展表明,如果繼續(xù)創(chuàng)建更大的大型語言模型,并在更大的數(shù)據集上訓練它們,將能夠創(chuàng)建更有能力的模型。

GPT-3的成功增強了人們對創(chuàng)建更大語言模型的興趣。幾篇研究論文探討了大型語言模型的迷人特性,包括它們的涌現(xiàn)能力。與此同時,人工智能研究實驗室競相創(chuàng)造越來越大的模型。Gopher(280Bparams)、LaMDA(137Bparams)、PaLM(540Bparams)和Megatron-Turing(530Bparams)就是一些例子。

但與此同時,大型語言模型社區(qū)經歷了一個令人不快的變化。隨著研究重點轉向創(chuàng)建規(guī)模更大的大型語言模型,開發(fā)和創(chuàng)新的成本急劇上升。像GPT-3這樣的大型語言模型需要花費數(shù)百萬美元來訓練和運行。因此,大型語言模型的工作僅限于少數(shù)資金充足的科技公司和與之相關的人工智能實驗室。

隨著人工智能實驗室越來越依賴于營利性組織的資金支持,他們面臨著越來越大的壓力,需要將自己的技術實現(xiàn)貨幣化。這促使他們圍繞自己的技術創(chuàng)造產品。與此同時,他們需要在自己的產品周圍建造“護城河”。而“護城河”就是防止競爭對手復制企業(yè)的產品和業(yè)務的防御機制。

大型語言模型的關鍵護城河是:(1)訓練數(shù)據;(2)模型權重;(3)訓練和推理成本。大型科技公司已經在(3)中占據優(yōu)勢,因為它們是能夠支付訓練和運營大型大型語言模型費用的少數(shù)幾家公司。即使是像BLOOM和OPT175-B這樣的GPT-3的開源替代品,對于那些無力購買或租用數(shù)千個GPU的資金緊張的科技公司來說,通常難以承擔其運行成本。

然而,為了也能夠獲得其他兩個領域的優(yōu)勢,科技公司將這個領域推向了更加晦澀和更少共享的方向。OpenAI可能是最具代表性的例子,它從一個對外發(fā)布所有研究成果的人工智能實驗室,變成了一家向其大型語言模型出售API訪問權限的初創(chuàng)公司,該公司甚至不再公布有關其訓練數(shù)據和模型架構的細節(jié)。

在很長一段時間里,這似乎是一場底層競爭,大型科技公司向大型語言模型投入更多資金,使這一領域更加隱秘。

開源大型語言模型

隨著控制大型語言模型的權力集中在幾家大型科技公司手中,開源社區(qū)對此做出了回應。在ChatGPT的發(fā)布表明在不同的應用程序中遵循大型語言模型的指令越來越有希望之后,他們的努力得到了回報。在過去的幾個月,人們看到了幾款開源大型語言模型的發(fā)布,它們挑戰(zhàn)了大型科技公司已經建立的整個商業(yè)模式。

這些ChatGPT的開源替代品證明了幾個關鍵點。首先,如果在非常大的數(shù)據集上進行訓練,具有數(shù)十億個參數(shù)的大型語言模型可以在性能方面與非常大的模型競爭。其次,可以用很少的預算和少量的數(shù)據來微調小型的大型語言模型。最后,開源大型語言模型的發(fā)展速度比封閉生態(tài)系統(tǒng)要快得多,因為不同的團隊可以在彼此的工作基礎上進行構建。

這些大型語言模型中的參數(shù)大多數(shù)在70億到130億個之間,可以在強大的消費級GPU上運行。有趣的是,這場運動是由Meta開發(fā)的開源大型語言模型系列LLaMA的發(fā)布引發(fā)的。不久之后,不同的研究人員發(fā)布了Alpaca和Vicuna,這兩個模型是在LLaMA的基礎上創(chuàng)建的,它們經過了微調,可以像ChatGPT一樣遵循指令。

LLaMA的許可證禁止將其用于商業(yè)目的。Databricks的Dolly2通過建立在EleutherAI的Pythia模型之上解決了這個問題。Open Assistant是一個完全開放的模型,可以訪問所有內容,包括代碼、模型權重和訓練數(shù)據。

這些模型還利用了低秩自適應(LoRA)等技術,可以將訓練成本降低1000多倍。

這些模型為希望在其應用程序中使用大型語言模型的企業(yè)提供了替代方案?,F(xiàn)在,他們可以使用低成本的模型,這些模型可以在他們自己的服務器上運行,并且可以用很少的預算經常更新他們自己的數(shù)據。

這對大型科技公司意味著什么?正如谷歌在備忘錄中所警告的那樣,“由于可以承受大型語言模型的研究費用,在技術上保持競爭優(yōu)勢變得更加困難。世界各地的研究機構正在以彼此的工作為基礎,以廣度優(yōu)先的方式探索解決方案空間,遠遠超出我們的能力。當外界的創(chuàng)新稀釋了我們開發(fā)的大型語言模型的價值時,我們努力保守自己的秘密,或者可以嘗試相互學習?!?/p>

封閉式大型語言模型的市場會發(fā)生什么變化?

顯然,大型科技公司無法壟斷大型語言模型市場。但這并不意味著基于云的語言模型市場將會消失。正如人工智能研究員Andrej Karpathy指出的那樣,開源大型語言模型生態(tài)系統(tǒng)仍然面臨一些問題,包括預訓練基礎模型的高成本。

與此同時,開源大型語言模型并不適合所有人。對于那些沒有內部機器學習人才,并希望通過幾個API調用快速將大型語言模型集成到其應用程序中的企業(yè)來說,無服務器黑盒解決方案仍然非常有吸引力。與此同時,像微軟和谷歌這樣的科技巨頭通過他們的應用程序和客戶群擁有非常強大的分銷渠道。

但是,開源社區(qū)的努力將擴大市場規(guī)模,使在新的環(huán)境(例如筆記本電腦)中使用大型語言模型成為可能。與此同時,它們將在一定程度上使市場實現(xiàn)商品化,迫使科技巨頭向客戶提供更具競爭力的價格。大型語言模型領域的發(fā)展非常迅速,拭目以待未來幾周和幾個月會發(fā)生什么將是一件有趣的事情。

(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )

贊助商
2023-05-12
開源大型語言模型給OpenAI、谷歌和微軟帶來哪些挑戰(zhàn)?
在過去的幾年,科技巨頭似乎能夠壟斷規(guī)模不斷增長的大型語言模型(LLM)市場。最近一些大型科技公司的財報電話會議表明,他們在人工智能開發(fā)方面仍掌握著控制權。

長按掃碼 閱讀全文