酷酷坏多多集百部潮流影音,国内中年熟妇露脸视频

原標(biāo)題：GPT-2：OpenAI的NLP商業(yè)化野望

自然語言處理（NLP）技術(shù)正在生活的方方面面改變著我們的生活。

客廳的智能音箱在跟你每天的對(duì)話中飛速進(jìn)步，甚至開始跟你“插科打諢”來適應(yīng)你的愛好習(xí)慣。

電商客服總是能在第一時(shí)間回復(fù)，可能處理完你的問題，你也并未發(fā)覺TA可能只是一個(gè)智能客服。現(xiàn)實(shí)版的“圖靈測(cè)試”每天都在發(fā)生。

經(jīng)常查閱外文資料的你也許早已習(xí)慣網(wǎng)頁或幾家搜索引擎的一鍵翻譯，譯文的質(zhì)量好到讓你覺得學(xué)外語的時(shí)間純屬浪費(fèi)。

閑來無聊當(dāng)你刷信息流或者短視頻，總是事后發(fā)現(xiàn)沉迷其中的時(shí)間越來越多，其實(shí)背后正是自然語言算法平臺(tái)在根據(jù)你的瀏覽習(xí)慣、注意力時(shí)長(zhǎng)來進(jìn)行的優(yōu)化推薦。

由果溯因，我們希望簡(jiǎn)單回顧近幾年NLP的躍遷升級(jí)，沿著這條技術(shù)洪流一直溯源?；氐剿闯渑妗⑺盗至⒌募夹g(shù)源頭，來理解NLP演進(jìn)的脈絡(luò)。

NLP兩強(qiáng)爭(zhēng)霸： OpenAI與GPT-2 的“倔強(qiáng)”進(jìn)擊

關(guān)注NLP的人們一定知道，2018年是NLP領(lǐng)域發(fā)展的大年。

2018年6月，OpenAI發(fā)表了題為《Improving Language Understanding by Generative Pre-Training》的論文，提出基于“預(yù)訓(xùn)練語言模型”的GPT，它首先利用了Transformer網(wǎng)絡(luò)代替了LSTM作為語言模型，并在12個(gè)NLP任務(wù)中的9個(gè)任務(wù)獲得了SOTA的表現(xiàn)。但種種原因GPT并未獲得更大關(guān)注。

GPT的基本處理方式是在大規(guī)模語料上進(jìn)行無監(jiān)督預(yù)訓(xùn)練，再在小得多的有監(jiān)督數(shù)據(jù)集上為具體任務(wù)進(jìn)行精細(xì)調(diào)節(jié)（fine-tune）的方式，不依賴針對(duì)單獨(dú)任務(wù)的模型設(shè)計(jì)技巧，可以一次性在多個(gè)任務(wù)中取得很好的表現(xiàn)。

直到10月，谷歌的BERT（Bidirectional Encoder Representation from Transformers)問世，一經(jīng)發(fā)布便得到各界廣泛關(guān)注。BERT模型在11項(xiàng)NLP任務(wù)中奪得SOTA的表現(xiàn)，更是令谷歌技術(shù)人員宣告“BERT開啟了NLP新時(shí)代”的宣言。而BERT其實(shí)采用了和GPT完全相同的兩階段模型，首先是無監(jiān)督的語言模型預(yù)訓(xùn)練；其次是使用Fine-Tuning模式解決下游任務(wù)。其不同之處在于BERT在預(yù)訓(xùn)練階段采用了類似ELMO的雙向語言模型，且使用了更大數(shù)據(jù)規(guī)模用于預(yù)訓(xùn)練。

BERT在改造NLP下游任務(wù)（包括序列標(biāo)注，比如中文分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、語義角色標(biāo)注等；第二類是分類任務(wù)，比如文本分類、情感計(jì)算等；句子關(guān)系判斷，比如Entailment，QA，語義改寫，自然語言推理等；生成式任務(wù)，比如機(jī)器翻譯、文本摘要、寫詩造句、看圖說話等）上面，強(qiáng)大的普適性和亮眼的任務(wù)表現(xiàn)，成為它爆紅NLP的底氣。

僅僅四個(gè)月后，OpenAI發(fā)布GPT-2。這一大規(guī)模無監(jiān)督NLP模型，可以生成連貫的文本段落，刷新了7大數(shù)據(jù)集SOTA表現(xiàn)，并且能在未經(jīng)預(yù)訓(xùn)練的情況下，完成閱讀理解、問答、機(jī)器翻譯等多項(xiàng)不同的語言建模任務(wù)。

首先，CPT-2、BERT與GPT一樣，延續(xù)Transformer的Self-Attention（自注意）作為底層結(jié)構(gòu)。OpenAI研究人員對(duì)無監(jiān)督數(shù)據(jù)訓(xùn)練的堅(jiān)持也許來自于這樣一個(gè)思路：監(jiān)督學(xué)習(xí)會(huì)造成語言模型僅能處理特定任務(wù)表現(xiàn)很好，而在泛化能力表現(xiàn)很差；而單純依靠訓(xùn)練樣本的增加，很難有效實(shí)現(xiàn)任務(wù)擴(kuò)展。因此，他們選擇在更通用的數(shù)據(jù)集基礎(chǔ)上使用自注意力模塊遷移學(xué)習(xí)，構(gòu)建在 zero-shot 情況下能夠執(zhí)行多項(xiàng)不同NLP任務(wù)的模型。

與BERT的不同在于，CPT-2模型結(jié)構(gòu)仍然延續(xù)了GPT1.0的“單向語言模型”。GPT-2似乎只有一個(gè)目標(biāo)：給定一個(gè)文本中前面的所有單詞，預(yù)測(cè)下一個(gè)單詞。這一點(diǎn)倔強(qiáng)堅(jiān)持，可以看出OpenAI的解決思路。它選擇把Transformer模型參數(shù)擴(kuò)容到48層，包含15億參數(shù)的Transformer模型，找到一個(gè)800 萬網(wǎng)頁（WebText）數(shù)據(jù)集作為無監(jiān)督訓(xùn)練數(shù)據(jù)。簡(jiǎn)單說，GPT-2 就是對(duì) GPT 模型的直接擴(kuò)展，在超出 10 倍的數(shù)據(jù)量上進(jìn)行訓(xùn)練，參數(shù)量也多出了 10 倍。這讓GPT-2采用更加直接“暴力”的方式，單靠提升模型參數(shù)容量和增加訓(xùn)練數(shù)據(jù)的數(shù)量來超過BERT。

GPT-2作為一個(gè)文本生成器，只要在開始輸入只言片語，這個(gè)程序會(huì)根據(jù)自己的判斷，決定接下來應(yīng)該如何寫作。簡(jiǎn)言之，GPT-2作為通用語言模型，可以用于創(chuàng)建AI 寫作助手、更強(qiáng)大的對(duì)話機(jī)器人、無監(jiān)督語言翻譯以及更好的語音識(shí)別系統(tǒng)。OpenAI 設(shè)想，人們可能出于惡意目的利用GPT-2來生成誤導(dǎo)性新聞、網(wǎng)上假扮他人欺詐、在社交媒體自動(dòng)生產(chǎn)惡意或偽造內(nèi)容、自動(dòng)生產(chǎn)垃圾或釣魚郵件等內(nèi)容。所以，OpenAI在發(fā)布GPT2的同時(shí)就宣稱“這種強(qiáng)力的模型有遭到惡意濫用的風(fēng)險(xiǎn)”，選擇不對(duì)訓(xùn)練模型做完整開源，這一舉動(dòng)引來機(jī)器學(xué)習(xí)&自然語言處理界研究人員的激烈討論。

無論是被外界嘲諷為對(duì)自家產(chǎn)品的“過分自負(fù)”，還是OpenAI出于PR目的的“故意炒作”，GPT-2 “刻意制造假新聞”的實(shí)力確實(shí)驚艷到了業(yè)內(nèi)眾人。各位吃瓜群眾一邊實(shí)力吐槽，一邊又迫不及待想探究GPT-2的強(qiáng)大生成能力。

經(jīng)過將近一年時(shí)間， GPT-2在謹(jǐn)慎開源和開發(fā)者的“嘗鮮”參與中，進(jìn)行著眼花繚亂的更新演進(jìn)。

GPT-2階段開源：帶給開發(fā)者的土味狂歡

伴隨爭(zhēng)議和開發(fā)者高漲的呼聲，OpenAI仍然出于謹(jǐn)慎考慮，選擇了分階段開源。8月以后，它分階段發(fā)布了“小型的”1.24 億參數(shù)模型（有 500MB 在磁盤上），“中型的”3.55 億參數(shù)模型（有 1.5GB 在磁盤上），以及 7.74 億參數(shù)模型（有 3GB 在磁盤上）。直到11月6日，它正式放出GPT-2最后一個(gè)部分的包含15億參數(shù)的最大版本的完整代碼。

一直到完整版本公布，OpenAI并未發(fā)現(xiàn)任何明確的代碼、文檔或者其他濫用實(shí)證，也就是說一直擔(dān)心的“GPT-2遭到濫用”的結(jié)果并沒有發(fā)生，但OpenAI仍然認(rèn)為，全面版本發(fā)布同時(shí)也會(huì)讓惡意人士有機(jī)會(huì)進(jìn)一步提高檢測(cè)逃避能力。

所以，伴隨著GPT-2不同版本的陸續(xù)公布，OpenAI自身與多家復(fù)現(xiàn)GPT-2模型的團(tuán)隊(duì)進(jìn)行交流，驗(yàn)證GPT-2的使用效果，同時(shí)也在避免濫用語言模型的風(fēng)險(xiǎn)，完善檢測(cè)文本生成的檢測(cè)器。同時(shí)，OpenAI也還在與多家研究機(jī)構(gòu)合作，比如對(duì)人類對(duì)語言模型產(chǎn)生的數(shù)字信息的敏感性的研究，對(duì)惡意利用GPT-2的可能性的研究，對(duì)GPT-2生成文本的統(tǒng)計(jì)可檢測(cè)性的研究。

無論OpenAI出于怎樣的謹(jǐn)慎，隨著不同容量參數(shù)模型的發(fā)布，外界開發(fā)人員已經(jīng)迫不及待進(jìn)行各種方向的探索了。

2019年4月，Buzzfeed 數(shù)據(jù)科學(xué)家 Max Woolf使用Python封裝了具有 1.17 億超參數(shù)的“較小”版本的 OpenAI GPT-2 文本生成模型進(jìn)行微調(diào)和生成腳本，開源了一個(gè)“GPT-2 精簡(jiǎn)版”，從而更好地幫助人們生成一段文本，里面可以給出很多出人意料的內(nèi)容。

在OpenAI逐步開源的過程里，來自布朗大學(xué)的兩位研究生就率先自己動(dòng)手復(fù)制出一個(gè) 15 億參數(shù)量的 GPT-2，并將其命名為 OpenGPT-2。過程中，他們使用自己的代碼從零開始訓(xùn)練 GPT-2 模型大約只花費(fèi)了 5 萬美元。所用的數(shù)據(jù)集也盡可能參照OpenAI論文里公開的方法。有很多熱心網(wǎng)友的測(cè)試后表示，OpenGPT-2 的輸出文本效果優(yōu)于 OpenAI 的 GPT-2 7.74 億參數(shù)版本。當(dāng)然，也有人認(rèn)為，并沒有比GPT-2模型生成的文本效果更好。

同時(shí)在國(guó)內(nèi)，一個(gè)位于南京名叫“Zeyao Du”的開發(fā)者，在GitHub上開源了的GPT-2 Chinese，可以用來寫詩、新聞、小說和劇本，或是訓(xùn)練通用語言模型。這一能夠?qū)崿F(xiàn)逆天效果GPT-2模型，用到了15億個(gè)參數(shù)。目前他開源了預(yù)訓(xùn)練結(jié)果與 Colab Demo 演示，只需要單擊三次，人們就可以生成定制的中文故事。

GPT-2模型還有更多嘗試。一個(gè)新加坡高中生Rishabh Anand開源了一個(gè)輕量級(jí)GPT-2“客戶端”——gpt2-client，它是一個(gè)GPT-2 原始倉庫的包裝器，只需5行代碼就可以實(shí)現(xiàn)文本生成。

來自中國(guó)的幾個(gè)研究者正在用GPT模型生成高質(zhì)量的中國(guó)古典詩歌。比如論文里提到的一首《七律·一路平安》：“一聲天際雁橫秋，忽夢(mèng)青城舊友游。路入青林無去馬，手?jǐn)y黃牒有歸舟。平生志業(yè)商山老，何日公卿漢署留。安得相從話疇昔，一樽同醉萬山頭”。一場(chǎng)平平淡淡的送別，寫得就飽含滄桑、充滿離愁。不難讓人懷疑：這個(gè)語言模型是否真的有了感情？

GPT-2模型還可以用在音樂創(chuàng)作上。OpenAI推出一種用于生成音樂作品的深層神經(jīng)網(wǎng)絡(luò)——MuseNet，正是GPT-2語言模型Sparse Transformer相同的通用無監(jiān)督技術(shù)，允許MuseNet根據(jù)給定的音符組預(yù)測(cè)下一個(gè)音符。該模型能夠用10種不同的樂器制作4分鐘的音樂作品，并且能夠從巴赫，莫扎特，披頭士樂隊(duì)等作曲家那里了解不同的音樂風(fēng)格。它還可以令人信服地融合不同的音樂風(fēng)格，以創(chuàng)造一個(gè)全新的音樂作品。

最讓筆者感興趣的是一位開發(fā)者通過GPT-2做出的一款A(yù)I文字冒險(xiǎn)游戲——“AI地牢”。通過多輪文本對(duì)話， AI就可以幫你展開一段意想不到的“騎士屠龍”征途或者“都市偵探”之旅。在未來的游戲產(chǎn)業(yè)中，AI創(chuàng)造的故事腳本，也許可能更具想象力？

GPT-2發(fā)布的一年里，以上開源帶來的應(yīng)用足以稱之為眼花繚亂。喧鬧與繁榮背后，除了在在開源風(fēng)險(xiǎn)上的小心謹(jǐn)慎，OpenAI還面臨著哪些難題？

NLP的土豪賽：OpenAI聯(lián)姻微軟后的 GPT-2商業(yè)化

其實(shí)，我們從BERT和GPT-2的演進(jìn)趨勢(shì)，可以看出人類利用更大容量的模型、無監(jiān)督的無限訓(xùn)練，可以去創(chuàng)造更多更好的合乎人類語言知識(shí)的內(nèi)容。但這也同樣意味著要依靠超級(jí)昂貴的GPU計(jì)算時(shí)間、超大規(guī)模GPU機(jī)器學(xué)習(xí)集群、超長(zhǎng)的模型訓(xùn)練過程。這意味著這種“燒錢”模式，使得NLP的玩家最終會(huì)更加向頭部公司聚集，成為少數(shù)土豪玩家的賽場(chǎng)。

可以預(yù)見，如果今年OpenAI再推出GPT-3.0，大概率還是會(huì)選擇單向語言模型，但會(huì)采取更大規(guī)模的訓(xùn)練數(shù)據(jù)和擴(kuò)充模型，來與BERT硬剛。NLP應(yīng)用領(lǐng)域的成績(jī)也會(huì)再次刷新。

但從另一個(gè)側(cè)面看到，如此“燒錢”的語言訓(xùn)練模型的研發(fā)，尚無清晰的商業(yè)化應(yīng)用前景。OpenAI也不得不面臨著“遵循技術(shù)情懷的初衷”還是“為五斗米折腰”的商業(yè)化的艱難選擇。

答案應(yīng)該已然明了。就在2019年7月，OpenAI接受了微軟的10億美元投資。根據(jù)官方說法，OpenAI將與微軟合作，共同為微軟Azure云平臺(tái)開發(fā)新的人工智能技術(shù)，并將與微軟達(dá)成一項(xiàng)排他性協(xié)議，進(jìn)一步擴(kuò)展大規(guī)模人工智能能力，“兌現(xiàn)通用人工智能(AGI)的承諾”。其實(shí)質(zhì)正是OpenAI在人工智能研究上的“燒錢”與其商業(yè)化的尷尬，使得它更需要這樣一筆來自微軟的“贊助”。就以擁有15億參數(shù)的GPT-2模型為例，它使用256塊TPU v3訓(xùn)練，每小時(shí)都要花費(fèi)2048美元?？梢灶A(yù)見，如果我們還想期待GPT-3.0的發(fā)布，其費(fèi)用將主要就花在云端的計(jì)算資源上面。

微軟將成為OpenAI獨(dú)家云計(jì)算供應(yīng)商。OpenAI的人工智能技術(shù)也要通過Azure云輸出。未來，OpenAI將把部分技術(shù)授權(quán)給微軟，然后由微軟把這些技術(shù)商業(yè)化，并將其出售給合作伙伴。

這筆巨額費(fèi)用的支持，讓OpenAI有了更充足的底氣。如上面所總結(jié)的，GPT-2在8月份后繼續(xù)開始分步驟發(fā)布不同量級(jí)的參數(shù)模型，并在11月全部開源。顯然GPT-2未來在商業(yè)化方向上，可以更多的借助微軟Azure的加持。比如可以未來更好的與Office365協(xié)作，參與到辦公協(xié)助的自動(dòng)化文本寫作當(dāng)中，參與語法錯(cuò)誤修復(fù)，也可以建立更自然真實(shí)的問答系統(tǒng)。

曾經(jīng)年少愛追夢(mèng)，一心只想往前飛。AGI的理想也需要在商業(yè)實(shí)踐中照進(jìn)現(xiàn)實(shí)。可以預(yù)見，2020年，谷歌面對(duì)微軟&OpenAI的組合，將給NLP商業(yè)化帶來更多波瀾。

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

GPT-2：OpenAI的NLP商業(yè)化野望

下一篇