AI又出書啦,這次是本專業(yè)的教科書。
世界上最大的科技出版社之一,德國Springer(斯普林格)出版社于本月初出版了第一本完全由機器學習編寫的教科書——鋰離子電池:機器生成的目前研究摘要(Lithium-Ion Batteries: A Machine-Generated Summary of Current Research)。該書長達247頁,是AI總結出的鋰離子電池領域的近3年超150篇突出研究成果的摘要,圖文并茂。
該書署名作者Beta Writer是由德國法蘭克福大學(Goethe University Frankfurt)應用計算語言學(ACoLi)實驗室的AI研究人員開發(fā)的算法,此算法現能審閱給定主題的大量文獻并自動挑選重要的細節(jié)呈現。Spring計劃在未來利用該算法出版更多針對不同科研領域的書籍。
這本摘要式的教科書可以幫助相關科研人員快速了解這個熱門行業(yè)的最新進展,但對于普通人來說內容過于專業(yè)和遙遠。
本文討論AI寫作,下文中的AI特指寫作型AI。
不僅教材,段子、小說、劇本、歌詞、詩,AI寫作統(tǒng)統(tǒng)包攬
這次出版的教科書算不上是AI的驚天大動作,AI在文字創(chuàng)作上早已動作頻頻。
與我們日常生活聯(lián)系最緊密的作文是新聞。常見的一些體育賽事、經濟行情、證券信息等快訊、簡訊類稿件背后可能是由AI編寫。AI不僅能發(fā)布事件和數據,還能搜索到相關科普知識和系列報道,全程無人執(zhí)守,再加上自動配圖排版,與真人采編作品難以區(qū)分。
新聞類稿件缺乏文學性,難以體現AI創(chuàng)造性的一面。
AI也是段子手。上世紀90年代,就有程序員開發(fā)了名為JAPE的對話式段子生成器。之后,AI加持的升級版笑話生成器通過分析脫口秀的句式和笑點生成段子,團隊希望借此研究人為什么會發(fā)笑。AI寫段子的同時還能輔助科學家研究人腦的笑神經。
AI早就寫過小說。2007年,紐約大學AI研究員Goodwin訓練了專寫小說的神經網絡,公路旅行時在車上安放GPS、攝像頭、麥克風傳感器作為輸入,旅行結束后一字未改發(fā)表了AI寫成的6千萬字《1 the Road》,被認為是第一本由人工智能寫的小說。該小說情節(jié)并不完全合理,夾雜著GPS定位數據,還有拼寫問題。小說雖然通不過圖靈測試,但用詩意的手法開辟了AI在文學應用上的新思路。
《1 the Road》封面
AI寫的小說還有機會獲獎。2016年,日本多個團隊挑選了幾篇AI根據指定關鍵詞和大體框架生成的科幻小說投稿了日本第三屆“星新一獎”,部分作品通過了不知情評委的初審。日本科幻小說作家長谷敏思表示,“能夠完整寫出小說太令人震驚了。如果100分滿分的話我給打60分,未來令人期待”。這次,AI不僅僅是通過圖靈測試,而是能與人類作家一較高下了。
AI做過編劇,劇本還被認真拍成短片。作為倫敦國際科幻電影節(jié)(SFL)48小時命題電影挑戰(zhàn)賽參賽影片,《Sunspring》的劇本是由Goodwin訓練的AI機器人Benjamin編寫的,講述了了未來世界3位主角的三角戀關系。本片請來了專業(yè)導演和知名演員出演,評價是喜憂參半,負面評論都是說它不知所云,沒有意義,正面評價則認為這是AI的壯舉,沒有比AI編劇的科幻片更科幻的了。這次實驗,開創(chuàng)性大于最終成果的質量。
《Sunspring》劇照
AI在詩歌上也有建樹。2017年微軟亞洲研究院的虛擬AI助手小冰寫的139首現代詩集結出版成了第一部人工智能詩集《陽光失了玻璃窗》。訓練樣本是1920年起519位中國現代詩人的所有詩歌。非專業(yè)人員讀起來覺得優(yōu)美,難以和詩人寫的區(qū)分,但熟悉現代詩的人認為還有很大的進步空間。在歌曲上,小冰曾與不少電視臺和互聯(lián)網企業(yè)合作推出單曲。
《陽光失了玻璃窗》中的一頁詩
另外,其他的文體AI也是能輕松上手。比如,對聯(lián)、古詩詞往往使古代的才子想破頭,而由于有嚴格的對仗、格律要求,這類文體對AI來說卻更比白話文輕松。網上生成對聯(lián)、藏頭詩等等功能的網站早已不新鮮。
AI寫作背后,是一場AI技術進化史
AI有些文體能寫得很好,有些文體卻難以超越人類,這與它背后的程序算法是分不開的。以小說為例,早期使用RNN和LSTM訓練的模型網絡難以通過圖靈測試,而后期日本團隊使用的新型算法就能夠騙過專業(yè)評委。
人工智能神經網絡
對于自然語言的處理統(tǒng)稱為NLP(Natural-language processing),下又粗分為語音識別STT(Speech to text)、自然語言理解NLU(Natural-language understanding)和自然語言生成NLG(Natural-language generation)3塊。我們主要討論的寫作涉及到NLG和部分NLU。
早期,要讓計算機寫作需要預設模版。最初的模版就像我們英語考試中做的完形填空,人寫完文章后將會變化的部分扣空,再讓計算機根據數據填空。例如,天氣預報中常見的:某城市今日某天氣,最高最低溫度某某度,空氣質量某等級。為了不使用扣空的死板模版,科學家人為地將語法規(guī)則建模,這樣在表達相同意思時,句式可以在人前期設定的有限規(guī)則內有多種變化。
現在,AI運用的是統(tǒng)計學方法。通過輸入大量真實語料,使用概率統(tǒng)計,預測出詞匯最可能的排列組合,自動訓練出模型網絡。這個模型無需人工編寫,除了語法外,還包含詞性判斷、實體區(qū)分、關鍵詞句提取、情感分析等等。當有了模型就可實現NLP的各下游任務,還可通過各種參數精細地控制NLG。
我們不討論實現細節(jié),只看看現有最好的模型能力幾何。
自OpenAI開源GPT-1.0后,在其上改進的BERT和GPT-2.0是目前NLP業(yè)內最高水平。Google在18年10月開源的BERT模型破11項記錄,部分閱讀理解能力還超過了人類。今年2月OpenAI透露的GPT-2.0通過更大的訓練得到了比BERT更高的分數,甚至可以通過給定開頭續(xù)寫文章,無論是學術、新聞還是小說類型,官網公布的續(xù)寫示例都有模有樣,甚至在續(xù)寫“垃圾回收對世界有害”這樣的誤導話題時依然能侃侃而談。
OPT-2.0對“回收對世界有害”話題的續(xù)寫
國外模型對中文的理解能力稍差,國內也有本土化研究。漢字是少見的不通過空格區(qū)分詞匯的語言,在理解詞性和實體上需要特殊處理。百度PaddlePaddle項目今年3月發(fā)布了ERNIE模型,通過輸入百科、資訊、對話等語料庫和直接對語義知識進行建模,增強了模型語義表示能力,較BERT在中文上的效果更好。
綜上,AI技術一直在發(fā)展和進步,寫作技術也在不斷完善,目前已可以假亂真。
AI寫作行行都能用,應用場景全覆蓋
AI現已運用在許多方面以提升文字產出效率。
與日常生活聯(lián)系較大的是相對機械的模版規(guī)范化寫作,如新聞稿、報告文學等等。
AI小編已經為多家報社和新聞機構所采用。國外有美聯(lián)社的WordSmith、華盛頓郵報的Heliograph和紐約時報的Blossom ,國內有新華社的“快筆小新”、 第一財經的“DT稿王”、《南方都市報》的“小南”、字節(jié)跳動的Xiaomingbot、騰訊財經的Dreamwriter,發(fā)展勢頭迅猛。
新華社發(fā)布的“快筆小新”
AI也在各處寫報告。辦事機構、咨詢公司等部分需要提供證明材料、詳細報告等等的場景并不全靠人工去撰寫每一份文檔,而是把相關數據輸入給NLG,由NLG根據規(guī)范生成。比如,在自助查詢機打印的個人征信報告就是NLG生成的。NLG大大提升了辦事和處理效率,能幫助機構更好地服務和拓展業(yè)務。
新聞里提到的AI的摘要生成能力不僅僅能用于科研,與商業(yè)結合才能有更大的生命力。
AL廣泛運用在商業(yè)智能(Business Intelligence,BI)領域。Arria NLG、Automated Insights、Narrative Science等公司開發(fā)的NLG模型能夠做到將企業(yè)日常事務、財務信息等輸入AI,AI自動生成財務報表,包括目錄、圖表等結構,并能指出各盈利或虧損點和具體到某個業(yè)務的原因。公司日常運營能有這樣一個幫手,能減少無謂的做ppt報告的工作,并能幫助管理層及時調整策略。
ARRIA NLG 的分析報告示例
AI在廣告上也能大戰(zhàn)身手。國外的Phrasetech等公司提供自動生成公司網站、產品介紹頁面、產品搜索結果摘要等服務。京東、阿里在2018年相繼推出了名為“莎士比亞”、“AI智能文案”的文案生成系統(tǒng),能根據商品編號或關鍵詞自動生成多條產品文案,甚至能設置不同的風格。和AI排版、P圖相結合,能解決小公司或商家設計師和運營不足的問題。
AI不能完全勝任的場合,也可以通過更默默無聞的方式幫助人類。
AI寫作輔助也能夠提升人類的寫作效率。目前,百度、頭條等自媒體都有自己的人工智能寫作平臺,主要用于后期根據語意糾錯。在寫作時,AI筆神這類產品能在每次輸入詞句后,根據語意反饋靈感詞云、詩詞名言、小說情節(jié)摘要等信息,幫助作者獲得靈感、素材,使行文更加順暢。
除了商用,AI在日常生活中也能幫上忙。智能輸入法們在打字時不停地猜測之后的內容,有時打個開頭就能一路選候選詞打完一句話。哪怕是追星這類需求,利用NLG也能夠梳理出某個事件的來龍去脈和明星的生平履歷,全方位掌握明星的點滴。
綜上,AI已經在文字領域應用廣泛,已能部分替代或輔助人類的工作。
AI寫作實力超卓,在某些方面人類早已不是對手
AI接替人類已經慢慢成為現實,這與AI的特點是分不開的。
AI可以接收大量數據輸入。吾生也有涯,而知也無涯。人類作家的知識儲備和精力是有限的,當遇到未知領域就要去補充知識。而AI可以用數據挖掘出的全量數據信息作為輸入,能了解到各細枝末節(jié),做到旁征博引。
AI對輸入內容客觀。AI不仁,以萬物為芻狗。人類由于自身經歷、知識水平不同,對于獲取到的內容、信息看法并不能做到完整、客觀。AI遵循訓練出模型網絡,完整分析所有輸入。同一個模型、參數下AI給出的結果是完全一致的,也就是說,同一個AI對任何輸入都使用同一套評價標準。
時間和成本無需單選
AI可以做到快速輸出。迅雷不及掩耳。AI借助現代計算機技術帶來的強大算力,能夠做到秒速作文。通過實時的數據挖掘、收集,立刻送至AI處理,瞬間就能輸出結果。相較人類編輯主動搜索、閱讀再到遣詞造句的時間,AI已經可以將時間成本忽略了。
AI能夠省去人工。昨日之日不可追,今日之日須臾期。AI做到了自動化或半自動化寫作。對于企業(yè)來說,人員成本可以節(jié)省下來。對于全人類來說,技術的進步把人類從枯燥、重復的勞動中解放出來,做其它富有創(chuàng)造性的事。
綜上,由于AI的種種優(yōu)勢,在部分求快求準的寫作場景,人類被AI取代是必然。
當前AI寫作還是傻白甜,同時法律缺位時AI寫作技術還被人利用和濫用
現階段的AI還有不少局限性,社會對它的認識和接受程度也不高。
當前AI技術在用數據科學的概率統(tǒng)計方法去分析文學性的文章句子,以求達到人類相似的水平。從原理上,語言是有限字詞的排列組合,可以用數學方法解決。這條路已經通過實踐證實了部分可行性,但是否會在將來遇到瓶頸,現在沒有辦法驗證。
一個娛樂圈小熱點機緣巧合成了佐證。18年,一位交大博士李宏燁在電視節(jié)目上提出“相聲公式”嗆聲郭德綱,引發(fā)了社會大討論。他曾出版3本用數學方法研究相聲的書籍,理論體系完備?,F場觀眾反應良好,但他說的相聲15年未火,此事過后再次銷聲匿跡。
節(jié)目上李宏燁展示他的公式
目前研究出的AI還存在不少問題。
首先,AI所著文章質量偏低。魑魅喜人過,文章憎命達。AI在新聞等語言平實、嚴謹的文體與需要有情節(jié)和人物性格塑造的小說的表現差異巨大。AI撰寫的小說、詩歌等往往缺乏內在邏輯和情感,讓人看得云里霧里。
其次,AI缺乏原創(chuàng)性。李杜詩篇萬口傳,至今已覺不新鮮。AI模型訓練完成后,句式等結構就確定下來了,雖然數量上可能較多,但是有限的。AI模型在使用時,所有的數據、觀點等信息都來自于輸入,通過刪選、重組流程輸出,不會有跳脫。
最后,AI訓練投入巨大。一飲一石者,徒以多為貴。要想AI模型好,目前算法要求的前期訓練成本是巨大的。訓練時用的語料庫要龐大,最好還要預刪選以提高質量。訓練時為了處理海量數據需要占用昂貴的GPU計算時間。為了能更快地訓練,需要組建GPU機器學習集群來加速。目前,大公司做了這些工作并免費發(fā)布模型,但OpenAI閉源了GPT-2.0讓人擔憂這樣的模式是否可持續(xù)。
技術在發(fā)展中遇到問題,人類又如何去利用技術也出現了問題。AI作為技術,誰都可以利用。利用它做什么,需要負起怎樣的責任,道德標準和法律體系還沒有完善。
AI可以用來做假新聞。無論輸入給AI什么命題,AI都能寫出規(guī)規(guī)矩矩看似有理有據的文章,讓人真假莫辨。AI也無法通過聯(lián)系相關單位或求助專家來確認數據和信息的可靠性,所以AI會相信所有的輸入。如果人為輸入虛假信息,AI會直接認可,這樣也會造成偏差。
AI可以用來洗稿。一篇原創(chuàng)的文章輸入,AI改變句子結構、語序,能輸出一篇轉述后的但沒有新價值的文章。AI洗稿在自媒體投稿、大學論文、報告撰寫都有旺盛需求?,F在市場上出現了文章原創(chuàng)和偽原創(chuàng)、論文查重和反查重等官方和民間AI勢力的斗法。
AI甚至被質疑操縱民主投票。無論是美國大選還是英國脫歐公投,都有聲音說是有勢力在社交媒體上投放精準廣告。AI能通過分析用戶的歷史,找出最適合他的拉票策略,通過NLG生成拉票文案配圖后推給他。比如,某社交網絡用戶不喜歡移民,AI就會根據移民話題生成諸如“留歐后英國將涌入多少多少的移民”等等文案持續(xù)刷屏,以此獲取搖擺選民的投票。這比傳統(tǒng)的、通過電視演講的拉票方式要高效得多。
電影《脫歐:無理之戰(zhàn)》詳細展示了社交網絡精準廣告投放影響投票的過程
法律不完善時,AI被濫用的方式層出不窮,以上只是一小部分。在立法過程中,不少問題都難以界定,一個爭論的焦點是AI作品的著作權歸屬問題。
AI使用的是程序員在科技公司編寫的程序,算法是專家學者在論文中公開的,訓練樣本又來自名著、百科、論壇評論等各處,產出的是程序員都不能理解的黑盒模型,最后公司又將模型開源了,使用模型的人是輸入的自己的數據。最終生成的文章著作權實在難以界定。
綜上,AI現在處于發(fā)展的初級階段,有各式各樣的問題亟待解決。
長期來看AI寫作,若大規(guī)模應用落地,未來可期
當前AI的水平較弱,但未來的潛力是可以預見的。
技術上,AI有望能創(chuàng)作。由于最核心的原理無法被證偽,并且現在AI重組、模仿能力已經得到證實,未來算法的優(yōu)化和硬件算力的提升都可能使AI得到創(chuàng)作的能力。AI一旦獲得創(chuàng)作能力,文學、音樂、電視電影等行業(yè)因此會產生翻天覆地的變化。
應用上,AI未來能結合其技術實現更強大的功能,拓展使用場景。結合語音識別和數據挖掘技術,AI或能夠在演講直播、新聞播報等場景下進行實時的事實核查并同步輸出。結合圖像、音視頻識別技術,AI將能夠生成各種媒體的敘述性描述,將電影、電視、游戲還原為小說、劇本、摘要,用戶對文娛內容的挑選會更方便,也能同時照顧到一些殘障群體的娛樂需求。文字作為信息傳播的基礎媒介,可以挖掘的場景太多。
社會上,倫理、法律問題解決后,AI能夠掃除障礙,良性健康發(fā)展。濫用AI行為被遏制能加強大眾對AI的接受。著作權歸屬解決后能夠從實際收益去反哺技術的發(fā)展,AI取代了一部分工作的同時也會催生出新的產業(yè)和工作機會。
綜上,AI在廣闊天地下將大有所為。
結語
弱人工智能階段下想要AI進行藝術創(chuàng)作還不現實,但利用好現有技術優(yōu)勢仍有可觀但應用價值。AI值得人們繼續(xù)深入研究,未來想象空間巨大。
文/首席發(fā)言者公眾號
- 蜜度索驥:以跨模態(tài)檢索技術助力“企宣”向上生長
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個大計劃瞄準AI機器人
- 微信零錢通新政策:銀行卡轉入資金提現免手續(xù)費引熱議
- 消息稱塔塔集團將收購和碩印度iPhone代工廠60%股份 并接管日常運營
- 蘋果揭秘自研芯片成功之道:領先技術與深度整合是關鍵
- 英偉達新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場關注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號發(fā)布,意外泄露引發(fā)關注
- 無人機“黑科技”亮相航展:全球首臺低空重力測量系統(tǒng)引關注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開展人形機器人合作
- 賽力斯觸及漲停,汽車整車股盤初強勢拉升
免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。