祝大家端午節(jié)快樂,我們今天要聊的…..什么?不能說快樂了?顯得沒文化?
哦,那祝大家端午節(jié)安康,咱們今天……什么?端午節(jié)安康都是一群營銷號瞎忽悠的,相信他們還是沒文化?
到底還能不能好好說話了?要不我干脆祝大家端午節(jié)多吃月餅得了?
放眼望去,這個折騰了幾年,某種程度上近乎于鬧劇的“端午節(jié)安康”問題,在今年非但沒有停下來的意思,反而矛盾愈演愈烈,一時間好不熱鬧。也不知道是不是已經(jīng)有了“安康快樂對罵群”,反正整體上是感覺這事挺耽誤大家吃粽子的時間的。
在我們這行業(yè)看來,當然是一切能動科技的都別瞎吵吵。既然到了相持不下的境地,是不是可以考慮用相對公允的方式來解決無止境的爭論呢?畢竟安康派和??鞓伏h都說自己是傳統(tǒng)文化,既然是傳統(tǒng)總歸是有據(jù)可循的。
今天是個思古的日子,不妨讓我們從安康和快樂的問題開始,來聊聊AI+考據(jù)的“懷古之思”。
到底爭的是什么?
安康派之所以誕生,是因為前兩年突然朋友圈里有這么個說法火了:端午節(jié)是紀念屈原,或者紀念伍子胥、紀念曹娥的??傊@是個祭祀和哀傷的日子,不能說快樂。這個說法很快流行起來,比如今天大部分明星發(fā)的端午節(jié)微博,似乎“安康”已經(jīng)成了標準說法。
根據(jù)凡事必有反轉(zhuǎn)的互聯(lián)網(wǎng)定律,隨后也有人認為這種說法純屬無稽之談。端午節(jié)快樂說了那么多年,我想快樂就快樂還用你批準?于是,爭論最終很自然地變成了爭吵,兩邊都覺得自己是更符合傳統(tǒng)文化的一方。
首先筆者非常想要感慨的是,整個話題中最大成分只是營銷號惡意蹭流量,以及廣大網(wǎng)友們進行喜聞樂見的“抬杠運動”,真沒什么意思。
而實事求是地說,現(xiàn)在能找到最早過端午節(jié)傳統(tǒng)的記載,是唐代《藝文類聚》保留《續(xù)齊諧志》中南朝時期的民間節(jié)日風俗,在端午這天為紀念屈原而系五彩繩、包粽子。換言之端午節(jié)最早出現(xiàn)在可追溯的歷史文本中,它就是以一個有吃有玩的節(jié)日出現(xiàn)的。而早期文本,比如出現(xiàn)屈原其人其事的《史記》,據(jù)說為屈原創(chuàng)作的《楚辭》,都沒有過任何五月初五相關(guān)的記載。
作為一個節(jié)日的端午,自然也承擔著一個節(jié)日的氣氛和話語定位。唐宋時對端午節(jié)、端陽節(jié)的記載,也基本是把酒言歡為主。當然這是個追懷的日子,但也沒見過一定要在這個日子肅穆莊嚴的記載。很多歷史學教授專家,也對安康說不屑一顧。
話說回來,重陽是避災躲難的,那也有“佳節(jié)又重陽”。而今天肯定沒有人祝鄰居“清明節(jié)快樂”,但在古人來看清明本就是郊游玩賞值得開心的日子。程顥《郊行即事》是這么說的,“莫辭盞酒十分勸,只恐風花一片飛。況是清明好天氣,不妨游衍莫忘歸”。
或許可以這么說,所謂的中華傳統(tǒng),遠比我們今天的互聯(lián)網(wǎng)氛圍寬懷大度的多。
好吧,一不小心暴露了立場。但是我們還是要強行回歸中立客觀:既然你有你的道理,我有我的道理,那到底怎么能彼此不抬杠呢?
或許AI可以在這里刷一個助攻。既然整個安康和快樂之爭,爭論的核心是:固定文本環(huán)境中(代表中國歷史傳統(tǒng)的文本數(shù)據(jù),包括但不限于經(jīng)史古籍),某種涵指解讀(端午節(jié)到底是不是值得慶祝的)的正確性。
那么用把所有相關(guān)數(shù)據(jù)都找出來,判斷一下古人到底能不能在這天快樂,似乎就是解決方案了。
AI搞清“端午到底快不快樂”實現(xiàn)方法
或許有人會說,這事好像用不著AI,把古籍數(shù)據(jù)里的端午節(jié)記載都搜出來。一看不就知道了嗎?
想法固然是好的,但現(xiàn)實從來都很骨感。首先中國古籍系統(tǒng)當中,《四庫全書》所代表的經(jīng)史系統(tǒng)其實只是很小一部分。各種文書、檔案、民間文本、吉金、出土資料,加在一起汗牛充棟都不止。假如只是用關(guān)鍵詞搜索,或者只是用部分古籍庫來完成文本方式,那么肯定無法完成完全的數(shù)據(jù)統(tǒng)計,從而得到的結(jié)果當然也就片面。
假如我們搜找了100個“端午快樂”的數(shù)據(jù)源,但是安康派認為還有200個反例沒找到,那豈不是白忙?
而假如面對全部古籍數(shù)據(jù)(包括未電子化數(shù)據(jù)),來進行一個問題的全面求證。那么人力是完全無法負擔的,而且也一定會有大量紕漏。比如說有些小眾的端午節(jié)說法、隱晦的端午節(jié)記載描述難以被人發(fā)現(xiàn)。而且群體工作也很難形成對端午節(jié)到底是不是端康的準確標準。
假如讓AI進場,至少可以解決這樣幾個問題:
1、確定我們要分辨的問題“端午節(jié)到底是值得慶祝的,還是反之”以后,我們可以用機器學習的方式輸入大量雙方觀點,來形成對端午節(jié)到底應該怎么過的標準化描述?;谖谋緛沓槿£P(guān)鍵節(jié)點,從而準確判斷一條古人過端午的記載到底是快樂的還是不能快樂。
2、非標準文本的識別。如今OCR等識別技術(shù),已經(jīng)廣泛被應用到金石資料、敦煌文獻、手寫文檔的識別中。如果我們想最大程度搞定到底端午是否快樂,就無法離開對非標準文本的識別工作,傳統(tǒng)的文本錄入方式完全是基于手工大字。早期很多中文古籍庫還是以眾包的方式交給本科生來錄入,造成訛誤百出。AI來做這些,顯然在效率和準確度上都已經(jīng)有了技術(shù)保障。
3、彈性判斷相關(guān)數(shù)據(jù)。人工判斷端文本特征的時候,很可能會漏掉一些不常見描述,很多時候這不是因為研究人員不知道這件事,而是由于大腦的選擇性記憶誤差,天然會漏掉不那么敏感的說法。而AI的優(yōu)點是可以彈性判斷相關(guān)數(shù)據(jù),比如不說端午節(jié),而是端陽,午日,重五,女兒節(jié),浴蘭,地臘等字眼,或者非關(guān)鍵詞的描述形式,都可以有效處理。
4、綜合感知,判斷“良品率”。工業(yè)互聯(lián)網(wǎng)技術(shù)中,一個很常見的方式是機器視覺加傳感器,來綜合判斷出產(chǎn)品的質(zhì)量。通過復雜的算法模型,最終得出是否良品的確定性標準。在文本溫習中,類似使用GAN等算法來進行語義分析,判斷一個語句含義歸屬的方式,顯然也是可行的。比如上文中“喜逢佳節(jié),端午良辰”,這個說法顯然就是“端午快樂”。
其實吧,以上只是個例子,也沒有誰會較真到去大張旗鼓統(tǒng)計端午到底快不快樂。這些技術(shù)的真正內(nèi)涵,是一個人文學術(shù)與AI的交叉點:AI考據(jù)。
比抬杠重要:AI帶給文本考據(jù)的機會與挑戰(zhàn)
AI與考據(jù)的結(jié)合,顯然比端午節(jié)問候的抬杠重要很多。這項技術(shù)在今天世界范圍內(nèi)還屬于剛剛起步的階段,但絕對不是無中生有。
在AI考據(jù)之前,是很多人熟悉的“E考據(jù)”概念。這個解決方案是以互聯(lián)網(wǎng)和大數(shù)據(jù)為基礎(chǔ),從古籍電子化開始,用相對人力更有效率的方式來透視人文文本,甚至得出不一樣的結(jié)論與分析邏輯。這個領(lǐng)域的代表人物,可以說是臺灣的黃一農(nóng)院士,其用《紅樓夢》相關(guān)文獻與清史文本結(jié)合,得到的成果令人耳目一新。
但E考據(jù)的局限性,在于它僅僅解決了考據(jù)第一步的問題:數(shù)據(jù)龐大。而面對龐大的數(shù)據(jù)和不同層次的文本,能否用技術(shù)取代進一步的人工,則成了考據(jù)學發(fā)展中的下一個話題。
考據(jù)的本質(zhì)是什么?乾嘉學派代表人物王引之,在評價其父王念孫的治經(jīng)之道時,總結(jié)為“諸說并列,則求其是,字有假借,則改其讀”,充分體現(xiàn)了考居家的工作依據(jù):音、形、義之間的轉(zhuǎn)換與互通。
讓智能體實現(xiàn)對語境的理解和跳出跳入,顯然是僅僅依靠數(shù)據(jù)技術(shù)所無法達到的。那么AI技術(shù)也就成為了接下來文獻學與歷史學發(fā)展中,可以相互融合的技術(shù)手段。
馬創(chuàng)新等所著的《中文古籍數(shù)字化的開發(fā)層次和發(fā)展趨勢》中,談到下一步電子考據(jù)與古籍開發(fā)的任務(wù),是解決古籍內(nèi)容的深層語義標注和知識檢索方法。那么其能憑借的核心,似乎也僅僅是AI而已。
在電子文本分析中,AI可以讓嘗試,至少是幫助研究者擺脫對關(guān)鍵詞考據(jù)的依賴,實現(xiàn)主動對文本含義的辨別、搜求,與多重內(nèi)涵確認。這是其他技術(shù)所無法復制的。
當然即使這項技術(shù)很有用。擺在今天人文科學,尤其是文獻學研究面前的挑戰(zhàn)也非常艱巨:想要讓AI技術(shù)、硬件環(huán)境與人文素養(yǎng)與研究能力結(jié)合,今天似乎很難有這樣的跨學科人才與研究環(huán)境。而且即使是技術(shù)相對簡單,效果很清晰的E考據(jù),在傳統(tǒng)人文研究領(lǐng)域面前,走的也是舉步維艱。
更多現(xiàn)實應用場景
上面這些考據(jù)學的相關(guān)內(nèi)容,可能相對有點生澀。那么最后我們不妨看看幾個AI+文本考據(jù)可能帶給大眾的能力釋放:
1、文本溯源。其實相比于端午安康的合理性,我更好奇的是這個說法是誰編出來的。而今天顯然經(jīng)常有這樣的問題,謠言、不實信息這類的有害信息?;蛘咭粋€精彩段子,一個奇思妙想的真正作者;一個文本如何被改的面目全非;一篇報道有沒有斷章取義,這些場景都會讓我們想要溯源文本,看看最初的文本模樣。這就需要成熟的AI文本考據(jù)來實現(xiàn),至少是作為輔助文本溯源的方案之一。
2、問答式搜索。今天搜索引擎已經(jīng)有了問答式搜索的功能,但很顯然,這還僅僅是個雛形。因為大量垂直問題和具體問題,是搜索引擎的知識圖譜技術(shù)無法偵測到的。而發(fā)展AI文本考據(jù)技術(shù),可以讓算法主動連接海量文本,去識別深處歸納出答案,這對于知識的傳播價值巨大。
3、過往文本加鏈。區(qū)塊鏈很火爆的時候,一個被提及的重要場景是電子合約與文本著作權(quán)保護。但加鏈技術(shù)僅僅能保存新文本。如果我們想對過往文本,比如說以某人的聊天信息、某個網(wǎng)站發(fā)布的謠言等等進行加鏈,保留不可更改的證據(jù)邏輯時,就需要涉及到對過往文本的識別與分析處理。這也是AI與區(qū)塊鏈相結(jié)合的一個可能性。
說了不少,其實我們是想借端午安康這個梗,來談一個平時談比較晦澀,但其實十分重要的AI技術(shù)類別。說到底,安康還是快樂,又有什么關(guān)系呢?最好的端午節(jié)解釋,當然是聞一多先生說的那樣:只要屈原的精神在就行了。
而在筆者這樣的吃貨看來,只要粽子是甜的就行了……
免責聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。