原標(biāo)題:說“快樂”還是“安康”?如何在不抬杠的情況下用AI搞定這問題
祝大家端午節(jié)快樂,我們今天要聊的…..什么?不能說快樂了?顯得沒文化?
哦,那祝大家端午節(jié)安康,咱們今天……什么?端午節(jié)安康都是一群營銷號(hào)瞎忽悠的,相信他們還是沒文化?
到底還能不能好好說話了?要不我干脆祝大家端午節(jié)多吃月餅得了?
放眼望去,這個(gè)折騰了幾年,某種程度上近乎于鬧劇的“端午節(jié)安康”問題,在今年非但沒有停下來的意思,反而矛盾愈演愈烈,一時(shí)間好不熱鬧。也不知道是不是已經(jīng)有了“安康快樂對(duì)罵群”,反正整體上是感覺這事挺耽誤大家吃粽子的時(shí)間的。
在我們這行業(yè)看來,當(dāng)然是一切能動(dòng)科技的都別瞎吵吵。既然到了相持不下的境地,是不是可以考慮用相對(duì)公允的方式來解決無止境的爭(zhēng)論呢?畢竟安康派和??鞓伏h都說自己是傳統(tǒng)文化,既然是傳統(tǒng)總歸是有據(jù)可循的。
今天是個(gè)思古的日子,不妨讓我們從安康和快樂的問題開始,來聊聊AI+考據(jù)的“懷古之思”。
到底爭(zhēng)的是什么?
安康派之所以誕生,是因?yàn)榍皟赡晖蝗慌笥讶镉羞@么個(gè)說法火了:端午節(jié)是紀(jì)念屈原,或者紀(jì)念伍子胥、紀(jì)念曹娥的??傊@是個(gè)祭祀和哀傷的日子,不能說快樂。這個(gè)說法很快流行起來,比如今天大部分明星發(fā)的端午節(jié)微博,似乎“安康”已經(jīng)成了標(biāo)準(zhǔn)說法。
根據(jù)凡事必有反轉(zhuǎn)的互聯(lián)網(wǎng)定律,隨后也有人認(rèn)為這種說法純屬無稽之談。端午節(jié)快樂說了那么多年,我想快樂就快樂還用你批準(zhǔn)?于是,爭(zhēng)論最終很自然地變成了爭(zhēng)吵,兩邊都覺得自己是更符合傳統(tǒng)文化的一方。
首先筆者非常想要感慨的是,整個(gè)話題中最大成分只是營銷號(hào)惡意蹭流量,以及廣大網(wǎng)友們進(jìn)行喜聞樂見的“抬杠運(yùn)動(dòng)”,真沒什么意思。
而實(shí)事求是地說,現(xiàn)在能找到最早過端午節(jié)傳統(tǒng)的記載,是唐代《藝文類聚》保留《續(xù)齊諧志》中南朝時(shí)期的民間節(jié)日風(fēng)俗,在端午這天為紀(jì)念屈原而系五彩繩、包粽子。換言之端午節(jié)最早出現(xiàn)在可追溯的歷史文本中,它就是以一個(gè)有吃有玩的節(jié)日出現(xiàn)的。而早期文本,比如出現(xiàn)屈原其人其事的《史記》,據(jù)說為屈原創(chuàng)作的《楚辭》,都沒有過任何五月初五相關(guān)的記載。
作為一個(gè)節(jié)日的端午,自然也承擔(dān)著一個(gè)節(jié)日的氣氛和話語定位。唐宋時(shí)對(duì)端午節(jié)、端陽節(jié)的記載,也基本是把酒言歡為主。當(dāng)然這是個(gè)追懷的日子,但也沒見過一定要在這個(gè)日子肅穆莊嚴(yán)的記載。很多歷史學(xué)教授專家,也對(duì)安康說不屑一顧。
話說回來,重陽是避災(zāi)躲難的,那也有“佳節(jié)又重陽”。而今天肯定沒有人祝鄰居“清明節(jié)快樂”,但在古人來看清明本就是郊游玩賞值得開心的日子。程顥《郊行即事》是這么說的,“莫辭盞酒十分勸,只恐風(fēng)花一片飛。況是清明好天氣,不妨游衍莫忘歸”。
或許可以這么說,所謂的中華傳統(tǒng),遠(yuǎn)比我們今天的互聯(lián)網(wǎng)氛圍寬懷大度的多。
好吧,一不小心暴露了立場(chǎng)。但是我們還是要強(qiáng)行回歸中立客觀:既然你有你的道理,我有我的道理,那到底怎么能彼此不抬杠呢?
或許AI可以在這里刷一個(gè)助攻。既然整個(gè)安康和快樂之爭(zhēng),爭(zhēng)論的核心是:固定文本環(huán)境中(代表中國歷史傳統(tǒng)的文本數(shù)據(jù),包括但不限于經(jīng)史古籍),某種涵指解讀(端午節(jié)到底是不是值得慶祝的)的正確性。
那么用把所有相關(guān)數(shù)據(jù)都找出來,判斷一下古人到底能不能在這天快樂,似乎就是解決方案了。
AI搞清“端午到底快不快樂”實(shí)現(xiàn)方法
或許有人會(huì)說,這事好像用不著AI,把古籍?dāng)?shù)據(jù)里的端午節(jié)記載都搜出來。一看不就知道了嗎?
想法固然是好的,但現(xiàn)實(shí)從來都很骨感。首先中國古籍系統(tǒng)當(dāng)中,《四庫全書》所代表的經(jīng)史系統(tǒng)其實(shí)只是很小一部分。各種文書、檔案、民間文本、吉金、出土資料,加在一起汗牛充棟都不止。假如只是用關(guān)鍵詞搜索,或者只是用部分古籍庫來完成文本方式,那么肯定無法完成完全的數(shù)據(jù)統(tǒng)計(jì),從而得到的結(jié)果當(dāng)然也就片面。
假如我們搜找了100個(gè)“端午快樂”的數(shù)據(jù)源,但是安康派認(rèn)為還有200個(gè)反例沒找到,那豈不是白忙?
而假如面對(duì)全部古籍?dāng)?shù)據(jù)(包括未電子化數(shù)據(jù)),來進(jìn)行一個(gè)問題的全面求證。那么人力是完全無法負(fù)擔(dān)的,而且也一定會(huì)有大量紕漏。比如說有些小眾的端午節(jié)說法、隱晦的端午節(jié)記載描述難以被人發(fā)現(xiàn)。而且群體工作也很難形成對(duì)端午節(jié)到底是不是端康的準(zhǔn)確標(biāo)準(zhǔn)。
假如讓AI進(jìn)場(chǎng),至少可以解決這樣幾個(gè)問題:
1、確定我們要分辨的問題“端午節(jié)到底是值得慶祝的,還是反之”以后,我們可以用機(jī)器學(xué)習(xí)的方式輸入大量雙方觀點(diǎn),來形成對(duì)端午節(jié)到底應(yīng)該怎么過的標(biāo)準(zhǔn)化描述?;谖谋緛沓槿£P(guān)鍵節(jié)點(diǎn),從而準(zhǔn)確判斷一條古人過端午的記載到底是快樂的還是不能快樂。
2、非標(biāo)準(zhǔn)文本的識(shí)別。如今OCR等識(shí)別技術(shù),已經(jīng)廣泛被應(yīng)用到金石資料、敦煌文獻(xiàn)、手寫文檔的識(shí)別中。如果我們想最大程度搞定到底端午是否快樂,就無法離開對(duì)非標(biāo)準(zhǔn)文本的識(shí)別工作,傳統(tǒng)的文本錄入方式完全是基于手工大字。早期很多中文古籍庫還是以眾包的方式交給本科生來錄入,造成訛誤百出。AI來做這些,顯然在效率和準(zhǔn)確度上都已經(jīng)有了技術(shù)保障。
3、彈性判斷相關(guān)數(shù)據(jù)。人工判斷端文本特征的時(shí)候,很可能會(huì)漏掉一些不常見描述,很多時(shí)候這不是因?yàn)檠芯咳藛T不知道這件事,而是由于大腦的選擇性記憶誤差,天然會(huì)漏掉不那么敏感的說法。而AI的優(yōu)點(diǎn)是可以彈性判斷相關(guān)數(shù)據(jù),比如不說端午節(jié),而是端陽,午日,重五,女兒節(jié),浴蘭,地臘等字眼,或者非關(guān)鍵詞的描述形式,都可以有效處理。
4、綜合感知,判斷“良品率”。工業(yè)互聯(lián)網(wǎng)技術(shù)中,一個(gè)很常見的方式是機(jī)器視覺加傳感器,來綜合判斷出產(chǎn)品的質(zhì)量。通過復(fù)雜的算法模型,最終得出是否良品的確定性標(biāo)準(zhǔn)。在文本溫習(xí)中,類似使用GAN等算法來進(jìn)行語義分析,判斷一個(gè)語句含義歸屬的方式,顯然也是可行的。比如上文中“喜逢佳節(jié),端午良辰”,這個(gè)說法顯然就是“端午快樂”。
其實(shí)吧,以上只是個(gè)例子,也沒有誰會(huì)較真到去大張旗鼓統(tǒng)計(jì)端午到底快不快樂。這些技術(shù)的真正內(nèi)涵,是一個(gè)人文學(xué)術(shù)與AI的交叉點(diǎn):AI考據(jù)。
比抬杠重要:AI帶給文本考據(jù)的機(jī)會(huì)與挑戰(zhàn)
AI與考據(jù)的結(jié)合,顯然比端午節(jié)問候的抬杠重要很多。這項(xiàng)技術(shù)在今天世界范圍內(nèi)還屬于剛剛起步的階段,但絕對(duì)不是無中生有。
在AI考據(jù)之前,是很多人熟悉的“E考據(jù)”概念。這個(gè)解決方案是以互聯(lián)網(wǎng)和大數(shù)據(jù)為基礎(chǔ),從古籍電子化開始,用相對(duì)人力更有效率的方式來透視人文文本,甚至得出不一樣的結(jié)論與分析邏輯。這個(gè)領(lǐng)域的代表人物,可以說是臺(tái)灣的黃一農(nóng)院士,其用《紅樓夢(mèng)》相關(guān)文獻(xiàn)與清史文本結(jié)合,得到的成果令人耳目一新。
但E考據(jù)的局限性,在于它僅僅解決了考據(jù)第一步的問題:數(shù)據(jù)龐大。而面對(duì)龐大的數(shù)據(jù)和不同層次的文本,能否用技術(shù)取代進(jìn)一步的人工,則成了考據(jù)學(xué)發(fā)展中的下一個(gè)話題。
考據(jù)的本質(zhì)是什么?乾嘉學(xué)派代表人物王引之,在評(píng)價(jià)其父王念孫的治經(jīng)之道時(shí),總結(jié)為“諸說并列,則求其是,字有假借,則改其讀”,充分體現(xiàn)了考居家的工作依據(jù):音、形、義之間的轉(zhuǎn)換與互通。
讓智能體實(shí)現(xiàn)對(duì)語境的理解和跳出跳入,顯然是僅僅依靠數(shù)據(jù)技術(shù)所無法達(dá)到的。那么AI技術(shù)也就成為了接下來文獻(xiàn)學(xué)與歷史學(xué)發(fā)展中,可以相互融合的技術(shù)手段。
馬創(chuàng)新等所著的《中文古籍?dāng)?shù)字化的開發(fā)層次和發(fā)展趨勢(shì)》中,談到下一步電子考據(jù)與古籍開發(fā)的任務(wù),是解決古籍內(nèi)容的深層語義標(biāo)注和知識(shí)檢索方法。那么其能憑借的核心,似乎也僅僅是AI而已。
在電子文本分析中,AI可以讓嘗試,至少是幫助研究者擺脫對(duì)關(guān)鍵詞考據(jù)的依賴,實(shí)現(xiàn)主動(dòng)對(duì)文本含義的辨別、搜求,與多重內(nèi)涵確認(rèn)。這是其他技術(shù)所無法復(fù)制的。
當(dāng)然即使這項(xiàng)技術(shù)很有用。擺在今天人文科學(xué),尤其是文獻(xiàn)學(xué)研究面前的挑戰(zhàn)也非常艱巨:想要讓AI技術(shù)、硬件環(huán)境與人文素養(yǎng)與研究能力結(jié)合,今天似乎很難有這樣的跨學(xué)科人才與研究環(huán)境。而且即使是技術(shù)相對(duì)簡單,效果很清晰的E考據(jù),在傳統(tǒng)人文研究領(lǐng)域面前,走的也是舉步維艱。
更多現(xiàn)實(shí)應(yīng)用場(chǎng)景
上面這些考據(jù)學(xué)的相關(guān)內(nèi)容,可能相對(duì)有點(diǎn)生澀。那么最后我們不妨看看幾個(gè)AI+文本考據(jù)可能帶給大眾的能力釋放:
1、文本溯源。其實(shí)相比于端午安康的合理性,我更好奇的是這個(gè)說法是誰編出來的。而今天顯然經(jīng)常有這樣的問題,謠言、不實(shí)信息這類的有害信息?;蛘咭粋€(gè)精彩段子,一個(gè)奇思妙想的真正作者;一個(gè)文本如何被改的面目全非;一篇報(bào)道有沒有斷章取義,這些場(chǎng)景都會(huì)讓我們想要溯源文本,看看最初的文本模樣。這就需要成熟的AI文本考據(jù)來實(shí)現(xiàn),至少是作為輔助文本溯源的方案之一。
2、問答式搜索。今天搜索引擎已經(jīng)有了問答式搜索的功能,但很顯然,這還僅僅是個(gè)雛形。因?yàn)榇罅看怪眴栴}和具體問題,是搜索引擎的知識(shí)圖譜技術(shù)無法偵測(cè)到的。而發(fā)展AI文本考據(jù)技術(shù),可以讓算法主動(dòng)連接海量文本,去識(shí)別深處歸納出答案,這對(duì)于知識(shí)的傳播價(jià)值巨大。
3、過往文本加鏈。區(qū)塊鏈很火爆的時(shí)候,一個(gè)被提及的重要場(chǎng)景是電子合約與文本著作權(quán)保護(hù)。但加鏈技術(shù)僅僅能保存新文本。如果我們想對(duì)過往文本,比如說以某人的聊天信息、某個(gè)網(wǎng)站發(fā)布的謠言等等進(jìn)行加鏈,保留不可更改的證據(jù)邏輯時(shí),就需要涉及到對(duì)過往文本的識(shí)別與分析處理。這也是AI與區(qū)塊鏈相結(jié)合的一個(gè)可能性。
說了不少,其實(shí)我們是想借端午安康這個(gè)梗,來談一個(gè)平時(shí)談比較晦澀,但其實(shí)十分重要的AI技術(shù)類別。說到底,安康還是快樂,又有什么關(guān)系呢?最好的端午節(jié)解釋,當(dāng)然是聞一多先生說的那樣:只要屈原的精神在就行了。
而在筆者這樣的吃貨看來,只要粽子是甜的就行了……
- 世間將再無松下電視:松下官宣解散家電子公司并徹底放棄電視機(jī)業(yè)務(wù)
- 雅迪集團(tuán)與南都電源簽署協(xié)議:攜手共繪固態(tài)電池未來藍(lán)圖
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個(gè)大計(jì)劃瞄準(zhǔn)AI機(jī)器人
- 微信零錢通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費(fèi)引熱議
- 消息稱塔塔集團(tuán)將收購和碩印度iPhone代工廠60%股份 并接管日常運(yùn)營
- 蘋果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達(dá)新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場(chǎng)關(guān)注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號(hào)發(fā)布,意外泄露引發(fā)關(guān)注
- 無人機(jī)“黑科技”亮相航展:全球首臺(tái)低空重力測(cè)量系統(tǒng)引關(guān)注
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。