梵蒂岡秘密檔案館可謂全球最偉大的歷史藏品之一,但同時也身兼最無價值藏品的“桂冠”。
這座恢宏的建筑坐落在梵蒂岡城墻之內(nèi),毗鄰使徒圖書館、位于西斯廷大教堂北側,擁有著可追溯于1200年之前的總長達53英里的書架。除了將Martin Luther逐出教會的《教皇詔書》之外,其中還包括蘇格蘭瑪麗女王被處決之前發(fā)給教皇西克斯五世的函件。在規(guī)模與范圍方面,其中的收藏幾乎著稱無與倫比。
然而,梵蒂岡秘密檔案館對現(xiàn)代學者卻沒多大現(xiàn)實意義。因為在這長達53英里的書架當中,只有極少數(shù)書頁經(jīng)過掃描以提供在線版本,這當中的一小部分轉錄為計算機文本以供內(nèi)容搜索。如果我們打算閱讀其它任何內(nèi)容,則必須申請?zhí)厥獾脑L問權限,一路前往羅馬,并親自動手翻開這些古籍。
不過新的項目可能會改變這一切。此項目名為Codice Ratio,旨在利用人工智能與光學字符識別(簡稱OCR)軟件的組合重現(xiàn)這些被忽視的文本,并將其重新呈現(xiàn)在世人面前。如果成功,這項技術還將被用于處理世界各地其它歷史檔案庫當中數(shù)不勝數(shù)的其它記錄文件。
多年以來,人們一直在使用OCR技術掃描書籍及其它印刷文檔,但其并不適合秘密檔案中的素材。傳統(tǒng)OCR技術通過查找字母間的空格將單詞分解成一系列字母圖像,而后將各個字母圖像與記憶中的字母庫進行比較。在確定與圖像內(nèi)容最匹配的字母之后,軟件會將該字母轉譯為計算機代碼(ASCII碼),從而創(chuàng)建可搜索文本。
然而,這一過程只適用于經(jīng)過嚴格排版的文字。其在處理一切手寫內(nèi)容時都表現(xiàn)得相當糟糕,而梵蒂岡秘密檔案館中的絕大多數(shù)文件皆以手寫卷宗形式存在。下圖所示即為其中一例——十二世紀早期使用卡羅琳小寫字母的文本,看起來像是書法加藝術體的混合產(chǎn)物:
從上例中可以看到,其中最大的問題是字母之間缺少間隔空間(即臟分割)。OCR無法知曉單詞從哪個字母開始、又到哪個字母截止,因此其不能分辨具體的字母數(shù)量。這就造成了計算層面的僵局,亦被稱為塞爾悖論:OCR羅技需要在識別之前將單詞分割成獨立的字母,但在字母彼此相連的手寫文本當中,軟件需要首先識別字母才能完成分割——死循環(huán)。
一部分計算機科學家試圖開發(fā)出能夠識別整體單詞——而非字母——的OCR軟件以解決這個難題。其在技術層面確實具有可行性,因為計算機并不“關心”其分析的是單詞還是字母。但讓這類系統(tǒng)實現(xiàn)正常運轉卻非常困難,因為其需要龐大的記憶庫。這些系統(tǒng)需要識別的不再是數(shù)十個字母,而是成千上萬個常用單詞的圖像。這意味著需要大量具有中世紀拉丁文專業(yè)知識的學者通過舊文件整理出各個單詞的圖像,且每一單詞至少需要數(shù)張圖片方可解釋手寫變形或者由照明條件改變引發(fā)的其它變化。很明顯,這是一項艱巨的任務。
在Codice Ratio項目中,一種新的手寫OCR方法成功解決了上述問題。該項目背后的四位主要科學家——羅馬第三大學的Paolo Merialdo、Donatella Firmani、Elena Nieddu以及來自梵蒂岡秘密檔案館的Marco Maiorino希望利用拼圖分割方法解決塞爾悖論。正如該團隊在最近的一篇論文中所闡述,其處理流程不會將單詞拆分成字母,而是將其理解為一種單筆筆劃。此OCR會將每個單詞劃分為一系列垂直與水平的條帶,再尋找其中的局部最小值(即墨跡較小或像素較少的部分)以完成分割。在此之后,該軟件會進一步進行字母繪制,并最終生成以下一系列拼圖碎片:
這些拼圖碎片本身作用不大,但該軟件能夠將其通過多種方式組合起來以生成可能的字母。具體來講,軟件只需要知曉哪些組塊代表真實的字母,而哪些只是連筆造成的假象即可。
為了教會軟件這項能力,研究人員們選擇了不同尋常的導師——高中生。該團隊在意大利的24所學校當中招募了一批高中生用于建立項目的記憶庫。學生們在登錄相關網(wǎng)站后,會看到如下圖所示的三分屏幕界面:
頂部的綠色欄內(nèi)包含漂亮、整潔的中世紀拉丁文字母——在圖中為字母g。中間的紅色欄代表看似g但并非g的易混淆示例,下方網(wǎng)格則為程序主體。每張圖片都由OCR軟件利用幾塊拼圖組成,并對其內(nèi)容作出判斷。學生們的工作是判斷OCR的結論,告訴其哪些猜測正確、哪些猜測錯誤。學生們需要將每幅圖像與柏拉圖式的完美綠色字母進行比較,并點擊復選框輸入自己的結果。
通過一次次點擊,學生們努力教授該軟件如何識別22個中世紀拉丁字母(a-i,l-u,以及s與d的某些替代形式)。
這套方案的起步階段需要專家參與,幫助選擇完美的綠色字母示例以及紅色的混淆示例。但在完成之后,他們就不再需要跟進。事實上,學生們甚至不需要了解拉丁文——他們的工作只是匹配視覺模式。Codice Ratio項目的Merialdo表示,起初人們覺得讓高中生參與進來是個愚蠢的主意。然而,現(xiàn)在機器已經(jīng)開始學習,而且多虧了他們的努力,犈證明了許多人做出的小小簡單貢獻也能夠解決復雜的難題。
當然,最終學生們也不再需要參與其中。當訓練進行到一定階段之后,該軟件即可獨立拼圖,并自行判斷字母的具體位置。這,正是人工智能的價值所在。
在另一方面,這也證明單靠拼圖碎片還不足以組合出正確的字母。計算機仍然需要額外的幫助才能破解手寫文本的秘密。想象一下,大家正在讀信,并在其中看到下面這句:
中間的單詞到底是“clear”還是“dear”?很難判斷,因為“d”與“cl”的筆畫構成實際上完全相同。OCR軟件也面臨著同樣的問題,特別是在處理高度風格化的文本時更是如此。以下圖為例:
在經(jīng)過不同的拼圖組合之后,OCR認為可能的選項包括aimo、amio、aniio、aiino甚至是aiiiio。但這個詞實際上是anno,也就是拉丁語中的年。該軟件認準了a和o,但卻弄不清中間的四個豎到底該如何劃分。
為了解決這個問題,Codice Ratio團隊不得不為自己的軟件提供一些常識性的知識。他們建立起一套包含150萬個經(jīng)過數(shù)字化的拉丁詞匯語料庫,并對其中的雙字母與三字母組合進行了檢查。通過這種方式,他們確定了哪些字母組合較為常見,而哪些永遠不會出現(xiàn)。通過將這些統(tǒng)計信息提供給OCR軟件,其能夠了解到不同字符串的具體出現(xiàn)概率,從而意識到nn比iiii的可能性高得多。
隨著這樣的改進,OCR終于能夠自行閱讀部分文本了。該團隊決定為其提供一些來自梵蒂岡秘密歸案館的資料。這是一份超過18000頁的檔案集合,其中包括寫給歐洲國王的信件、關于法律問題的裁決以及其它信件。
最初的結果有好有壞。在迄今為止的全部轉錄文本中,有三分之一文檔中包含一處或多處拼寫錯誤——意味著OCR作出了錯誤的判斷。然而,該軟件仍然帶來了高達96%的手寫字母判斷準確率。Merialdo表示,即使是“不完美的轉錄結果,亦可提供關于手稿內(nèi)容及背景的大量有價值信息?!?/p>
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )