2024年8月30日至9月4日,國際文檔分析與識(shí)別會(huì)議International Conference on Document Analysis and Recognition(以下簡稱ICDAR)在希臘雅典舉行。今年ICDAR設(shè)立了十余項(xiàng)競賽,吸引了全球諸多知名科技公司和研究機(jī)構(gòu)的參與。理光中國研究院NLP團(tuán)隊(duì)在ICDAR官方比賽“通過 Aria 眼鏡閱讀文檔(Reading Documents Through Aria Glasses)”賽道上,斬獲“低分辨率下的單詞識(shí)別”及“頁面級(jí)別的識(shí)別與閱讀”兩項(xiàng)任務(wù)的冠軍。
*“頁面級(jí)別的識(shí)別與閱讀”任務(wù)冠軍獎(jiǎng)狀
ICDAR賽事介紹
ICDAR由國際模式識(shí)別協(xié)會(huì)IAPR(International Association of Pattern Recognition)舉辦,是模式識(shí)別、計(jì)算機(jī)視覺領(lǐng)域、圖像處理領(lǐng)域最為重要的國際學(xué)術(shù)會(huì)議之一,涵蓋了文檔分析與識(shí)別領(lǐng)域的最新學(xué)術(shù)成果和前沿應(yīng)用發(fā)展趨勢。
“通過 Aria 眼鏡閱讀文檔(Reading Documents Through Aria Glasses)”賽道,涉及到理解和處理使用Aria 設(shè)備*采集到的文本內(nèi)容。任務(wù)目標(biāo)是開發(fā)一系列穩(wěn)健的圖像處理算法來識(shí)別整個(gè)頁面中的文字內(nèi)容,同時(shí)保持正確的閱讀順序。具體來說,包括以下兩個(gè)子過程:1)低分辨率下的單詞識(shí)別:檢測并識(shí)別來自Aria眼鏡采集圖像中的單詞文本;2)閱讀順序預(yù)測:預(yù)測從頁面中提取的單詞級(jí)文本的閱讀順序(即頁面上單詞的序列)。
*ICDAR會(huì)場上,主辦方介紹任務(wù)數(shù)據(jù)示例
*ICDAR會(huì)場上,主辦方介紹任務(wù)目標(biāo)與挑戰(zhàn)
理光的突破創(chuàng)新與應(yīng)用實(shí)踐
理解文檔是可穿戴人工智能系統(tǒng)的基本任務(wù),需要開發(fā)解決方案,賦予系統(tǒng)閱讀和理解文檔中知識(shí)的能力。除了傳統(tǒng)的文檔分析挑戰(zhàn)外,可穿戴設(shè)備圖像還受到人體姿勢的多樣性、不同的光照條件、潛在的障礙物以及其他場景中主體的影響,這些因素在獲取準(zhǔn)確的光學(xué)字符識(shí)別(OCR)時(shí)增加了額外的障礙。
理光中國研究院將自身各種技術(shù)積累有機(jī)結(jié)合,在單詞識(shí)別部分,搭建了以PARSeq(Permuted AutoRegressive Sequence)為基礎(chǔ)的模型,采用了創(chuàng)新的模型迭代訓(xùn)練方法和成熟的數(shù)據(jù)合成技術(shù),進(jìn)一步提高了識(shí)別性能。在閱讀順序預(yù)測部分,理光沒有將其定義為傳統(tǒng)的排序任務(wù)或翻譯任務(wù),而是建模為具備語義分割能力的布局解析任務(wù)。基于在表格識(shí)別和圖紙識(shí)別項(xiàng)目上的豐富經(jīng)驗(yàn),理光自研的語義分割框架,在任務(wù)數(shù)據(jù)上微調(diào)后,展現(xiàn)了優(yōu)秀的解析效果。
理光中國研究院在OCR技術(shù)研究和各種場景下的項(xiàng)目實(shí)踐經(jīng)驗(yàn)方面有著深刻的理解。在基礎(chǔ)技術(shù)研究方面,理光中國研究院一直致力于圖像處理、文本檢測、文本識(shí)別、布局分析、表格識(shí)別以及與文檔理解相關(guān)的其他技術(shù)的研究,并取得了領(lǐng)先成果。在應(yīng)用方面,理光中國研究院已成功將OCR技術(shù)適配到設(shè)計(jì)圖紙、財(cái)務(wù)報(bào)告、合同、票據(jù)以及傳統(tǒng)文檔以外的其他領(lǐng)域。這些解決方案已經(jīng)成功服務(wù)于多領(lǐng)域客戶,并在特定需要的定制化適配方面積累了豐富的經(jīng)驗(yàn)。
圖紙檔案數(shù)字化解決方案,可以實(shí)現(xiàn)掃描件表格文字識(shí)別,信息提取和比對(duì),以及歸檔流程處理的自動(dòng)化,有效解決海量圖紙數(shù)字化過程中大量的信息查找,手動(dòng)錄入,人工審核,繁瑣歸檔的難題,實(shí)現(xiàn)了高效智能的圖紙數(shù)字化管理,90%以上流程實(shí)現(xiàn)自動(dòng)化。
財(cái)務(wù)文檔數(shù)字化解決方案,可以實(shí)現(xiàn)各類財(cái)報(bào)文檔自動(dòng)識(shí)別,關(guān)鍵數(shù)據(jù)提取錄入與結(jié)構(gòu)化,同時(shí)配合金融領(lǐng)域風(fēng)險(xiǎn)評(píng)估模型,極大程度地提高了金融風(fēng)險(xiǎn)識(shí)別的效率和準(zhǔn)確率。
合同比對(duì)解決方案,可以進(jìn)行合同文檔比對(duì),將電子文檔,掃描件等不同版本的合同文檔進(jìn)行智能分析比對(duì),檢測包含范本使用,文本修改,字符標(biāo)點(diǎn)等各類差異,極大提高比對(duì)效率并控制風(fēng)險(xiǎn)。
合同審閱解決方案,可以對(duì)印章和關(guān)鍵內(nèi)容進(jìn)行識(shí)別和審閱:自動(dòng)識(shí)別印章錯(cuò)蓋漏蓋,智能提取合同關(guān)鍵信息(例如合同主體,金額,時(shí)間,特殊條款等內(nèi)容),提高復(fù)核,審批,以及自動(dòng)化歸檔管理效率。
理光將繼續(xù)秉承創(chuàng)新精神,不斷深化技術(shù)研究,拓展OCR技術(shù)的應(yīng)用領(lǐng)域,以滿足不斷變化的市場需求。我們期待與更多的合作伙伴攜手,將我們的技術(shù)應(yīng)用于更廣泛的行業(yè)和場景中,共同推動(dòng)人工智能技術(shù)的進(jìn)步。同時(shí),我們也將持續(xù)關(guān)注客戶的需求,通過不斷的優(yōu)化和創(chuàng)新,提供更加精準(zhǔn)、高效的解決方案,以幫助客戶解決實(shí)際問題,提升工作效率。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )