科大訊飛ICDAR 2023收獲四項(xiàng)冠軍,圖文識(shí)別理解能力持續(xù)進(jìn)階

作為文檔圖像分析識(shí)別領(lǐng)域最重要的國(guó)際會(huì)議之一,國(guó)際文檔分析與識(shí)別會(huì)議ICDAR 2023(International Conference on Document Analysis and Recognition)近期傳來(lái)好消息:

科大訊飛研究院與中科大語(yǔ)音及語(yǔ)言信息處理國(guó)家工程研究中心(以下簡(jiǎn)稱研究中心)在多行公式識(shí)別、文檔信息定位與提取、結(jié)構(gòu)化文本信息抽取三項(xiàng)比賽中獲得四個(gè)冠軍。

MLHME之冠:聚焦“多行書寫”,復(fù)雜度上再突破

MLHME(多行公式識(shí)別比賽)考查輸入包含手寫數(shù)學(xué)公式的圖像后,算法輸出對(duì)應(yīng)LaTex字符串正確率。值得一提的是,相比此前數(shù)學(xué)公式識(shí)別賽事,此次比賽業(yè)內(nèi)首次將“多行書寫”設(shè)為主要挑戰(zhàn)對(duì)象,且不同于之前識(shí)別掃描、在線手寫的公式,本次以識(shí)別拍照的手寫多行公式為主。

最終,科大訊飛研究院圖文識(shí)別團(tuán)隊(duì)以67.9%的成績(jī)拿下冠軍,并在主要評(píng)價(jià)指標(biāo)——公式召回率(Expression Recall,即統(tǒng)計(jì)識(shí)別正確的樣本數(shù)占總測(cè)試樣本數(shù)的比例)上大幅超越其他參賽團(tuán)隊(duì)。

公式召回率與榜單中Submit Results相對(duì)應(yīng)

多行公式相比單行結(jié)構(gòu)復(fù)雜度更高,同一個(gè)字符在公式里多次出現(xiàn)時(shí)尺寸大小也會(huì)有變化;同時(shí),比賽使用的數(shù)據(jù)集來(lái)自真實(shí)場(chǎng)景,拍照的手寫公式圖片更是存在質(zhì)量低下、背景干擾、文字干擾、涂抹和批注干擾等問題。這些因素讓比賽難度陡增。

多行公式結(jié)構(gòu)復(fù)雜

圖片質(zhì)量不高、批改干擾

針對(duì)多行公式結(jié)構(gòu)復(fù)雜問題,團(tuán)隊(duì)使用大卷積核的Conv2former作為編碼器結(jié)構(gòu),擴(kuò)大了模型的視野,更好地捕捉多行公式的結(jié)構(gòu)特征;創(chuàng)新性提出基于transformer的結(jié)構(gòu)化序列解碼器SSD,顯式對(duì)多行公式內(nèi)部的層次關(guān)系做了精細(xì)化建模,極大提升了復(fù)雜結(jié)構(gòu)的泛化性,更好地建模了結(jié)構(gòu)化語(yǔ)義。

針對(duì)圖片質(zhì)量問題所引起的字符歧義問題,團(tuán)隊(duì)創(chuàng)新性提出了語(yǔ)義增強(qiáng)的解碼器訓(xùn)練算法,通過語(yǔ)義和視覺的聯(lián)合訓(xùn)練,讓解碼器具備內(nèi)在的領(lǐng)域知識(shí)。當(dāng)字符難以辨認(rèn)時(shí),模型能夠自適應(yīng)利用領(lǐng)域知識(shí)做出推理,給出最合理的識(shí)別結(jié)果。

針對(duì)字符尺寸變化大的問題,團(tuán)隊(duì)提出了一種自適應(yīng)字符尺度估計(jì)算法和多尺度融合解碼策略,極大提升了模型對(duì)字符大小變化的魯棒性。

DocILE之冠:“行里挑一”,文檔信息定位與提取比賽雙賽道登頂榜首

DocILE(文檔信息定位與提取比賽)評(píng)估機(jī)器學(xué)習(xí)方法在半結(jié)構(gòu)化的商業(yè)文檔中,對(duì)關(guān)鍵信息定位、提取和行項(xiàng)識(shí)別的性能。

該賽事分為KILE和LIR兩個(gè)賽道任務(wù),KILE任務(wù)需要定位文檔中預(yù)定義類別的關(guān)鍵信息位置,LIR任務(wù)需要在前者基礎(chǔ)上,進(jìn)一步將每個(gè)關(guān)鍵信息分組為不同的行項(xiàng)條目(Line Item),比如表格中某一行單個(gè)對(duì)象(數(shù)量、價(jià)格)等。訊飛與研究中心最終收獲雙賽道冠軍。

KILE賽道榜單

LIR賽道榜單

左為KILE賽道說明,右為L(zhǎng)IR賽道說明

從賽事官方給出的任務(wù)圖示可以看出,文檔中待抽取的信息種類非常繁雜。其中,KILE任務(wù)不僅需要提取預(yù)定義類別的關(guān)鍵信息,還要得到關(guān)鍵信息的具體位置;LIR任務(wù)中,一個(gè)行項(xiàng)在單個(gè)表格中可能有多行文本。加上此次賽事數(shù)據(jù)集中信息種類多、文檔版式復(fù)雜多樣,大大增加了挑戰(zhàn)性。

聯(lián)合團(tuán)隊(duì)在算法層面提出了兩項(xiàng)技術(shù)創(chuàng)新方案:

預(yù)訓(xùn)練階段設(shè)計(jì)了基于OCR質(zhì)量的文檔過濾器,從主辦方提供的無(wú)標(biāo)注文檔中提取出274萬(wàn)頁(yè)的文檔圖像,隨后通過預(yù)訓(xùn)練語(yǔ)言模型獲取文檔中各文本行的語(yǔ)義表征,并采用掩碼語(yǔ)句表征恢復(fù)任務(wù)進(jìn)行不同Top-K(GraphDoc模型中關(guān)于文檔的注意力范圍的一個(gè)超參數(shù))配置下的預(yù)訓(xùn)練。

在數(shù)據(jù)集微調(diào)階段,團(tuán)隊(duì)使用了預(yù)訓(xùn)練后的GraphDoc提取文本框的多模態(tài)表征,并進(jìn)行分類操作。在分類結(jié)果的基礎(chǔ)上,將多模態(tài)表征送入低層注意力融合模塊進(jìn)行實(shí)例的聚合,在實(shí)例聚集的基礎(chǔ)上,使用高層注意力融合模塊實(shí)現(xiàn)行項(xiàng)實(shí)例的聚集,所提出的注意力融合模塊結(jié)構(gòu)相同、但彼此不共享參數(shù),可以同時(shí)用于KILE和LIR任務(wù)且具有很好的效果。

SVRD之冠:零樣本票證結(jié)構(gòu)化信息抽取任務(wù)第一,預(yù)訓(xùn)練模型大考驗(yàn)

SVRD(結(jié)構(gòu)化文本信息抽取)比賽分為4個(gè)賽道子任務(wù),訊飛與研究中心在難度頗高的零樣本結(jié)構(gòu)化信息抽取子賽道(Task3:E2E Zero-shot Structured Text Extraction)獲得第一。

榜單排名

在官方指定不同類型發(fā)票需要提取的關(guān)鍵要素背景下,該賽道要求參賽團(tuán)隊(duì)利用模型輸出這些關(guān)鍵要素在圖片中的對(duì)應(yīng)內(nèi)容,“零樣本”則代表訓(xùn)練集和測(cè)試集的發(fā)票類型并無(wú)交集;賽道考查模型端到端預(yù)測(cè)準(zhǔn)確率,取score1、score2加權(quán)平均值作為最終評(píng)價(jià)指標(biāo)。

零樣本對(duì)預(yù)訓(xùn)練模型能力提出了更高要求。同時(shí),比賽使用的發(fā)票版式多樣,乘車站點(diǎn)、發(fā)車時(shí)間等要素在不同版式中的名稱各不相同,發(fā)票照片還存在背景干擾、反光、文字重疊等問題,進(jìn)一步提升了識(shí)別和抽取難度。

不同版式的發(fā)票

條紋背景干擾的發(fā)票

團(tuán)隊(duì)首先對(duì)要素抽取模型采用復(fù)制-生成雙分支解碼策略,在前端OCR結(jié)果置信度較高的情況下直接復(fù)制OCR結(jié)果,在OCR結(jié)果置信度較低的情況下生成新的預(yù)測(cè)結(jié)果,以此緩解前端OCR模型引入的識(shí)別錯(cuò)誤。

此外,團(tuán)隊(duì)還基于OCR結(jié)果提取句子級(jí)的graphdoc特征作為要素抽取模型輸入,該特征融合了圖像、文本、位置、版面多模態(tài)特征,相比于單模態(tài)的純文本輸入具有更強(qiáng)的特征表示。

在此基礎(chǔ)上,團(tuán)隊(duì)還結(jié)合了UniLM、LiLT、DocPrompt多個(gè)要素抽取模型在不同場(chǎng)景、不同語(yǔ)種上的性能優(yōu)勢(shì)進(jìn)一步提升了最終的要素抽取效果。

教育、金融、醫(yī)療等已落地應(yīng)用,助力大模型提升多模態(tài)能力

此次選擇ICDAR 2023的相關(guān)賽事進(jìn)行挑戰(zhàn),來(lái)源于科大訊飛在實(shí)際業(yè)務(wù)中的真實(shí)場(chǎng)景需求;賽事相關(guān)的技術(shù)也已經(jīng)深入教育、金融、醫(yī)療、司法、智能硬件等領(lǐng)域,賦能多項(xiàng)業(yè)務(wù)與產(chǎn)品。

在教育領(lǐng)域,手寫公式識(shí)別的技術(shù)能力被高頻使用,機(jī)器能給予精準(zhǔn)的識(shí)別、判斷和批改。例如訊飛AI學(xué)習(xí)機(jī)中的個(gè)性化精準(zhǔn)學(xué)、AI診斷;老師上課所使用的“訊飛智慧窗”教學(xué)大屏、學(xué)生的個(gè)性化學(xué)習(xí)手冊(cè)等,都已發(fā)揮了很大成效;

不久前科大訊飛全球1024開發(fā)者節(jié)主論壇上發(fā)布的星火科研助手,三大核心功能之一的論文研讀可實(shí)現(xiàn)智能解讀論文,快速回答相關(guān)問題。后續(xù)在高精度公式識(shí)別基礎(chǔ)上進(jìn)階有機(jī)化學(xué)結(jié)構(gòu)式、圖形、圖標(biāo)、流程圖、表格等結(jié)構(gòu)化場(chǎng)景識(shí)別的效果,這項(xiàng)功能也會(huì)更好助力科研工作者提升效率;

文檔信息定位與抽取技術(shù)則在金融領(lǐng)域得到了廣泛運(yùn)用,例如合同要素抽取與審核、銀行票據(jù)要素抽取、營(yíng)銷內(nèi)容消保審查等場(chǎng)景,可以實(shí)現(xiàn)文檔或文件的數(shù)據(jù)解析、信息抽取和比對(duì)審核等功能,從而輔助業(yè)務(wù)數(shù)據(jù)的快速錄入、抽取、比對(duì),實(shí)現(xiàn)審核過程的降本增效;

同樣在此次1024主論壇上發(fā)布的個(gè)人AI健康助手——訊飛曉醫(yī),不僅能掃描檢查單、化驗(yàn)單識(shí)別后給出分析和建議,還可以掃描藥盒后進(jìn)一步主動(dòng)詢問、給出輔助用藥建議。對(duì)于體檢報(bào)告,拍照上傳后訊飛曉醫(yī)可以識(shí)別全維度關(guān)鍵信息,聯(lián)合異常指標(biāo)綜合解讀,主動(dòng)詢問發(fā)現(xiàn)更多問題給予幫助。當(dāng)然,背后也是文檔信息定位與抽取技術(shù)的支持。

從單字識(shí)別、文本行識(shí)別,到難度更高的二維復(fù)雜結(jié)構(gòu)識(shí)別、篇章級(jí)識(shí)別,科大訊飛的圖文識(shí)別相關(guān)技術(shù)在算法上持續(xù)迭代突破,更強(qiáng)的圖文識(shí)別技術(shù)還能使多模態(tài)大模型在圖像描述、圖像問答、識(shí)圖創(chuàng)作、文檔理解與處理上展現(xiàn)出更好的效果和潛力;

與此同時(shí),圖文識(shí)別技術(shù)也結(jié)合語(yǔ)音識(shí)別、語(yǔ)音合成、機(jī)器翻譯等技術(shù)形成系統(tǒng)性創(chuàng)新,賦能產(chǎn)品應(yīng)用后展現(xiàn)出更強(qiáng)大的功能與更明顯的價(jià)值優(yōu)勢(shì),相關(guān)項(xiàng)目也獲得了2022年度吳文俊人工智能科技進(jìn)步獎(jiǎng)一等獎(jiǎng)。新一程里,在ICDAR 2023數(shù)個(gè)比賽中“多點(diǎn)開花”,既是科大訊飛在圖文識(shí)別理解技術(shù)深度上持續(xù)進(jìn)步的回饋,也是廣度上不斷鋪開的肯定。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )