CSIG青年科學(xué)家會議圓滿舉行,合合信息打造智能文檔處理融合研究新范式

近期,第十九屆中國圖象圖形學(xué)學(xué)會青年科學(xué)家會議(簡稱“會議”)在廣州召開。會議由中國圖象圖形學(xué)學(xué)會(CSIG)主辦,琶洲實(shí)驗(yàn)室、華南理工大學(xué)、中山大學(xué)、中國圖象圖形學(xué)學(xué)會青年工作委員會承辦。會議面向國際學(xué)術(shù)前沿與國家戰(zhàn)略需求,致力于支持圖象圖形領(lǐng)域的優(yōu)秀青年學(xué)者,提供學(xué)術(shù)交流與研討的平臺,促進(jìn)學(xué)者之間的交流與合作,鼓勵(lì)圖象圖形領(lǐng)域的“產(chǎn)學(xué)研”合作。

當(dāng)下,以大模型為代表的人工智能技術(shù)正重塑著千行百業(yè)。相較于通用大模型,垂直領(lǐng)域大模型專注于特定場景的數(shù)據(jù)和知識,在處理復(fù)雜、專業(yè)的場景問題時(shí)具有更高的準(zhǔn)確性和效率。垂直領(lǐng)域大模型的作用與發(fā)展前景也成為了各界研究的重點(diǎn)。因此,在主辦單位中國圖象圖形學(xué)學(xué)會的指導(dǎo)下,合合信息聯(lián)合琶洲實(shí)驗(yàn)室、華南理工大學(xué)、中山大學(xué)、中國圖象圖形學(xué)學(xué)會青年工作委員會共同承辦了《垂直領(lǐng)域大模型論壇》(簡稱“論壇”)。論壇匯聚了高校及辦公、醫(yī)療、工業(yè)等多個(gè)行業(yè)代表性企業(yè)的技術(shù)專家,共同分享前沿技術(shù)成果與實(shí)戰(zhàn)思路,為大模型在垂直領(lǐng)域中的應(yīng)用尋找新的落腳點(diǎn)。

文檔處理是垂直領(lǐng)域大模型的重要研究方向。受制于圖像質(zhì)量低下,版式豐富,文字字體、顏色多樣等因素的影響,文檔圖像智能分析與理解能力的大幅度提升面臨著挑戰(zhàn)。2023年9月,繼GPT-4后,Open AI發(fā)布了具有視覺功能的多模態(tài)模型GPT-4V(V即“Vision”),具備突出的文檔圖像理解能力,引起行業(yè)廣泛關(guān)注。

論壇上,合合信息智能技術(shù)平臺事業(yè)部副總經(jīng)理、高級工程師丁凱博士對GPT-4V在文檔處理領(lǐng)域的實(shí)際表現(xiàn)進(jìn)行了解析,并對公司在智能文檔處理領(lǐng)域的研究工作進(jìn)行了分享。

丁凱表示,GPT-4V在場景文字識別、語言形態(tài)、語言種類、手寫識別、公式識別、幾何圖形識別、表格理解等方面的表現(xiàn)非常驚艷,針對復(fù)雜圖表分析理解、文檔抽取和推理結(jié)果也十分出色。相對應(yīng)地,GPT-4V在中文、手寫公式,場景文字識別,表格識別上存在缺陷;面對多欄目、表格等復(fù)雜版式的文檔時(shí),大模型的處理效果距離當(dāng)前SOTA(State Of The Art)的方法尚有較大差距。

 “在智能文檔處理領(lǐng)域,大模型支持識別和理解的文檔元素類型遠(yuǎn)超傳統(tǒng)算法,大幅度拓展了AI技術(shù)在文檔分析與識別領(lǐng)域的能力邊界,端到端實(shí)現(xiàn)了文檔從識別到理解的全過程。不足在于,目前大模型的OCR精度距離領(lǐng)域最佳模型有較大差距,長文檔依賴外部的文檔解析引擎。”丁凱認(rèn)為,技術(shù)公司可以把“感知”層面的事情做好,讓大模型更好地去做“認(rèn)知”,這種融合研究范式在智能文檔處理領(lǐng)域中具有積極的意義。

目前,合合信息-華南理工大學(xué)文檔圖像分析識別與理解聯(lián)合實(shí)驗(yàn)室針對大模型文檔處理中的像素級OCR統(tǒng)一模型、OCR大一統(tǒng)模型等重點(diǎn)技術(shù)方向進(jìn)行了深入研究,相關(guān)工作成果在文本去除、文本分割和篡改文本檢測任務(wù)上得到了廣泛驗(yàn)證。此外,實(shí)驗(yàn)室還通過創(chuàng)新的文檔識別分析與LLM(自然語言模型)應(yīng)用設(shè)計(jì),充分利用序列預(yù)測的優(yōu)勢,更好地解決文檔圖像處理中的多樣化任務(wù)需求,并且通過與LLM的結(jié)合,實(shí)現(xiàn)了更高層次的文檔理解和分析,為文檔圖像處理領(lǐng)域帶來了更多可能性。

合合信息是一家人工智能及大數(shù)據(jù)科技企業(yè),致力于通過智能文字識別及商業(yè)大數(shù)據(jù)領(lǐng)域的核心技術(shù)、C端和B端產(chǎn)品以及行業(yè)解決方案,為全球企業(yè)和個(gè)人用戶提供創(chuàng)新的數(shù)字化、智能化服務(wù)。通過自然語言處理(NLP)、計(jì)算機(jī)視覺(CV)、深度學(xué)習(xí)等人工智能技術(shù),合合信息智能文檔處理系統(tǒng)可實(shí)現(xiàn)“文檔導(dǎo)入-圖像處理-文字檢測與識別-信息抽取-數(shù)據(jù)驗(yàn)證-語義檢索與摘要”全流程智能化處理,相關(guān)產(chǎn)品及解決方案已在全球范圍內(nèi)被應(yīng)用于金融業(yè)、物流業(yè)、制造業(yè)等多個(gè)行業(yè)中。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2024-01-05
CSIG青年科學(xué)家會議圓滿舉行,合合信息打造智能文檔處理融合研究新范式
近期,第十九屆中國圖象圖形學(xué)學(xué)會青年科學(xué)家會議(簡稱“會議”)在廣州召開。會議由中國圖象圖形學(xué)學(xué)會(CSIG)主辦,琶洲實(shí)驗(yàn)室、華南理工大學(xué)、中山大學(xué)、中國圖象圖形學(xué)學(xué)會青年工作委員會承辦。會議面向國際學(xué)術(shù)前沿與國家戰(zhàn)略需求,致力于支持圖象圖形領(lǐng)域的優(yōu)秀青年學(xué)者,提...

長按掃碼 閱讀全文