PRCV 2023:語言模型與視覺生態(tài)如何協(xié)同?合合信息瞄準(zhǔn)“多模態(tài)”技術(shù)

近期,2023年中國(guó)模式識(shí)別與計(jì)算機(jī)視覺大會(huì)(PRCV)在廈門成功舉行。大會(huì)由中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)、中國(guó)自動(dòng)化學(xué)會(huì)(CAA)、中國(guó)圖象圖形學(xué)學(xué)會(huì)(CSIG)和中國(guó)人工智能學(xué)會(huì)(CAAI)聯(lián)合主辦,多媒體可信感知與高效計(jì)算教育部重點(diǎn)實(shí)驗(yàn)室、廈門大學(xué)人工智能研究院、廈門大學(xué)信息學(xué)院承辦,是國(guó)內(nèi)模式識(shí)別和計(jì)算機(jī)視覺領(lǐng)域的學(xué)術(shù)盛會(huì)。

本次大會(huì)通過聚焦中國(guó)模式識(shí)別與計(jì)算機(jī)視覺領(lǐng)域的最新理論和技術(shù)成果解讀、分享,進(jìn)一步加強(qiáng)產(chǎn)學(xué)研領(lǐng)域的學(xué)術(shù)交流和技術(shù)碰撞,促進(jìn)模式識(shí)別與計(jì)算機(jī)視覺領(lǐng)域的協(xié)同合作與融合創(chuàng)新。大會(huì)邀請(qǐng)了徐宗本院士、張艷寧教授、李樹濤教授、黃鐵軍教授、胡事民教授作主旨報(bào)告;參會(huì)人員包括來自清華大學(xué)、廈門大學(xué)、浙江大學(xué)、華中科技大學(xué)等高校的科研工作者,以及騰訊、美團(tuán)、合合信息等科技企業(yè)的技術(shù)專家。

智能文檔處理技術(shù)是學(xué)術(shù)界重點(diǎn)關(guān)注的領(lǐng)域,而隨著信息渠道的多樣化發(fā)展,異構(gòu)化、跨模態(tài)的數(shù)據(jù)層出不窮。文檔圖像是文字與圖片領(lǐng)域的交集點(diǎn),天然具備多模態(tài)屬性。在《視言碰撞:語言模型與視覺生態(tài)協(xié)同論壇》上,合合信息圖像算法研發(fā)總監(jiān)郭豐俊博士就文檔圖像前沿技術(shù)熱點(diǎn)話題進(jìn)行了分享。郭豐俊表示,多模態(tài)技術(shù)可充分利用文檔圖像的視覺和語言屬性,并借助語言大模型已取得的優(yōu)異性能和技術(shù)積累,正逐漸成為文檔圖像處理領(lǐng)域的熱門研究方向。

image001.jpg合合信息圖像算法研發(fā)總監(jiān)郭豐俊博士進(jìn)行《文檔圖像前沿技術(shù)探索——多模態(tài)及圖像安全》主題分享

“從目前評(píng)測(cè)的情況來看,已知的多模態(tài)預(yù)訓(xùn)練系統(tǒng)在文檔圖像識(shí)別準(zhǔn)確率上還遜于最先進(jìn)的OCR識(shí)別系統(tǒng)?!惫S俊提到,合合信息-華南理工大學(xué)文檔圖像分析識(shí)別與理解聯(lián)合實(shí)驗(yàn)室對(duì)該方向展開了研究,并在數(shù)據(jù)高效利用及垂直領(lǐng)域識(shí)別項(xiàng)目中取得了階段性成果。

大模型技術(shù)的突破讓生成式AI擁有了更廣泛的落地空間,也讓圖片偽造的門檻變得更低,給了不法分子可乘之機(jī)。大會(huì)現(xiàn)場(chǎng),郭豐俊對(duì)合合信息在AI圖像安全方面的工作進(jìn)行了分享。據(jù)介紹,合合信息智能文檔處理技術(shù)覆蓋了圖像預(yù)處理、解析識(shí)別到AI安全等文檔圖像處理全生命周期,圖像篡改檢測(cè)技術(shù)不僅能夠應(yīng)用于自然場(chǎng)景,還能應(yīng)用于資質(zhì)證書、文檔合同、銀行保單等截圖的鑒別上。針對(duì)圖片生成式造假,合合信息基于空域與頻域關(guān)系建模,利用多維度特征來分辨真實(shí)圖片和生成式圖片的細(xì)微差異,判斷圖片是否由AI生成。

今年8月,合合信息獲得了文檔分析與識(shí)別國(guó)際會(huì)議(ICDAR 2023)“文本篡改檢測(cè)”賽道冠軍。合合信息技術(shù)團(tuán)隊(duì)提出的方案能夠在保持低誤檢率的同時(shí),準(zhǔn)確識(shí)別并定位圖片中文本的篡改行為,從而有效保障文本信息的真實(shí)性。相關(guān)方案已在銀行、證券、保險(xiǎn)多個(gè)場(chǎng)景中應(yīng)用。

“目前,圖像篡改檢測(cè)技術(shù)的應(yīng)用也面臨著篡改手段不斷變化、場(chǎng)景復(fù)雜等系列挑戰(zhàn),不斷提升檢測(cè)系統(tǒng)的魯棒性和泛化能力,是學(xué)術(shù)界與企業(yè)界需要深入合作的重要方向。”郭豐俊表示,合合信息已聯(lián)合中國(guó)信通院,發(fā)起了《文本圖像篡改檢測(cè)系統(tǒng)技術(shù)規(guī)范》標(biāo)準(zhǔn)制定,希望持續(xù)推動(dòng)AI技術(shù)在圖像安全領(lǐng)域的廣泛應(yīng)用,帶給用戶更加安全、高效的工作和生活體驗(yàn)。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2023-10-19
PRCV 2023:語言模型與視覺生態(tài)如何協(xié)同?合合信息瞄準(zhǔn)“多模態(tài)”技術(shù)
郭豐俊表示,多模態(tài)技術(shù)可充分利用文檔圖像的視覺和語言屬性,并借助語言大模型已取得的優(yōu)異性能和技術(shù)積累,正逐漸成為文檔圖像處理領(lǐng)域的熱門研究方向。

長(zhǎng)按掃碼 閱讀全文