中報密集披露,合合信息文檔解析技術(shù)助力大模型“精讀”財報

財務(wù)報告是公眾和投資者了解企業(yè)經(jīng)營狀況的主要信源之一。步入8月中下旬,上市公司進入了中報披露高峰期。據(jù)東方財富Choice數(shù)據(jù)統(tǒng)計,截至8月中旬,A股有超過1700只個股公布了2024年半年度業(yè)績預(yù)告,海量的財報文件的解讀對于金融行業(yè)從業(yè)者而言,產(chǎn)生了巨大的工作量。

隨著人工智能技術(shù)的深入發(fā)展,部分企業(yè)和個人開始嘗試用大模型進行財務(wù)報表分析。針對大模型“理解力”薄弱,數(shù)據(jù)讀取錯誤等問題,合合信息大模型“加速器”方案優(yōu)化升級了PDF文檔解析技術(shù),將非結(jié)構(gòu)化的PDF內(nèi)容轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),提高大模型圖表類數(shù)據(jù)提取準確性和版面理解能力,助力大模型實現(xiàn)從“泛讀”到“精讀”的能力跨越。

PDF是主流的電子文件格式之一。文檔解析技術(shù)可將PDF、圖片等多種格式的文件解析為 Markdown 或 JSON 格式的文檔,并以一種對大模型友好的方式呈現(xiàn)。

文檔解析技術(shù)是大模型理解和處理文檔的前提,相關(guān)能力的缺失,會導(dǎo)致大模型在理解版面不同區(qū)域的內(nèi)容排列順序、要點時遇到障礙,影響大模型的“理解力”,財務(wù)報表中的關(guān)鍵信息可能會丟失或被誤解,使得模型生成的答案不夠精準,無法正確回答用戶的查詢。

“人類閱讀文章時可以自然地判斷版面元素的作用,但機器要經(jīng)歷層層拆解的過程才能‘讀懂’文章。”據(jù)合合信息技術(shù)團隊成員介紹,財報、年報文件多以PDF格式為主,其中包含著各類復(fù)雜表格、圖表、證照等元素。大模型現(xiàn)階段存在的文檔解析能力缺陷主要體現(xiàn)如下方面:文檔識別失敗率高,面對復(fù)雜版面,無法正確解析,獲取標題、分塊文本、圖表等。在這種情況下,大模型常表現(xiàn)為細節(jié)信息提供答案失敗或回答錯誤;邏輯結(jié)構(gòu)解析不完整也是核心問題之一,段落語義劃分錯誤,會導(dǎo)致大模型回答不全面或出現(xiàn)總結(jié)性偏差的狀況。

合合信息PDF文檔解析技術(shù)在大模型表格解析中的效果

據(jù)了解,合合信息PDF文檔解析技術(shù)具備多文檔元素識別、版面分析能力,可以識別文檔中的段落、公式、頁眉、頁腳等多種元素,并進行對應(yīng)的處理。在應(yīng)對財報中常見的無線表、合并單元格、不規(guī)則行距、跨段、跨頁等障礙時,該技術(shù)也能做到準確還原各類表格結(jié)構(gòu)。

為了讓大模型像專業(yè)人士一樣閱讀文本,PDF文檔解析技術(shù)可對各類學術(shù)文獻進行版面元素的識別及閱讀順序的判定。該技術(shù)不僅能夠準確定位文檔中的關(guān)鍵信息段落,還能根據(jù)PDF文檔的布局和格式,推斷出人類閱讀時的順序,而非機械地判定為從左至右排序,避免把完整的段落文字“攔腰斬斷”,真正做到了“所見即所得”。

合合信息PDF文檔解析技術(shù)對雙欄論文的解析效果

合合信息技術(shù)團隊成員表示,上市公司年報頁數(shù)大多集中在200至300頁的范圍內(nèi),一個熟練的分析師可能在幾天到一周的時間內(nèi)完成對年報的基本分析,PDF文檔解析工具最快能在1.5秒完成百頁文檔的解析,按8小時為一天工作時間計算,解析工具可幫助大模型在一日內(nèi)對數(shù)千家企業(yè)的年報數(shù)據(jù)進行精準分析。隨著無紙化辦公、數(shù)字化趨勢發(fā)展,PDF文檔解析技術(shù)有望被應(yīng)用于更廣泛的場景。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2024-08-27
中報密集披露,合合信息文檔解析技術(shù)助力大模型“精讀”財報
針對大模型“理解力”薄弱,數(shù)據(jù)讀取錯誤等問題,合合信息大模型“加速器”方案優(yōu)化升級了PDF文檔解析技術(shù),將非結(jié)構(gòu)化的PDF內(nèi)容轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),提高大模型圖表類數(shù)據(jù)提取準確性和版面理解能力,助力大模型實現(xiàn)從“泛讀”到“精讀”的能力跨越。

長按掃碼 閱讀全文