7月4日至7日,2024世界人工智能大會在上海拉開帷幕?,F(xiàn)階段,“百模大戰(zhàn)”現(xiàn)象背后的中國大模型發(fā)展前景與堵點(diǎn)仍然是各界關(guān)注的焦點(diǎn)。如何幫助大模型在信息的海洋中快速找準(zhǔn)航向,在數(shù)據(jù)的荒漠中找到高質(zhì)量的“水源”?合合信息在本次大會上展示了大模型“加速器”解決方案。
據(jù)了解,在大模型訓(xùn)練的上游階段,“加速器”中的文檔解析引擎將助力大模型突破在書籍、論文、研報(bào)等文檔中的版面解析障礙,從源頭為模型訓(xùn)練與應(yīng)用輸送純凈的“燃料”,助力大模型跑得更快;“加速器”還加載了行業(yè)領(lǐng)先的acge文本向量化模型,助力大模型解決“已讀亂回”的“幻覺”問題,讓大模型在正確的航線上行駛得更遠(yuǎn)。
大模型發(fā)展需要“智慧燃料”
大模型技術(shù)的發(fā)展和應(yīng)用,預(yù)示著更加智能化、個(gè)性化未來的到來。如果將大模型比喻為正在疾馳的科技列車,語料便是珍貴的“燃料”。對于中國的大模型企業(yè)而言,語料短缺問題更為嚴(yán)峻。當(dāng)前大模型數(shù)據(jù)集主要為英文,中文語料占比較低;無線表、跨頁表格、復(fù)雜公式等元素的處理仍是大模型語料處理中的另一個(gè)“攔路虎”。
文檔解析技術(shù)是支撐大模型語料訓(xùn)練的關(guān)鍵技術(shù)之一,面臨著從海量文檔中高效提煉“智慧燃料”的艱巨任務(wù)。合合信息的文檔解析引擎具備強(qiáng)大的“動(dòng)能”,最快1.5秒可解析百頁長文檔中的文本、表格、圖像等非結(jié)構(gòu)化數(shù)據(jù),也是當(dāng)前市面上同類文檔解析引擎中處理速度最快的產(chǎn)品之一;同時(shí),引擎還具備優(yōu)秀的文檔“理解力”,可智能還原文檔閱讀順序,加速了模型在預(yù)訓(xùn)練、開發(fā)、使用落地等多方面的流程。
大模型使用文檔解析引擎之前(左框)和之后(右框)的效果對比。使用后大模型具備了更快速、優(yōu)秀的文檔要素分析、表格內(nèi)容識別能力。
金融報(bào)表、行業(yè)報(bào)告等高知識密度的文檔中,表格的含義是最精華的數(shù)據(jù)指標(biāo)。失之毫厘差之千里,一個(gè)單元格的理解問題,可能導(dǎo)致整個(gè)表格的識別結(jié)果產(chǎn)生誤差,所以表格的還原準(zhǔn)確率,直接影響著模型問答的效果。在現(xiàn)場,參觀者可選擇物理、醫(yī)學(xué)、金融、社會學(xué)等多個(gè)知識領(lǐng)域的文檔,向大模型提問專業(yè)問題,例如對特定表格內(nèi)容的總結(jié)、關(guān)鍵要素的分析等。對比測試結(jié)果顯示,加載了文檔解析引擎的大模型,在回答問題的速度、準(zhǔn)確度上更勝一籌。
文檔解析引擎幫大模型“讀懂”圖表
在文檔解析范疇中,針對圖表類素材的識別、內(nèi)容理解是多數(shù)大模型亟待解決的障礙,合合信息大模型“加速器”則打通了這一堵點(diǎn):引擎能夠深度“洞察”圖表內(nèi)容,對研報(bào)、論文等文檔中的柱狀圖、折線圖、餅圖、雷達(dá)圖等十余種常見圖表進(jìn)行“還原”,巧妙轉(zhuǎn)化大模型能夠理解的markdown格式,使數(shù)據(jù)和圖表的價(jià)值潛能充分釋放。
在文檔解析引擎的幫助下,大模型可以直接獲取圖表原始的結(jié)構(gòu)化數(shù)據(jù),高效地學(xué)習(xí)理解商業(yè)研報(bào)和學(xué)術(shù)論文等專業(yè)文檔中的論證邏輯,提升語言理解、數(shù)據(jù)處理、知識推理分析的效率和準(zhǔn)確性,滿足更高價(jià)值的金融和學(xué)術(shù)等應(yīng)用場景的需要。
在實(shí)際應(yīng)用場景中,圖表的呈現(xiàn)形式多樣。受美術(shù)排版、內(nèi)容風(fēng)格影響,部分圖表除坐標(biāo)系區(qū)間外,不會顯示具體的節(jié)點(diǎn)數(shù)值,給大模型的“認(rèn)知”工作帶來了困擾。值得關(guān)注的是,合合信息文檔解析引擎已經(jīng)能夠做到在圖表不顯示具體數(shù)值的情況下,僅依據(jù)坐標(biāo)軸區(qū)間估算具體數(shù)值,實(shí)現(xiàn)了行業(yè)級突破。
文檔解析引擎基于坐標(biāo)軸區(qū)間,對不顯示具體數(shù)據(jù)的圖表進(jìn)行數(shù)值估算。
acge模型:為大模型穿越信息迷霧“導(dǎo)航”
如果說文檔解析是為大模型加滿油,acge模型則是為其配備了精準(zhǔn)的“導(dǎo)航系統(tǒng)”。合合信息大模型“加速器”加載了acge_text_embedding模型(簡稱“acge模型”),如同“指南針”一般,引導(dǎo)大模型在信息的汪洋大海中準(zhǔn)確定位目標(biāo),減少“幻覺”發(fā)生,提升回答問題的準(zhǔn)確性和針對性。
acge模型通過對大量中文文本數(shù)據(jù)的深入學(xué)習(xí),有效提取文本特征,幫助大模型快速在信息的海洋里“撈針”,其在分類和聚類任務(wù)中展現(xiàn)出高準(zhǔn)確率,讓大模型更準(zhǔn)確地理解專業(yè)問題。模型不僅在信息檢索和分類任務(wù)上展現(xiàn)了卓越的性能,更通過持續(xù)學(xué)習(xí)機(jī)制,克服了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的遺忘難題,為各行各業(yè)大模型的智能化升級提供了強(qiáng)大的推動(dòng)力。
與頭部廠商共尋大模型專業(yè)化發(fā)展之路
在表格內(nèi)容還原、復(fù)雜樣本處理、多語言文檔識別等方面,合合信息大模型“加速器”具備高準(zhǔn)確性和穩(wěn)定性,大幅提升了模型的理解力,并通過其強(qiáng)大的多語言識別、多類型支持能力,為多個(gè)行業(yè)提供了高效、準(zhǔn)確、實(shí)用的文檔解析服務(wù)。本次世界人工智能大會現(xiàn)場,合合信息與百川智能攜手,穿透雙欄、多欄、表格、圖片等復(fù)雜的版式,從金融、社科等多領(lǐng)域文檔圖像中快速提取關(guān)鍵信息,精準(zhǔn)地回答用戶“刁鉆”的專業(yè)問題,引起了業(yè)內(nèi)人士的關(guān)注。
百川智能是一家研發(fā)通用人工智能并提供相關(guān)服務(wù)的公司,核心業(yè)務(wù)是打造基礎(chǔ)大模型及顛覆性上層應(yīng)用。在大模型文檔處理場景中,合合信息與百川共同探索技術(shù)應(yīng)用新范式,破解困擾大模型產(chǎn)業(yè)已久的多文檔元素識別、版面分析難題,將對百頁文檔的整體處理速率提升超過10倍。
百川智能表示,大模型技術(shù)應(yīng)用到千行百業(yè),除了模型底層技術(shù)能力提升,離不開與行業(yè)知識庫的協(xié)作。大模型+知識庫能解決大部分企業(yè)定制化需求,有效提升工作效率。例如文檔解析是企業(yè)工作流中最常用到的,它的表現(xiàn)關(guān)乎數(shù)據(jù)輸入準(zhǔn)確性、信息提取的完整性及作用于應(yīng)用場景的擴(kuò)展,可以說深度鑄就了廣度。與合合信息等專業(yè)伙伴之間的緊密配合,可以共同克服這些技術(shù)和場景瓶頸,未來也希望能匯集各方力量,共同推動(dòng)大模型落地行業(yè)應(yīng)用的進(jìn)步。
合合信息智能創(chuàng)新事業(yè)部總經(jīng)理唐琪提到,目前,大模型“加速器”已被多家大模型廠商應(yīng)用于金融、醫(yī)學(xué)、財(cái)經(jīng)、媒體等多領(lǐng)域的文檔的解析中,助力大模型更順利地接軌“專業(yè)課”,它不僅僅是一套技術(shù)工具,更是推動(dòng)行業(yè)專業(yè)知識管理革新、提升業(yè)務(wù)效率的重要基石。未來,大模型加速器將陪伴更多行業(yè)級知識庫的建立,讓大模型的服務(wù)潤澤社會各個(gè)角落,實(shí)現(xiàn)“智能觸手可及”。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )