“超級知識助手”來了,科大訊飛發(fā)布業(yè)界首個長文本、長圖文、長語音大模型

4月26日,科大訊飛V3.5發(fā)布更新版本,宣布訊飛星火成為業(yè)界首個支持長文本、長圖文以及長語音的大模型產品。

作為人工智能國家隊,科大訊飛此次升級的訊飛星火V3.5,面向用戶高效準確知識獲取的痛點,不同于行業(yè)單“卷”長文本,科大訊飛還為大模型加入了長圖文、長語音功能,拓寬了大模型多媒體資料獲取和理解的能力。

科大訊飛能為已經稍顯降溫的長文本注入新的活力嗎?長圖文和長語音的加入,能打開大模型打開更大的想象空間嗎?

用戶高效知識獲取痛點在哪里?

長文本已經成為國產大模型比拼的新方向。在經過長達一年的對標 ChatGPT-4、比拼參數(shù)大小的同質化競爭之后,中國人工智能公司們終于找出了一個更容易被普通用戶理解、也更能直觀地超越美國同行們的差異化標的。

掀起這一波競爭浪潮的是國內大模型創(chuàng)業(yè)公司月之暗面。這家公司在去年將旗下的大模型 Kimi 的上下文參數(shù)規(guī)模提升至 20 萬字,上個月又提升至 200 萬,迅速引爆市場。3 月,阿里旗下的通義千問已經將這一數(shù)字更新到 1000 萬,宣稱是“全球文檔處理容量第一的 AI 應用”。

華泰證券在一份研報中指出,具有長上下文的大模型通用性更強,用戶將特定領域的知識通過上下文的方式輸入到模型中,模型即可通過上下文學習掌握相應內容,一定程度上代替模型的微調。

但經過幾個月的比拼跟進之后,長文本之于大模型似乎又成了一項廠家炫技的同質化環(huán)節(jié),以至于有媒體已經飛快地喊出了“長文本降溫”的口號,長文本如何才能真正落地陷入瓶頸。

大模型長文本功能的落地需要重點解決兩個問題。一是海量文本的高效處理。面對上百萬甚至上千萬文字,模型后臺消耗的運算資源也成倍增加,業(yè)界的一些大模型往往智能處理前 20% 或前 50% 的內容,之后的處理效率就大大減慢。

二是如何保證大模型在科研、醫(yī)療、法律等行業(yè)專業(yè)場景的準確率,這樣才能解決大模型在剛需場景的應用問題。

科大訊飛董事長劉慶峰介紹,為了解決大模型應用效率和準確率問題,訊飛星火 V3.5 提升了對長文本的理解、學習、回答能力,并進行了重要的模型剪枝和蒸餾,從而推出業(yè)界最優(yōu)的 130 億參數(shù)的大模型。在效果損失僅 3% 以內的情況下,使得星火在文檔上傳解析、知識問答的首響時間以及文字生成效率方面都獲得了極大的效率提升。

在對比測試中,使用訊飛星火對比國內可測最好的大模型,在保障長文本效果的情況下,無論是10K、64K、128K token,還是更長的文本上,星火大模型的性能都是業(yè)界最優(yōu)。

在準確率上,本次訊飛星火長文本功能全新升級后,具備長文檔信息抽取、長文檔知識問答、長文檔歸納總結、長文檔文本生成等能力,總體已經達到GPT-4 Turbo 4月最新長文本版本的97%水平,而在銀行、保險、汽車、電力等多個垂直領域的知識問答任務上,訊飛星火長文本總體水平已經超過GPT-4 Turbo。

解決了效率和準確率的問題,長文本才不至于只停留在參數(shù)比拼的噱頭上,真正落地于應用場景。

除了長文本,為何要加入長圖文和長語音

但文本內容只是日常人們獲取信息的途徑之一。在現(xiàn)實的工作與學習過程中,人們接觸的的信息還有大量的圖片、語音等多模態(tài)信息。只有長文本仍無法完美滿足現(xiàn)實社會的需要。

劉慶峰在訊飛星火 V3.5 春季上新的發(fā)布會上說,廣大用戶在知識的獲取和學習過程中,往往拿到的資料并不是網(wǎng)上現(xiàn)成的海量長文本,而是隨手可見的報刊書籍上的內容。他發(fā)出疑問,“能不能用手機一拍就成為我們后臺知識的來源?能不能我們參加各種學術研討會,看到別人的 PPT,上課老師黑板上的板書以及各種同學筆記,都成為我們知識獲取和學習的內容?”

目前市面上大多數(shù)面向 C 端提供服務的大模型應用都還不支持圖文識別。事實上,圖文識別一直是多語言大模型的難點之一。

為了解決這一痛點,科大訊飛在多年深耕圖文識別的基礎上,首發(fā)星火圖文識別大模型,覆蓋了書籍、學術論文、報紙、體檢報告、PPT 等 31 個工作生活中的常見場景,并針對最常見的 18 種板面要素進行優(yōu)化,隨手一拍就能向大模型提問,例如頁眉、頁腳、標題、欄目、段落、表格、插圖等要素,甚至還包括比較難但是很實用的公式、印章、二維碼、手寫材料等。

訊飛星火的圖文識別能力已經達到國際領先水平。據(jù)了解,在英文公開測試集的圖文識別效果對比中,星火圖文識別大模型已經領先微軟、Google 等國際產品。在諸如科研、金融、產品文檔等典型應用場景的圖文識別效果對比中,星火圖文識別大模型均已實現(xiàn)對 GPT-4V 的超越。

在此次升級中,面對廣泛的音視頻信息高效獲取需求,科大訊飛也推出長語音功能,將國際領先的語音識別和翻譯技術結合起來,可以實現(xiàn)會議錄音、學習視頻等的一鍵研讀,實現(xiàn)音視頻場景的高效知識獲取。語音識別一直是科大訊飛的優(yōu)勢所在,根據(jù)IDC 去年年中發(fā)布的《中國人工智能軟件 2022 年市場份額》報告顯示,在人工智能語音語義市場,科大訊飛以 11.4% 的市場份額位居行業(yè)第一。在語音識別領域最權威的國際多通道語音分離與識別大賽,科大訊飛連續(xù)四屆斬獲第一,持續(xù)領跑國際競爭對手。

劉慶峰介紹,訊飛星火的語音識別不僅僅能針對中文內容進行學習整理,還結合訊飛國際領先的翻譯技術,讓英文資料也能像純文字內容一樣進行快速獲取和學習。

長圖文和長語音的加入,為大模型的長文本玩法擴充了更多的想象空間,大模型可以獲取的資料不再僅局限于文本內容,視覺、聽覺也成為大模型的信息獲取來源,可用性與實用性大大加強。

去年,科大訊飛啟動了“訊飛超腦 2030 計劃”,提出要讓具備人工智能的機器人走入每一個家庭中的宏偉愿景。同時兼顧長文本、長圖文和長語音能力的訊飛星火,或許就是這個計劃的第一步。

在此次訊飛星火V3.5的上新發(fā)布中,科大訊飛還宣布將于今年 6 月27日正式推出訊飛星火 V4.0 版本,期待國產大模型的持續(xù)進化。

(免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )