零一萬物API正式開放,中文圖表識別優(yōu)于GPT-4V

近期,Kim宕機(jī)的新聞讓達(dá)模型商業(yè)化拼殺進(jìn)入白熱化階段。與此同時(shí),零一萬物API也正式開箱,開發(fā)者可以直接調(diào)用包括多模態(tài)交互、200K超長文本、通用Chat等三大模型促成模型在更多應(yīng)用場景的落地。

目前,Yi大模型API名額已經(jīng)開放,新用戶申請成功即送60元體驗(yàn)。這次,性能更強(qiáng)的多模態(tài)模型,更專業(yè)的推理模型,和OpenAI API隨意切換的兼容性,以及超低的價(jià)格,都是不小的驚喜。

針對實(shí)際應(yīng)用場景,多模態(tài)模型Yi-VL-Plus能力顯著增強(qiáng),支持復(fù)雜圖表理解、信息提取、問答以及推理,甚至優(yōu)于GPT-4V。

如,一張有些重影的圖片,讓Yi-VL-Plus模型識別這是什么店。

Yi-VL-Plus準(zhǔn)確給出了店名“風(fēng)水魚自選超市”,并解釋了這個店鋪是做什么的。

GPT-4V的解釋則不太準(zhǔn)確,竟然識別成了“風(fēng)水寶地鑒定中心”,令人哭笑不得。

中文圖表的體驗(yàn)中Yi-VL-Plus表現(xiàn)也很優(yōu)異。新升級模型在Yi-VL基礎(chǔ)上進(jìn)一步提升圖片分辨率,支持1024*1024,明顯提升了場景中文字、數(shù)字OCR識別準(zhǔn)確性。比如下面這張分辨率低,表格繁雜的圖,提問:“通暖工程的人工單價(jià)是多少”,Yi-VL-Plus可以很快給出正確答案:33.054元/工日。

而GPT-4V則在處理照片信息方面遇到了問題,給出了一段似乎是回答的“周邊回答”,就是沒有呈現(xiàn)準(zhǔn)確的數(shù)字。

除了表格,Yi-VL-Plus處理餅狀圖的表現(xiàn)也可圈可點(diǎn)。在面對同樣一張餅圖,Yi-VL-Plus精確表述了餅圖中所顯示的內(nèi)容,并且在數(shù)字對應(yīng)上,沒有出現(xiàn)任何錯誤。

同樣的問題交給GPT-4V,表現(xiàn)則不那么樂觀,無法正確認(rèn)出餅狀圖中的中文字。

綜合來看,Yi大模型體驗(yàn)絲滑,可以成為企業(yè)和個人的工作好幫手!

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )