AI智能體“看懂”屏幕,開源 GLM-PC 基座模型 CogAgent-9B 引領新潮流

標題:開源 GLM-PC 基座模型 CogAgent-9B:引領 AI 智能體“看懂”屏幕的新潮流

隨著人工智能技術的不斷發(fā)展,智能體(Agent)在各個領域的應用越來越廣泛。近日,智譜技術團隊開源了 GLM-PC 的基座模型 CogAgent-9B-20241220,該模型基于 GLM-4V-9B 訓練,專用于智能體任務,憑借其強大的性能和廣泛的適用性,引領了 AI 智能體“看懂”屏幕的新潮流。

CogAgent-9B-20241220 模型基于 GLM-4V-9B 訓練,具有出色的 GUI 感知能力,能夠根據(jù)用戶指定的任意任務,結合歷史操作,預測下一步的 GUI 操作。該模型僅需屏幕截圖作為輸入(無需 HTML 等文本表征),使其在各類基于 GUI 交互的場景中具有廣泛的應用前景,如個人電腦、手機、車機設備等。

相較于 2023 年 12 月開源的第一版 CogAgent 模型,CogAgent-9B-20241220 在 GUI 感知、推理預測準確性、動作空間完善性、任務普適性和泛化性等方面均實現(xiàn)了顯著提升。值得一提的是,該模型支持中英文雙語的屏幕截圖和語言交互,進一步拓展了其應用范圍。

CogAgent 的輸入僅包含三部分:用戶的自然語言指令、已執(zhí)行歷史動作記錄和 GUI 截圖,無需任何文本形式表征的布局信息或附加元素標簽(set of marks)信息。這一特性使得 CogAgent 在處理復雜 GUI 場景時具有更高的效率和準確性。

其輸出涵蓋以下四個方面:

思考過程(Status & Plan):CogAgent 顯式輸出理解 GUI 截圖和決定下一步操作的思考過程,這一功能使得用戶能夠直觀地了解智能體的決策過程,增強了用戶交互的體驗。

下一步動作的自然語言描述(Action):自然語言形式的動作描述將被加入歷史操作記錄,便于模型理解已執(zhí)行的動作步驟。這一功能使得智能體不僅能夠執(zhí)行操作,還能夠進行邏輯推理,提高了智能體的智能化程度。

下一步動作的結構化描述(Grounded Operation):CogAgent 以類似函數(shù)調(diào)用的形式,結構化地描述下一步操作及其參數(shù),這一功能使得智能體能夠更加靈活地應對各種復雜的 GUI 場景,提高了智能體的泛用性。

下一步動作的敏感性判斷:通過將動作分為“一般操作”和“敏感操作”兩類,CogAgent 能夠判斷動作的風險性,從而避免可能帶來難以挽回后果的操作,提高了智能體的安全性。

為了驗證 CogAgent-9B-20241220 的性能,該模型在 Screenspot、OmniAct、CogAgentBench-basic-cn 和 OSWorld 等數(shù)據(jù)集上進行了測試,并與 GPT-4o-20240806、Claude-3.5-Sonnet、Qwen2-VL、ShowUI、SeeClick 等模型進行了比較。實驗結果表明,CogAgent 在多個數(shù)據(jù)集上取得了領先的結果,證明了其在 GUI Agent 領域強大的性能。

綜上所述,開源 GLM-PC 基座模型 CogAgent-9B-20241220 的出現(xiàn),為智能體領域帶來了新的發(fā)展機遇。憑借其出色的 GUI 感知能力、廣泛的適用性、豐富的輸出功能以及優(yōu)越的性能表現(xiàn),CogAgent 有望在未來的智能體領域中發(fā)揮越來越重要的作用,引領 AI 智能體“看懂”屏幕的新潮流。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )

贊助商
2024-12-27
AI智能體“看懂”屏幕,開源 GLM-PC 基座模型 CogAgent-9B 引領新潮流
開源 GLM-PC 基座模型 CogAgent-9B,具有出色的 GUI 感知能力,能預測下一步 GUI 操作,廣泛應用于各類基于 GUI 交互的場景。在多個數(shù)據(jù)集上表現(xiàn)出優(yōu)越性能,有望在智能體領域發(fā)揮重要作用。

長按掃碼 閱讀全文