123,123,123

3月12日消息，近期，國產(chǎn)通用智能體（Agent）產(chǎn)品Manus風(fēng)頭十足，刷屏海內(nèi)外社媒。Manus在出道之初就號稱：在通用AI助手基準(zhǔn)測試GAIA的全部難度級別中的評分甚至遠(yuǎn)遠(yuǎn)超越OpenAI的DeepResearch。

Manus掀起的Agent風(fēng)暴，讓OpenAI也坐不住了。

今天凌晨，OpenAI發(fā)布一套新的API和內(nèi)置工具、Agents SDK，專門用于簡化Agent應(yīng)用程序的開發(fā)，包括：

1、新的Responses API，將Chat Completions API簡單性與Assistants API工具使用功能相結(jié)合，用于構(gòu)建智能體（Agent）

2、內(nèi)置工具，包括網(wǎng)絡(luò)搜索、文件搜索、計算機(jī)使用（Computer Use）

3、新的智能體SDK（Agents SDK），用于編排單智能體和多智能體工作流

4、集成的可視化工具，用于跟蹤和檢查智能體工作流執(zhí)行情況

OpenAI稱，這些新工具簡化了核心智能體（Agent）邏輯、編排和交互，使開發(fā)人員更容易開始構(gòu)建智能體（Agent）。

事實(shí)上，早在Manus引燃市場對AI Agent產(chǎn)品的熱情之前，人工智能業(yè)內(nèi)對智能體（Agent）的興趣就很高，這些AI Agent能夠自主運(yùn)行并在各個行業(yè)中執(zhí)行復(fù)雜任務(wù)，因此這項(xiàng)快速發(fā)展的技術(shù)被認(rèn)為為業(yè)務(wù)提供了變革性的機(jī)遇。

不過，與AI Agent熱相伴的，還有“Agent Washing”現(xiàn)象，也就是一些Agent廠商夸大其產(chǎn)品的功能，通過重新品牌化現(xiàn)有技術(shù)為AI Agent，然而實(shí)際上卻未能驗(yàn)證這些聲稱的真實(shí)Agent能力。

Gartner研究副總裁孫鑫表示，AI Agent的最佳定義是：利用人工智能進(jìn)行感知、決策、采取行動，并在數(shù)字或物理環(huán)境中自主或半自主地追求既定目標(biāo)的軟件實(shí)體。真正的AI Agent具備適應(yīng)、規(guī)劃和獨(dú)立行動的能力，從而能夠在較長時間內(nèi)實(shí)現(xiàn)組織的目標(biāo)。所需的能力超越了傳統(tǒng)的AI助手、機(jī)器人流程自動化（RPA）工具與聊天機(jī)器人。

那么，在我們等待Manus邀請碼的時期，先看看OpenAI新發(fā)布的Agent工具都有哪些能力。

OpenAI幾大全新工具，構(gòu)建更強(qiáng)大智能體

1、Responses API及內(nèi)置工具

Responses API專為那些希望將OpenAI模型和內(nèi)置工具輕松組合到應(yīng)用程序中的開發(fā)人員設(shè)計。Responses API是一個統(tǒng)一API，可支持多輪交互和工具調(diào)用。通過一個Responses API調(diào)用，開發(fā)人員將能夠使用多個工具和模型回合來解決日益復(fù)雜的任務(wù)。

對于此次Agent工具包的發(fā)布帶來的影響，OpenAl表示，已將原有的Assistants API關(guān)鍵改進(jìn)整合進(jìn)今日發(fā)布的Responses API 中，使其更靈活、更快速、更易于使用。

OpenAl認(rèn)為，Responses API 代表了在 OpenAI上構(gòu)建代理的未來方向。預(yù)計2026年年中，OpenAl將正式棄用 Assistants API。

Responses API將支持新的內(nèi)置工具，如網(wǎng)絡(luò)搜索、文件搜索和計算機(jī)使用。

其中，“網(wǎng)絡(luò)搜索工具”可讓模型即時訪問互聯(lián)網(wǎng)信息，與驅(qū)動ChatGPT Search是相同模型提供支持。在SimpleQA（一個評估LLM在回答簡短事實(shí)問題方面準(zhǔn)確性的基準(zhǔn)）上，GPT-4o和GPT-4o mini的得分分別為90%和88%。

“文件搜索”工具支持多種文件類型、查詢優(yōu)化、元數(shù)據(jù)過濾和自定義重新排序，它可以提供快速、準(zhǔn)確的搜索結(jié)果。同樣，使用Responses API，只需要幾行代碼就可以集成。

“計算機(jī)使用工具”在API中被稱為Operator，為了構(gòu)建能夠在計算機(jī)上完成任務(wù)的代理，開發(fā)人員可以在Responses API中使用計算機(jī)使用工具，該工具由啟用Operator的相同計算機(jī)使用代理（CUA）模型提供支持。內(nèi)置的計算機(jī)使用工具捕獲模型生成的鼠標(biāo)和鍵盤操作，使開發(fā)人員能夠通過將這些操作直接轉(zhuǎn)換為其環(huán)境中的可執(zhí)行命令來自動化計算機(jī)使用任務(wù)。

OpenAl表示，這項(xiàng)研究預(yù)覽模型創(chuàng)造了新的最先進(jìn)的記錄，在OSWorld上實(shí)現(xiàn)了38.1%的完全計算機(jī)使用任務(wù)的成功率，在WebArena上實(shí)現(xiàn)了58.1%的成功率，在WebVoyager實(shí)現(xiàn)了87%的基于網(wǎng)絡(luò)的交互成功率。

從今天起，所有開發(fā)者均可使用Responses API，且無額外使用費(fèi)用——相關(guān)的token和工具調(diào)用將按照OpenAl定價頁面上的標(biāo)準(zhǔn)費(fèi)率收費(fèi)。

2、新的Agents SDK

OpenAl新的開源代理SDK簡化了多代理工作流的編排，并對Swarm進(jìn)行了重大改進(jìn)?，改進(jìn)包括：

代理：易于配置的LLM，具有清晰的說明和內(nèi)置工具。

交接：智能地在代理之間轉(zhuǎn)移控制權(quán)。

護(hù)欄：用于輸入和輸出驗(yàn)證的可配置安全檢查。

跟蹤和可觀察性：可視化代理執(zhí)行跟蹤以調(diào)試和優(yōu)化性能。

Agents SDK適用于各種現(xiàn)實(shí)世界的應(yīng)用程序，包括客戶支持自動化、多步驟研究、內(nèi)容生成、代碼審查和銷售勘探。

例如，Coinbase使用Agents SDK快速原型化和部署AgentKit，在短短幾個小時內(nèi)，Coinbase將來自其開發(fā)者平臺SDK的自定義操作集成到一個功能齊全的代理中。AgentKit的精簡架構(gòu)簡化了添加新代理操作的過程，讓開發(fā)人員更專注于有意義的集成，而不是導(dǎo)航復(fù)雜的代理設(shè)置。

Agents SDK可與Responses API和Chat Completions API協(xié)同工作。

同時，該SDK也支持其他提供商的模型，只要它們提供Chat Completions類型的API端點(diǎn)。開發(fā)者現(xiàn)在就能將其集成到Python代碼庫中，Node.js支持也即將推出。

另外，OpenAI表示，在接下來的幾周和幾個月里，計劃發(fā)布更多的工具和功能，以進(jìn)一步簡化和加速在平臺上構(gòu)建代理應(yīng)用程序。

AI智能體迎來爆發(fā)，如何辨別優(yōu)劣？

根據(jù)此前OpenAI公開的技術(shù)發(fā)展路線，OpenAI認(rèn)為AI從大語言模型的突破到真正走向通用人工智能會有幾個發(fā)展階段：

第一階段，語言能力。像ChatGPT這樣的可以和人類用自然語言對話的聊天機(jī)器人。

第二階段，推理能力。所謂的“推理”就是可以和人類一樣去解決問題。

第三階段，Agent能力。AI智能體實(shí)際上最后會和人類一樣去做事情。

DeepSeek的出現(xiàn)，讓人們看到了AI大模型推理能力的驚艷表現(xiàn)，現(xiàn)在Manus的出現(xiàn)，又直觀展現(xiàn)了Agent對生產(chǎn)生活可能帶來變革影響，催化AIAgent產(chǎn)業(yè)化發(fā)展加速。

據(jù)MarketsandMarkets的數(shù)據(jù)，全球AIAgent市場規(guī)模將從2024年的51億美元增至2030年的471億美元，年復(fù)合增長率達(dá)44.8%。

去年底，Gartner發(fā)布2025 年十大戰(zhàn)略技術(shù)趨勢，其中，Gartner預(yù)測，到2028年至少有15%的日常工作決策將由代理型AI（AI智能體）自主做出，而2024年這一比例為0%。

不過，在龍蛇混雜的AIAgent市場，Gartner研究副總裁孫鑫強(qiáng)調(diào)：“鑒于‘Agent Washing’帶來的風(fēng)險，企業(yè)機(jī)構(gòu)應(yīng)采取詳盡的方法來評估供應(yīng)商的產(chǎn)品。建議請求詳細(xì)的演示，并要求與企業(yè)業(yè)務(wù)應(yīng)用場景相關(guān)的部署參考。同時，對支撐AI Agent發(fā)展的架構(gòu)和技術(shù)選擇進(jìn)行嚴(yán)格評估也至關(guān)重要。”

同時，孫鑫指出，AI Agent的最佳定義是：利用人工智能進(jìn)行感知、決策、采取行動，并在數(shù)字或物理環(huán)境中自主或半自主地追求既定目標(biāo)的軟件實(shí)體。真正的AI Agent具備適應(yīng)、規(guī)劃和獨(dú)立行動的能力，從而能夠在較長時間內(nèi)實(shí)現(xiàn)組織的目標(biāo)。所需的能力超越了傳統(tǒng)的AI助手、機(jī)器人流程自動化（RPA）工具與聊天機(jī)器人。（果青）

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實(shí)，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）