強化學習新突破:靈初智能發(fā)布雙靈巧手協(xié)同操作模型Psi R0,引領(lǐng)具身交互新紀元
在人工智能領(lǐng)域,強化學習一直是備受關(guān)注的研究方向。近日,靈初智能發(fā)布了首個基于強化學習的端到端具身模型PsiR0,這一突破性成果將強化學習應(yīng)用于復(fù)雜的長程靈巧操作任務(wù),引領(lǐng)了具身交互的新紀元。
PsiR0模型支持雙靈巧手協(xié)同進行復(fù)雜操作,將多個技能串聯(lián)混訓(xùn),生成具有推理能力的智能體,從而完成并閉環(huán)長程靈巧操作任務(wù)。這一模型的特點在于其強大的泛化能力,能夠?qū)崿F(xiàn)跨物品、跨場景級別的泛化。這一突破性的進展,對于提高生產(chǎn)效率、降低人工成本具有重要意義。
以電商場景為例,商品打包是典型的長程任務(wù)作業(yè),需對上萬件商品進行抓取、掃碼、放置、塑料袋打結(jié)等多個操作。Psi R0能夠使用雙靈巧手流暢地完成這一系列動作,成為首個基于強化學習訓(xùn)練完成長程靈巧操作任務(wù)的具身機器人。這一技術(shù)的應(yīng)用,將大大提高電商行業(yè)的生產(chǎn)效率,降低人工干預(yù),同時也為其他需要復(fù)雜操作的任務(wù)提供了新的解決方案。
PsiR0的另一個亮點是其采用了業(yè)界領(lǐng)先的雙向訓(xùn)練框架。該框架通過物體時空軌跡抽象出關(guān)鍵信息以構(gòu)建通用目標函數(shù),從而解決獎勵函數(shù)難設(shè)計的問題。在后訓(xùn)練階段,通過少量高質(zhì)量真機數(shù)據(jù)對齊,進一步提升長程任務(wù)的成功率。這種雙向訓(xùn)練框架賦予了模型自主切換技能的能力,使其在遭遇操作失敗時能夠迅速調(diào)整策略,確保高成功率。此外,轉(zhuǎn)移可行性函數(shù)在提高技能串聯(lián)的成功率與泛化性方面也發(fā)揮了重要作用。
強化學習的一個重要優(yōu)勢是其自適應(yīng)和自我優(yōu)化能力。PsiR0通過海量仿真數(shù)據(jù)訓(xùn)練出雙手操作的智能體,并在開放環(huán)境中成功完成了長程任務(wù)。這種強大的魯棒性使得PsiR0在面對各種復(fù)雜環(huán)境和未知情況時都能表現(xiàn)出色,具有較強的泛化能力。
此外,PsiR0的具身特性也使其在工業(yè)應(yīng)用中具有獨特優(yōu)勢。傳統(tǒng)的機器人技術(shù)主要關(guān)注于局部操作和精細控制,而PsiR0則將多個技能串聯(lián)混訓(xùn),通過雙靈巧手進行復(fù)雜操作。這種具身模型的應(yīng)用,能夠顯著提高生產(chǎn)線的自動化程度,降低人力成本,同時提高生產(chǎn)效率和質(zhì)量。
總的來說,靈初智能的PsiR0模型是強化學習領(lǐng)域的一項重要突破。它通過將強化學習應(yīng)用于具身模型,成功解決了復(fù)雜長程靈巧操作任務(wù)的問題,展示了強化學習的強大適應(yīng)性和自適應(yīng)性。這種新型的交互方式將為未來的工業(yè)自動化和人工智能發(fā)展開辟新的道路。
在未來的研究中,我們期待看到更多基于強化學習的具身模型的出現(xiàn),它們將為我們的生活和工作帶來更多的便利和效率。同時,我們也期待靈初智能能夠繼續(xù)保持其創(chuàng)新精神和技術(shù)實力,為推動人工智能領(lǐng)域的發(fā)展做出更大的貢獻。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )