每次看到人類訓(xùn)練機(jī)器人,我都會(huì)很困惑一件事,那就是在如此殘酷環(huán)境中培養(yǎng)出來(lái)的技能,到底能在現(xiàn)實(shí)世界中用上幾回?
像是狠狠從背后踹它一腳,讓它倒地后再爬起來(lái);讓兩個(gè)機(jī)器人斗毆在地上瘋狂摩擦;又或者是在十幾米的高臺(tái)不停地跳高高……有事嗎???
這么對(duì)待重金打造的機(jī)器人,先不說(shuō)畫(huà)面“不忍直視”,修理?yè)p耗難道不要錢的嗎?
后來(lái)我明白了,這跟目前的技術(shù)路徑有關(guān)。深度學(xué)習(xí)就是要進(jìn)行大量的實(shí)踐和訓(xùn)練,才能不斷優(yōu)化算法,直至機(jī)器人能夠應(yīng)對(duì)真實(shí)世界中各種各樣的狀況。
理論上講,只要時(shí)間足夠長(zhǎng)、預(yù)算無(wú)上限,猴子也能用電腦寫出文學(xué)著作,更何況是算力逆天的機(jī)器。
但,這跟我們普通人又有什么關(guān)系呢?我們能否在有生之年用上(而且買得起)可靠解決問(wèn)題的機(jī)器小助手呢?一萬(wàn)年太久,我們只爭(zhēng)朝夕好嗎?
最近,伯克利和谷歌大腦最新開(kāi)發(fā)的強(qiáng)化學(xué)習(xí)算法——soft actor-critic(SAC),據(jù)說(shuō)就現(xiàn)實(shí)世界的機(jī)器人學(xué)習(xí),或許,有望改變一下訓(xùn)練機(jī)器人的古早思維。
今天我們就來(lái)聊聊,SAC會(huì)如何改變機(jī)器人的“成材之路”?
為什么想要一個(gè)rio的機(jī)器人,這么難?
在介紹SAC這個(gè)新算法之前,有必要先解釋一下,是不是一定要有更好的機(jī)器人算法呢?或者說(shuō),這個(gè)算法到底能夠改變什么?
這要從機(jī)器人在現(xiàn)實(shí)世界中遇到的挑戰(zhàn)來(lái)解答。
首先,是目前的訓(xùn)練方式,決定了機(jī)器掌握新技能的速度還遠(yuǎn)遠(yuǎn)不夠。
傳統(tǒng)的機(jī)器學(xué)習(xí)算法,每次執(zhí)行新任務(wù)時(shí),都需要對(duì)原型設(shè)計(jì)進(jìn)行參數(shù)調(diào)整,有的還需要重新收集數(shù)據(jù)進(jìn)行訓(xùn)練,這就使得機(jī)器新技能所需的總時(shí)間迅速增加;
其次,現(xiàn)實(shí)場(chǎng)景中的無(wú)數(shù)意外,都有可能讓機(jī)器出現(xiàn)故障。
真正在使用機(jī)器時(shí),無(wú)論出現(xiàn)什么問(wèn)題,比如斷電或者網(wǎng)絡(luò)延遲,機(jī)器都會(huì)以“死機(jī)”來(lái)應(yīng)對(duì)危機(jī)。如果每次都要以“重啟”來(lái)恢復(fù)作業(yè),那應(yīng)用機(jī)器人的價(jià)值何在?
以上都是效率問(wèn)題,傳統(tǒng)訓(xùn)練方式帶來(lái)的成本困境,更是令研究人員愁到禿頭。
無(wú)論是訓(xùn)練人員人為制造bug的暴力操作,還是執(zhí)行器在種種復(fù)雜環(huán)境下的高頻抖動(dòng),都會(huì)給硬件帶來(lái)極大的磨損。這是機(jī)器人嗎?這是鈔票粉碎機(jī)??!
當(dāng)然,人類也不是沒(méi)有想過(guò)辦法。比如讓機(jī)器人打游戲啦,設(shè)計(jì)仿真環(huán)境啦,這些努力都大大減少了對(duì)現(xiàn)實(shí)訓(xùn)練的依賴,但歸根結(jié)底,都無(wú)法替代現(xiàn)實(shí)環(huán)境的多樣性和隨機(jī)性。最重要的,還是得打造一套專為現(xiàn)實(shí)世界機(jī)器人“量身定制”的算法。
真實(shí)世界的機(jī)器人,到底需要怎樣的算法?
那么,這樣一套算法應(yīng)該具備哪些屬性呢?
至少需要有這樣幾個(gè)關(guān)鍵要素:
1.良好樣本復(fù)雜性。提供給算法的訓(xùn)練樣本數(shù)量越多,機(jī)器獲得數(shù)據(jù)標(biāo)簽的時(shí)間成本也就越低,返回的誤差也更小,在強(qiáng)化學(xué)習(xí)中的表現(xiàn)自然也就越出色;
2.沒(méi)有敏感的超參數(shù)。為了提高機(jī)器學(xué)習(xí)的性能和效果,往往需要對(duì)超參數(shù)進(jìn)行優(yōu)化,但在現(xiàn)實(shí)環(huán)境中,自然是參數(shù)調(diào)整越少越好。算法就需要最大限度地減少調(diào)整超參數(shù)的需求;
3.異步采樣。真實(shí)世界中,難免會(huì)出現(xiàn)數(shù)據(jù)流終端、推理延遲等問(wèn)題,要讓機(jī)器在“重啟”階段也能夠保持一定的持續(xù)性和穩(wěn)定性,就必須將數(shù)據(jù)的收集和訓(xùn)練在確保在最小化的多個(gè)獨(dú)立線程中進(jìn)行。
4.動(dòng)作平滑。為了防止大幅度動(dòng)作或震動(dòng)損壞硬件,因此,時(shí)間上具有關(guān)聯(lián)和連貫性的探索就變得尤為重要了。
簡(jiǎn)單總結(jié)一下,如果我們相信未來(lái)真實(shí)世界中的機(jī)器人不可或缺,那么,要求它用無(wú)限長(zhǎng)的時(shí)間、無(wú)限多的投入、無(wú)數(shù)次的碰壁去掌握這樣那樣的本領(lǐng),顯然不太明智。
如何讓它自己進(jìn)行有取舍、有現(xiàn)實(shí)意義的訓(xùn)練呢?SAC應(yīng)聲出現(xiàn)。
SAC成功的秘訣,就是心大
說(shuō)了這么多,正主終于出現(xiàn)了。那么。究竟什么是SAC?
SAC,全稱是Soft actor-critic。從名字不難看出,SAC也是基于Actor-Critic算法的邏輯,即actor(玩家)隨機(jī)表演,critic(評(píng)委)隨機(jī)打分,互相制衡下追求更好的表現(xiàn)(reward)。
不同的是,SAC對(duì)參數(shù)的態(tài)度十分“溫柔”,它會(huì)自動(dòng)權(quán)衡預(yù)期收益(最大化回報(bào))和探索深度(最大化的不確定性),然后自動(dòng)學(xué)習(xí)不是將其視為需要調(diào)整的“超參數(shù)”,從而獲得最優(yōu)策略。
這樣帶來(lái)的好處是,訓(xùn)練樣本多樣,還不需要頻繁調(diào)整參數(shù),學(xué)習(xí)效率高了很多。即使遇到最差的實(shí)驗(yàn)環(huán)境,也表現(xiàn)良好。
這就像是以前機(jī)器需要在人類親媽的“呵護(hù)”之下,點(diǎn)燈熬夜窮經(jīng)皓首地做奧數(shù)題,以期成為“數(shù)學(xué)神童”。如今學(xué)會(huì)了勞逸結(jié)合奮發(fā)圖強(qiáng),拿下高考高分就一本滿足了。顯然,后者才是大多數(shù)普通機(jī)器的榜樣和人類家長(zhǎng)應(yīng)該有的期待嘛。
具體表現(xiàn)如何,有請(qǐng)來(lái)自“伯克利小學(xué)”的三位機(jī)器人同學(xué)現(xiàn)身說(shuō)法:
第一個(gè)向我們走來(lái)的是Minitaur,一個(gè)帶有八個(gè)驅(qū)動(dòng)執(zhí)行器的小型四足機(jī)器人。在前進(jìn)時(shí),往往借助控制器追蹤四肢的擺動(dòng)部位,觀察好各種角度以平衡腿上的力度。如果沒(méi)有有效的訓(xùn)練策略,很容易失去平衡而摔倒,摔多了鋼筋鐵骨也會(huì)壞的啊。
不過(guò),在掌握了新的學(xué)習(xí)方法之后,由于訓(xùn)練時(shí)將數(shù)據(jù)的不確定性最大化,Minitaur不需要任何額外的學(xué)習(xí),就可以駕馭絕大對(duì)數(shù)平衡性的干擾。
第二位是非常靈活的“三指手”同學(xué),它的任務(wù)是用手旋轉(zhuǎn)“閥門”,使彩色掛鉤朝右。但閥門上安裝了一個(gè)小型電機(jī),受力會(huì)自動(dòng)復(fù)位。因此,每轉(zhuǎn)一次,閥門的初始位置都會(huì)被隨機(jī)重置,使得機(jī)器必須重新感知當(dāng)前的閥門方向。這個(gè)任務(wù)需要感知預(yù)測(cè),并精準(zhǔn)地控制9個(gè)伺服電機(jī)關(guān)鍵來(lái)完成,非常具有挑戰(zhàn)性,但我們的“三指手”依然順利完成了任務(wù)。
最后一位機(jī)器人同學(xué)雖然在玩樂(lè)高,但并沒(méi)有從中得到多少樂(lè)趣。因?yàn)橛?xùn)練者要求它在堆疊積木的時(shí)候準(zhǔn)確地對(duì)準(zhǔn)螺柱以減少摩擦。
除了需要確定關(guān)節(jié)的位置和速度之外,還需要保證末端的力度,并且將復(fù)雜命令同時(shí)傳送給7個(gè)關(guān)節(jié)。這和要求人類小孩“百步穿楊”有差別嗎?
不過(guò),掌握了SAC大法的機(jī)器并沒(méi)有讓人失望,只用3個(gè)小時(shí)就學(xué)會(huì)了如何搞定這個(gè)任務(wù)。而以往使用的PPO策略用了7.4小時(shí)才搞定。SAC是不是很棒棒?
在論文中,研究人員給SAC用了一個(gè)高調(diào)的定語(yǔ):“state-of-the-art”(最先進(jìn)的),可以說(shuō)是實(shí)至名歸了。
當(dāng)然了,上述還都只是些比較概念化的實(shí)驗(yàn),真正要將這種能力擴(kuò)展到更具挑戰(zhàn)性的現(xiàn)實(shí)任務(wù)中,還需要大量的優(yōu)化迭代、開(kāi)發(fā)編碼調(diào)參等工作,不過(guò)可以預(yù)測(cè)的是,由于SAC的出現(xiàn),機(jī)器人正在無(wú)限近地接近概念到實(shí)用的臨界點(diǎn)。
有了這個(gè)最佳引路人,機(jī)器人終于可以少受點(diǎn)“虐待”,真正滲透進(jìn)生活的細(xì)節(jié)了。
免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
- DeepSeek詳解量化交易內(nèi)幕,股民看了心驚肉跳
- 信創(chuàng)算力關(guān)鍵年的三個(gè)趨勢(shì)與最佳選擇
- 暴跌3萬(wàn)億!中國(guó)AI技術(shù)崛起,嚇壞了美國(guó)AI芯片龍頭
- 微信又“爆改”:微信朋友圈實(shí)況照片不再默認(rèn)播放,你滿意嗎?
- 2024年全球智能手機(jī)市場(chǎng)復(fù)蘇:蘋果引領(lǐng),三星和小米緊隨其后
- AI搜索爆了,小紅書(shū)、百度都急了
- 在小紅書(shū)冒充TikTok難民的殺豬盤,被反詐中心盯上了
- 雙面劉雯:靠“正義”引流,割韭菜發(fā)財(cái)
- TikTok美國(guó)熬過(guò)生死局,玩家多平臺(tái)布局避險(xiǎn)
- 輸血、輸血、輸血!微創(chuàng)機(jī)器人終于學(xué)會(huì)了造血?
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。