Google X教你用模擬器訓練機器人，準確率超93%，ICRA2021已發(fā)表

2025China.cn 2021年06月15日

　　前言：機器人的訓練相比自然語言處理、視覺等領域來說更加困難，因為需要實際搭建一個環(huán)境，更多的時間來試錯。而使用模擬器來模擬機器人，訓練出來的模型想要直接應用到真實環(huán)境之間還需要消除他們之間的gap。

　　機器人研究中的強化和模仿學習方法可以實現(xiàn)自主環(huán)境導航和高效的目標操作，這反過來又為實際應用開辟了廣闊的前景。

　　先前的工作已經(jīng)展示了使用深層神經(jīng)網(wǎng)絡進行端到端學習的機器人是如何通過理解相機的觀察來采取行動和解決任務，從而可靠和安全地與我們周圍的非結構化世界進行互動的。

　　然而，端到端的學習方法雖然可以對復雜的機器人操作任務進行概括和規(guī)?；撬鼈冃枰汕先f個真實世界的機器人訓練片段，這是很難獲得的。

　　人們可以嘗試通過模擬實際運行環(huán)境來緩解這種限制(即不需要真正地搭建一個機器人)，從而使虛擬機器人能夠在更大規(guī)模的數(shù)據(jù)上更快地學習，但是模擬無法與真實世界完全匹配，自然而然地，模擬于現(xiàn)實之間存在一個gap，這也是成為了機器人研究中的新挑戰(zhàn)。

　　造成這種差距的一個重要原因是模擬中呈現(xiàn)的圖像與真實的機器人攝像機觀測值之間的差異，這導致機器人在現(xiàn)實世界中表現(xiàn)不佳。

　　到目前為止，用于彌補這種差距的工作采用了一種叫做像素級域適應(pixel-level domain adaptation)的技術，這種技術將合成圖像轉換成像素級的真實圖像。

　　一個經(jīng)典的模型是 GraspGAN，它使用了一個生成式對抗網(wǎng)絡(GAN) 用來生成圖像，可以為每個領域的特定數(shù)據(jù)集的模擬圖像和真實圖像之間的轉換建模。

　　這些偽裝成真實的圖像(GAN生成的)糾正了一些與真實圖像相似的缺陷，因此通過模擬學習的策略在真實機器人身上能夠顯著提升效果，縮小模擬到真實之間的差距。

　　然而，它們用于模擬到實際傳輸數(shù)據(jù)時還有一個限制，由于 GANs 是在像素級上傳輸圖像，機器人任務學習所必需的多像素特征或結構可能被任意修改甚至刪除。

　　為了解決上述問題，X與Everyday Robot Project項目合作，引入了 RL-CycleGAN 和 RetinaGAN 兩個新模型，它們訓練了機器人特定一致性的 GANs，使它們不會隨意修改機器人任務學習所需的視覺特征，從而彌合了模擬和真實之間的視覺差異。

　　X，以前也稱為Google X及Research at Google，是一個由谷歌公司運行的秘密實驗室，位于加利福尼亞州舊金山灣區(qū)某處，實驗室的工作由谷歌公司聯(lián)合創(chuàng)始人之一謝爾蓋·布林督導。

　　論文中還展示了這些一致性如何保留了對策略學習至關重要的特征，消除了手工設計、也無需針對不同任務進行調(diào)整，能夠允許機器人在類似于真實環(huán)境中訓練，這種方法能夠在不同任務、領域和學習算法之間都取得不錯的效果。

　　RL-CycleGAN

　　在RL-CycleGAN模型中，主要關注如何從sim-to-real的遷移，并展示了如何利用強化學習訓練得到的一個抓取模型取得了sota性能。

　　RL-CycleGAN利用 CycleGAN 的一個變體來進行模擬到真實的適應，確保真實圖像和模擬圖像之間任務相關特征的一致性。

　　CycleGAN通過確保修改后的圖像能夠恢復到原始區(qū)域與原始圖像完全相同來保持圖像內(nèi)容，這就是所謂的循環(huán)一致性。

　　為了進一步鼓勵改編后的圖像對機器人有用，CycleGAN與一個強化學習機器人代理人聯(lián)合訓練，以確保機器人的行動在GAN-adaption之后是相同的。

　　也就是說，任務特定的特征，如機器人手臂或可識別的物體位置是不變的，但是 GAN 仍然可以改變光照或者不影響任務級別決策的域之間的紋理差異。

　　評價 RL-CycleGAN 在機器人不分無差別(indiscriminate)的抓取任務中的表現(xiàn)，經(jīng)過580,000次與RL-CycleGAN 相適應的實際試驗和模擬訓練，該機器人抓取物體的成功率達到94% ，超過了現(xiàn)有最先進的模擬實際方法 GraspGAN 的89% 成功率和未經(jīng)模擬使用實際數(shù)據(jù)的87% 成功率。

　　僅有28,000個試驗，rl-cyclegg 方法達到了86% ，與之前的基線數(shù)據(jù)20倍相當。

　　RetinaGAN

　　在RetinaGAN中，擴展了之前的工作，將模仿學習應用在在一個開門(door opening)的任務中。

　　雖然 RL-CycleGAN 能夠十分可靠地利用任務感知，利用強化學習將各個領域的任務仿真轉換為真實，一個自然而然的問題出現(xiàn)了: 我們能否開發(fā)一種更加靈活的仿真轉換技術，廣泛應用于不同的任務和機器人學習技術?

　　在 ICRA 2021會議上提出的 RetinaGAN，一種對象感知的 Sim-to-Real 傳輸方法中，提出了一種任務解耦、算法解耦的 GAN 方法來實現(xiàn)sim-to-real傳輸，而不是關注機器人對物體的感知。

　　RetinaGAN 通過感知一致性，增強對對象語義感知，通過目標檢測預測所有圖像中所有對象的包圍盒位置。

　　在一個理想的近似真實模型中，我們期望對象檢測器能夠預測 GAN 轉換前后相同的盒子位置，因為對象不會發(fā)生結構性變化。

　　通過反向傳播的方法，RetinaGAN 被訓練成這樣一種理想狀態(tài): 當 a)模擬圖像從模擬轉換為真實圖像，然后再轉換回模擬圖像，b)當真實圖像從真實圖像轉換為模擬圖像，然后再轉換回真實圖像時，對物體的感知具有一致性。我們發(fā)現(xiàn)這種基于對象的一致性比 RL-CycleGAN 所要求的任務特定的一致性更廣泛地適用。

　　評估 RetinaGAN 在真實機器人上的應用為了建立一個更加靈活的模擬真實傳輸技術，我們以多種方式評估 RetinaGAN，以了解它在哪些任務和什么條件下能夠實現(xiàn)模擬真實傳輸。

　　我們首先將 RetinaGAN 應用于抓取任務，RetinaGAN 更注重強調(diào)了真實的物體紋理、陰影和光照的轉換，同時保持了可感知物體的視覺質(zhì)量和顯著性。

　　將事先訓練好的 RetinaGAN 模型與分布式強化學習方法 Q2-Opt 結合起來，訓練一個基于視覺的任務模型，用于實例抓取。

　　在真實機器人上，經(jīng)過10萬次訓練后，該策略能夠成功地抓住目標實例，成功率達到80% ーー優(yōu)于先前的適應方法 RL-CycleGAN 和 CycleGAN (兩者均達到68%)和無領域適應的訓練(灰條下: sim 數(shù)據(jù)為19% ，real數(shù)據(jù)為22% ，混合數(shù)據(jù)為54%)。這給了我們信心，感知一致性是一個有價值的策略模擬到真實的轉移。此外，僅有10,000次訓練(8% 的數(shù)據(jù)) ，RetinaGAN 的 RL 策略成功率達到66% ，與之前的方法相比，數(shù)據(jù)顯著減少。

　　接下來，我們將 RetinaGAN 與一種不同的學習方法，行為克隆(behavioral cloning) 結合起來：打開會議室的大門，讓操作人員進行演示。

　　利用模擬和真實演示的圖像，我們訓練 RetinaGAN 將合成圖像轉換為逼真的圖像，從而縮小模擬與真實之間的差距。

　　然后我們訓練了一個行為克隆模型來模擬人類操作者在真實的和 retinagan 適應的模擬演示中的任務解決行為。當通過預測要采取的行動來評估這個模型時，機器人93% 的時間進入真正的會議室，超過了75% 以下的基線。

　　這項工作已經(jīng)證明了局域網(wǎng)上的額外約束可以解決視覺模擬實際差距，而不需要特定任務的調(diào)整，這些方法達到較高的實際機器人成功率與較少的數(shù)據(jù)收集。Rl-CycleGAN 將合成圖像轉換為真實的圖像，這種轉換具有自動保留任務相關特性的 rl 一致性損失。

　　RetinaGAN 是一種對象感知的類真實適應技術，它可以在不同的環(huán)境和任務之間進行有效的適應，不依賴于任務學習方法。由于 RetinaGAN 沒有受過任何特定任務知識的訓練，因此我們展示了如何在新的物體推送任務中重用它。我們希望這項工作能夠進一步推廣到解決非結構化環(huán)境中與任務無關的機器人操作問題。

　　參考資料：https://ai.googleblog.com/2021/06/toward-generalized-sim-to-real-transfer.html

（轉載）

標簽：機器人

我要反饋