Новий ШІ дозволяє робопсам без довгого навчання долати будь-які перешкоди

Дослідники зі Стенфордського університету та Шанхайського інституту Ці Чжі розробили новий алгоритм, заснований на комп’ютерному зорі, який дозволяє робопсам справлятися з різними перешкодами без детального опрацювання проходження кожного з них. На основі лише візуальних даних, розуміння власних можливостей та накопиченого досвіду робопси самостійно вирішували, як їм проходити перешкоди, і досягли в цьому приголомшливих результатів.
Ключовим досягненням є те, що експериментальні робопси стали автономними у прийнятті рішень — вони самі оцінювали перешкоди на своєму шляху, співвідносили його з межами своєї спритності та обирали шлях вирішення проблеми. Для цього вчені об’єднали сприйняття та контроль, використовуючи дані з камери глибини, встановленої на роботі, та машинне навчання для обробки отриманої інформації та управління рухом ніг. Це не перші роботи-собаки, які демонструють таку спритність, але вони вперше поєднують самодостатність із широким набором навичок.
Існуючі методи навчання роботів-собак ґрунтуються на складних системах винагороди, які необхідно налаштовувати для кожної конкретної фізичної перешкоди. А отже, ці методи погано адаптуються до нових чи незнайомих середовищ. Інші підходи намагаються вивчати роботів, імітуючи навички спритності інших тварин на основі реальних даних. Однак такі роботи-собаки не мають широкого набору навичок та зв’язку їх вироблення із зором. Крім того, обидва методи навчання характеризуються низькою швидкістю обробки інформації.
Вчені створили першу програму з відкритим вихідним кодом, яка навчає робопсів за допомогою простої системи винагород. Дослідники спочатку синтезували та відточили алгоритм за допомогою комп’ютерної моделі, а потім перенесли його на двох реальних робопсів. Під час навчання з підкріпленням, роботи намагалися рухатися вперед у будь-який зручний для них спосіб і отримували винагороду в залежності від того, наскільки добре вони справлялися. Саме так алгоритм зрештою дізнається, як найкраще підійти до нового завдання.
Насправді більшість систем винагороди з допомогою навчання з підкріпленням включають дуже багато змінних, що уповільнює обчислювальну продуктивність. У цьому полягає перевага нового спрощеного процесу винагороди для робопсов. Вчені ґрунтувалися на тому, наскільки далеко вперед зміг просунутися робот і скільки зусиль він доклав для цього. Згодом робот освоює складніші рухові навички, які дозволяють йому просуватися все далі.
Команда провела експерименти з реальними роботами-собаками, щоб продемонструвати свій новий підхід до гнучкості та маневреності у складних умовах, використовуючи стандартні комп’ютери та візуальні дані. Покращені робопси подолали перешкоди, що перевищують їх висоту більш ніж у 1,5 рази, перестрибували умовні провали, довжина яких перевищувала їх довжину також більш ніж у 1,5 рази, повзали під бар’єрами, висота яких була у три чверті їхньої висоти, та нахилялися, щоб прослизнути в щілину, яка була вже їх шириною.
Вчені сподіваються використовувати досягнення в галузі 3D-бачення та графіки для додавання реальних даних у моделювані середовища, щоб вивести свій алгоритм на новий рівень автономності.

