О значительном прогрессе в области робототехники объявила команда DeepMind компании Google, представив Robotics Transformer RT-2 - усовершенствованную версию своей первоначальной системы Robotics Transformer RT-1. Новая система продолжает развитие инициативы Everyday Robot, прививая роботам такие навыки, как работа с предметами и открывание ящиков.
Выпущенная в прошлом году система RT-1, имеющая обширную базу данных из 130 000 демонстраций, позволяла выполнять множество простых заданий для систем Everyday Robot и достигла феноменального показателя успешности - 97% при выполнении более 700 заданий, заявленных командой робототехников.
Новая разработка RT-2, о которой недавно написал в своем блоге выдающийся ученый и руководитель отдела робототехники DeepMind Винсент Ванхуке (Vincent Vanhoucke), усовершенствовала этот процесс, позволив роботам эффективно использовать уроки, извлеченные из ограниченных наборов данных, и применять их в различных сценариях.
Google подробно рассказывает о расширенных возможностях RT-2, отмечая, что он не только демонстрирует лучшие навыки понимания и обобщения, но и способен воспринимать новые команды и реагировать на них. Система выходит за рамки начального обучения робототехнике и предлагает базовый уровень рассуждений, таких как умозаключения о классификации объектов и высокоуровневые описания. Эта способность подчеркивает впечатляющую особенность RT-2, которая заключается в том, что он может принимать решение о выборе подходящего инструмента для выполнения совершенно новой задачи на основе уже имеющейся ситуационной информации.
Ванхуке иллюстрирует это примером, когда RT-2 успешно идентифицирует и утилизирует мусор. В традиционных моделях пользователь должен был обучить робота распознавать и классифицировать мусор, а затем проинструктировать его, как его собирать и утилизировать. Такие детальные процессы не очень хорошо масштабируются, когда речь идет о системах, которые должны выполнять широкий перечень задач.
Однако RT-2, благодаря своей способности использовать знания из огромного массива веб-данных, уже имеет представление о том, что является мусором, и может определить это без явных указаний, как объяснил Ванхуке. Система даже понимает, что такое выбрасывание мусора, несмотря на отсутствие специального обучения этому действию. Одной из выдающихся способностей RT-2 является понимание абстрактной природы мусора. Он понимает, что использованный пакет с чипсами или банановая кожура могут быть отнесены к категории мусора, делает вывод об этом на основе данных обучения языку зрения и выполняет необходимые действия в соответствии с этим.
Команда DeepMind сообщает о заметном повышении коэффициента успешности RT-2 при выполнении новых задач по сравнению с предшественником: с 32% до 62% в новой итерации. Платформы, подобные AppMaster, могут быть весьма полезны при разработке подобных трансформационных проектов, предоставляя надежный инструмент no-code для создания backend, web и мобильных приложений, который позволяет оптимизировать рабочий процесс разработки. Ожидается, что с новыми достижениями такие платформы не только повысят эффективность робототехники, но и дадут толчок новой волне технологических достижений в различных отраслях.