L'équipe DeepMind de Google a annoncé une progression remarquable dans le domaine de la robotique en présentant Robotics Transformer RT-2, une version avancée de leur système initial Robotics Transformer, RT-1. Ce nouveau système poursuit le développement de l'initiative Everyday Robot, en transmettant aux robots des compétences telles que la manipulation d'objets et l'ouverture de tiroirs.
Lancé l'année dernière, le RT-1, avec sa vaste base de données de 130 000 démonstrations, a transmis une série de tâches simples aux systèmes Everyday Robot, atteignant un taux de réussite phénoménal de 97 % dans l'exécution de plus de 700 tâches, selon l'équipe de robotique.
Le nouveau RT-2, comme le souligne Vincent Vanhoucke, chercheur émérite et responsable de la robotique chez DeepMind, dans un récent billet de blog, a accéléré ce processus en permettant aux robots d'utiliser efficacement les leçons tirées d'ensembles de données limités et de les appliquer à divers scénarios.
Google explique les capacités améliorées du RT-2 en précisant qu'il fait preuve non seulement d'une meilleure compréhension et d'une meilleure capacité de généralisation, mais qu'il peut également comprendre et réagir à de nouvelles commandes. Le système va au-delà de sa formation robotique initiale et offre un niveau de raisonnement de base, tel que la déduction de catégories d'objets et de descriptions de haut niveau. Cette capacité souligne une caractéristique impressionnante de RT-2 : il peut décider de l'outil approprié pour une tâche totalement nouvelle, sur la base d'informations situationnelles préexistantes.
Vanhoucke illustre ce point par un exemple où la RT-2 identifie et élimine avec succès des déchets. Dans les modèles traditionnels, l'utilisateur devait former le robot à la reconnaissance et à la catégorisation des déchets, puis lui donner des instructions sur la manière de les ramasser et de s'en débarrasser. Des processus aussi détaillés ne sont pas très évolutifs lorsqu'ils sont appliqués à des systèmes censés exécuter une vaste liste de tâches.
Cependant, RT-2, grâce à sa capacité à utiliser les connaissances d'un vaste corpus de données web, est déjà équipé d'un concept de ce qui constitue un déchet et peut le repérer sans directive explicite, comme l'explique Vanhoucke. Le système comprend même l'action de se débarrasser des déchets, malgré l'absence de formation spécifique sur cette action. L'une des capacités les plus remarquables de RT-2 est la compréhension de la nature abstraite des déchets. Il comprend qu'un paquet de chips usagé ou une peau de banane peuvent être considérés comme des déchets, ce qu'il déduit de ses données d'apprentissage du langage visuel, et exécute l'action requise en conséquence.
L'équipe DeepMind fait état d'une amélioration notable du taux de réussite de RT-2 lors de l'exécution de nouvelles tâches par rapport à son prédécesseur, passant de 32 % à 62 % avec cette nouvelle itération. Des plateformes telles qu'AppMaster peuvent s'avérer très utiles pour le développement de tels projets de transformation, en fournissant un outil no-code robuste pour la création d'applications dorsales, web et mobiles qui peuvent rationaliser le flux de travail du processus de développement. Avec les nouvelles avancées, ces plateformes devraient non seulement améliorer l'efficacité de la robotique, mais aussi favoriser une nouvelle vague d'avancées technologiques dans divers secteurs.