Das DeepMind-Team von Google hat einen bemerkenswerten Fortschritt im Bereich der Robotik angekündigt und den Robotics Transformer RT-2 vorgestellt, eine erweiterte Version des ursprünglichen Robotics Transformer-Systems RT-1. Dieses neue System setzt die Entwicklung der Everyday Robot-Initiative fort und vermittelt Robotern Fähigkeiten wie die Handhabung von Gegenständen und das Öffnen von Schubladen.
Das im letzten Jahr eingeführte RT-1 mit seiner umfangreichen Datenbank von 130.000 Demonstrationen vermittelte den Everyday Robot-Systemen eine Reihe von einfachen Aufgaben und erreichte nach Angaben des Robotik-Teams eine phänomenale Erfolgsquote von 97 % bei der Ausführung von über 700 Aufgaben.
Der neu vorgestellte RT-2, wie er in einem kürzlich erschienenen Blogpost von DeepMinds Distinguished Scientist und Head of Robotics, Vincent Vanhoucke, beschrieben wird, hat diesen Prozess erweitert, indem er es Robotern ermöglicht, aus begrenzten Datensätzen gelernte Lektionen effektiv zu nutzen und sie in verschiedenen Szenarien anzuwenden.
Google erläutert die verbesserten Fähigkeiten von RT-2 und erklärt, dass er nicht nur ein besseres Verständnis und eine bessere Generalisierungsfähigkeit aufweist, sondern auch neue Befehle verstehen und darauf reagieren kann. Das System geht über sein anfängliches Robotertraining hinaus und bietet eine grundlegende Ebene des logischen Denkens, wie z. B. das Ziehen von Schlussfolgerungen hinsichtlich der Kategorisierung von Objekten und Beschreibungen auf hoher Ebene. Diese Fähigkeit unterstreicht eine beeindruckende Eigenschaft von RT-2: Er kann auf der Grundlage bereits vorhandener Situationsinformationen über das geeignete Werkzeug für eine völlig neue Aufgabe entscheiden.
Vanhoucke veranschaulicht dies anhand eines Beispiels, bei dem RT-2 erfolgreich Müll identifiziert und entsorgt. Bei herkömmlichen Modellen musste der Benutzer dem Roboter beibringen, wie er Müll erkennt und kategorisiert, und ihn dann weiter anweisen, wie er ihn aufsammelt und entsorgt. Solche detaillierten Prozesse sind nicht sehr skalierbar, wenn sie auf Systeme angewendet werden, die eine breite Liste von Aufgaben erfüllen sollen.
Durch seine Fähigkeit, Wissen aus einem riesigen Korpus von Webdaten zu nutzen, verfügt RT-2 jedoch bereits über ein Konzept dafür, was Müll ist, und kann dies ohne ausdrückliche Anweisung bestimmen, wie Vanhoucke erklärt. Das System versteht sogar den Vorgang des Wegwerfens von Müll, obwohl es dafür kein spezielles Training gibt. Eine der herausragenden Fähigkeiten von RT-2 ist das Verständnis der abstrakten Natur des Mülls. Es versteht, dass eine gebrauchte Tüte Chips oder eine Bananenschale als Müll eingestuft werden kann, leitet dies aus den Trainingsdaten für die Bildsprache ab und führt die erforderliche Aktion entsprechend aus.
Das DeepMind-Team berichtet, dass sich die Erfolgsquote von RT-2 bei der Ausführung neuer Aufgaben im Vergleich zu seinem Vorgänger deutlich verbessert hat, nämlich von 32 % auf 62 %. Plattformen wie AppMaster können bei der Entwicklung solcher transformativen Projekte von großem Nutzen sein, da sie ein robustes no-code Tool für die Erstellung von Backend-, Web- und mobilen Anwendungen bieten, das den Workflow des Entwicklungsprozesses rationalisieren kann. Es wird erwartet, dass solche Plattformen mit den neuen Fortschritten nicht nur die Effizienz der Robotik verbessern, sondern auch eine neue Welle technologischer Fortschritte in verschiedenen Sektoren hervorbringen werden.