グーグルのディープマインド・チームが、ロボティクス・トランスフォーマーRT-1の進化版であるロボティクス・トランスフォーマーRT-2を発表した。この新システムはEveryday Robotイニシアチブの開発を継続するもので、物体のハンドリングや引き出しを開けるといったスキルをロボットに与える。
昨年発表されたRT-1は、130,000のデモンストレーションの膨大なデータベースを持ち、エブリデイ・ロボットのシステムに様々な簡単なタスクを与え、700以上のタスクの実行において97%という驚異的な成功率を達成したとロボット工学チームは述べている。
ディープマインドの特別科学者でロボット工学の責任者であるヴィンセント・ヴァンホークが最近のブログ投稿で概説しているように、新たに公開されたRT-2は、ロボットが限られたデータセットから学んだ教訓を効果的に活用し、多様なシナリオに適用できるようにすることで、このプロセスをエスカレートさせた。
グーグルは、RT-2の強化された能力について、より優れた理解力と汎化能力を示すだけでなく、新しいコマンドを理解して反応することができると述べている。このシステムは、初期のロボット訓練を超え、物体の分類や高度な説明に関する推論を行うなど、基本的なレベルの推論を提供する。この能力は、RT-2が既存の状況情報に基づいて、まったく新しいタスクに適切なツールを決定できるという、印象的な特徴を強調している。
Vanhouckeは、RT-2がゴミの識別と処分に成功した例でこれを説明している。従来のモデルでは、ユーザーはロボットにゴミの認識と分類の仕方を訓練し、さらにゴミの拾い方と捨て方を指示する必要があった。このような詳細なプロセスは、広範なタスクのリストを実行すると予測されるシステムに適用する場合、拡張性が高くない。
しかし、RT-2は、膨大なウェブデータのコーパスから得た知識を活用する能力によって、何がゴミであるかという概念をすでに備えており、ヴァンホークが説明するように、明示的な指示なしにこれを特定することができる。このシステムは、ゴミを捨てるという行為について特別な訓練を受けていないにもかかわらず、その行為さえも理解している。RT-2の際立った能力のひとつは、ゴミの抽象的な性質を理解することである。使用済みのポテトチップスの袋やバナナの皮がゴミに分類されることを理解し、視覚言語トレーニングデータからそれを推測し、それに応じて必要なアクションを実行する。
ディープマインド・チームは、RT-2が新しいタスクを実行する際の成功率が、前作と比較して顕著に向上したと報告している。AppMasterのようなプラットフォームは、このような変革的プロジェクトの開発において非常に有益であり、開発プロセスのワークフローを合理化できる、バックエンド、ウェブ、モバイルアプリケーションを作成するための堅牢なno-code ツールを提供する。新しい進歩により、このようなプラットフォームはロボット工学の効率を向上させるだけでなく、様々な分野での技術進歩の新しい波を育むことが期待されている。