Figure 01 на базе GPT-4

Figure 01
Figure 01

В сотрудничестве с OpenAI компания Figure, специализирующаяся на робототехнике, разработала робота, который может вести полноценный разговор, планировать и выполнять свои действия.

Это достигается за счет подключения робота к мультимодальной модели, обученной OpenAI, которая понимает изображения и текст.

Подключившись к модели, робот Figure, названный «Figure 01», способен описывать свое окружение, интерпретировать повседневные ситуации и выполнять действия, основанные на неоднозначных, зависящих от контекста запросах.

Все действия, показанные на видео, заучены, не управляются дистанционно и выполняются на нормальной скорости:

Кори Линч, инженер по робототехнике и искусственному интеллекту компании Figure, очень рад этому прогрессу: «Еще несколько лет назад я бы подумал, что полноценный разговор с роботом-гуманоидом в тот момент, пока он планирует и выполняет свои собственные дела, — это то, чего нам придется ждать десятилетиями. Очевидно, что многое изменилось».

Подобные исследования в области робототехники уже были продемонстрированы компанией Google с ее RT-моделями, которые позволяют роботу ориентироваться в повседневной среде, планировать и выполнять сложные действия на основе ввода и вывода языковых и образных моделей. Но демонстрационные роботы Google не были такими уж болтливыми.

Робот, который слушает, планирует, думает, рассуждает и действует

Линч подробно описывает возможности робота. К ним относятся описание визуальных впечатлений, планирование будущих действий, размышление над своими воспоминаниями и словесное объяснение выводов, которые приводят к действиям.

Figure 01
Figure 01

Для этого мультимодальная модель OpenAI обрабатывает всю историю разговора, включая прошлые изображения, и генерирует речевые ответы, на которые может отреагировать человек. Эта же модель решает, какое выученное поведение робот должен выполнить для выполнения той или иной команды.

Например, робот может правильно ответить на вопрос «Можешь положить это сюда?», обратившись к предыдущим частям разговора, чтобы определить, что подразумевается под словами «это» и «положить это сюда». В одном из примеров робот понимает, что посуду, которая лежит рядом, нужно положить в посудомоечную машину, чего я сам не мог понять, пока мне не перевалило за 40.

Действиями робота управляют так называемые визомоторные трансформаторы, которые преобразуют изображения непосредственно в действия. Они обрабатывают изображения с камер робота с частотой 10 Гц и генерируют действия с 24 степенями свободы (положения запястья и углы наклона пальцев) с частотой 200 Гц.

Коротко о Figure 01

В сотрудничестве с OpenAI робототехническая компания Figure AI разработала робота под названием «Figure 01», который может вести сложные разговоры, планировать и выполнять самостоятельные действия благодаря мультимодальной модели, обученной OpenAI, которая интерпретирует изображения и текст.

Робот может описывать свои визуальные впечатления, планировать будущие действия, размышлять над своими воспоминаниями и устно объяснять свои выводы. Мультимодальная модель OpenAI обрабатывает всю историю разговора, включая прошлые изображения, чтобы сгенерировать вербальные ответы и решить, какое заученное поведение робот должен выполнить.

Робот может получить доступ ко всей истории разговора и проанализировать ее, чтобы ответить на сложные запросы. Например, он может правильно ответить на вопрос «Можешь положить это сюда?», обратившись к предыдущим частям разговора и поняв, что означают слова «это» и «там».

Figure AI