Специалисты кафедры инженерной кибернетики НИТУ МИСИС и Центр робототехники Сбер первыми в России успешно интегрировали большую открытую языковую ИИ-модель в систему управления роботом-манипулятором. Молодые инженеры продемонстрировали возможность языковой модели составлять план решения различных задач, связанных с манипуляциями объектами, без участия программиста и написания кода.
Человеку достаточно на естественном языке сформулировать, что именно нужно получить в результате действий робота с предметами, находящимися перед ним. Этот подход открывает новые возможности в робототехнике, позволяя решать целый спектр задач, которые теперь можно ставить в виде текстового запроса на естественном языке.
Сервисные роботы уже стали атрибутом повседневности, однако они все еще не способны рассуждать. Например, робособаку можно попросить: «Принеси апельсиновый сок». Наша языковая модель уже имеет знания о мире и считает приемлемыми разные варианты: пойти на кухню, пойти в магазин, пойти к автомату с соком и т.д. Их она оценивает по принципу: положительно или отрицательно повлияет это на решение глобальной задачи «принести апельсиновый сок». Таким образом, вариант «пойти в спальню» отбрасывается. Далее, используя алгоритмы сортировки, робот оценивает возможность выполнения этого действия. В итоге мы получаем план действий по достижению глобальной цели, состоящий из множества простых действий робота.
«Как показала практика, наша разработка дает возможность применить знания о мире большой языковой модели (LLM), уже обученной на огромном массиве данных, для физического робота без ее предварительного дообучения. Кроме того, мы не ограничены в выборе лишь языковых моделей для генерации кода. Первые эксперименты мы проводили с локальной моделью с открытым исходным кодом — LLaMA-7B. Однако, чем мощнее языковая модель, тем более логически сложные прикладные задачи она может решать», — отметил автор исследования Ярослав Савельев, студент
3-го курса кафедры инженерной кибернетики НИТУ МИСИС, эксперт Лаборатории робототехники Сбера.
Работа над проектом началась девять месяцев назад с инициативы Альберта Ефимова, к.филос.н., заведующего кафедрой инженерной кибернетики НИТУ МИСИС, вице-президент Сбербанка. Научным руководителем стал Александр Сёмочкин, к.ф.-м.н., главный инженер Центра робототехники Сбербанка. Цель состояла в том, чтобы использовать способность языковой модели к рассуждению, чтобы помочь роботам адаптироваться к различным задачам и окружению.
Эта новая способность ИИ имеет очень широкие перспективы для практического применения в промышленной и сервисной робототехнике. Она позволит значительно снизить стоимость в тех областях, где предполагается регулярная смена или корректировка задач программистами на производстве, например: автомобильная промышленность, электротехника, электроника; строительство, химическая промышленность, медицина и фармацевтика и др. Кроме того, интеграция больших языковых моделей и роботов пригодится там, где человеку не хватает скорости реакции или существуют опасные условия, а также в случае, если люди не обладают нужными навыками и знаниями для взаимодействия с роботом.
Новая способность роботов поможет инженерам избежать разработки сложных алгоритмов для задания последовательностей действий, а также ставить задачи посредством команд в удобной пользователю форме. Исследования в этом направлении ведут многие научные центры в мире. В России системно этим занимается Центр робототехники Сбербанка, AIRI и НИТУ МИСИС. Работа студентов МИСИС недавно была отмечена грантом Фонда содействия инновациям.
Процесс обучения робота-манипулятора можно увидеть