Исследование и моделирование механизмов обучения и управления роботом на основе семиотической структуры представления данных и знаний

Проект выполнен при поддержке РФФИ (проект № 18-37-00498 мол_а)

Коллектив

  • Ровбо М.А.
  • Воробьев В.В.

Предложена архитектура для адаптивного управления распределенной группой роботов на основе функциональных систем и метода семантического вероятностного вывода с учетом ограничения локального взаимодействия. Предложена модификация алгоритма семантического вероятностного вывода, добавляющая в него ε-жадное исследовательское поведение, а также исследовано влияние этой модификации на эффективность и скорость обучения для задачи фуражировки. Алгоритм сравнивался с классическим алгоритмом табличного ε-жадного Q-обучения.

Описанные выше исследования проводились с помощью вычислительных экспериментов на специально разработанной симуляции многоагентной фуражировки, реализованы соответствующие методы и алгоритмы управления, средства сбора и обработки данных. Была описана схема обучения с преобразованием входных данных о среде с целью выделения наиболее значимых и сокращения пространства, на котором агент учится принимать решения. Анализируется применимость некоторых способов управления и представления знаний, в том числе на основе логического представления, для выделения таких признаков. На примере задачи фуражировки демонстрируется возможность ускорения обучения с улучшением качества работы (но асимптотическим ухудшением) при определенных представлениях входных данных. Проанализированы недостатки этого способа и предлагается возможность применения передачи опыта на основе описанной схемы обучения для их устранения.

Адаптирован программно-аппаратный комплекс мобильных роботов с локальной связью для дальнейших исследований алгоритмов.

Результаты, полученные в 2018 году

Предложена многоагентная архитектура управления для коллектива агентов (В. В. Воробьев, 2019) на основе метода семантического вероятностного вывода (Демин & Витяев, 2008), в особенности близкая к формулировке и методу, описанному в (Demin & Vityaev, 2018), однако предназначенная для управления физически распределенными группами агентов с локальной связью и организованными в статический рой (Karpov & Karpova, 2015; Виталий Владимирович Воробьев, 2017). Такая архитектура позволяет разнести систему управления на блоки, связанные между собой локальной связью агентов, что приближает архитектуру к сетевой и позволяет рассматривать каждую функциональную систему отдельных агентов как соответствующий знак в терминах семиотических сетей, ее закономерности – как личный смысл, предикаты, определяющие цель — как образ знака.

Предложена модификация метода семантического вероятностного вывода и исследовано ее поведение с определенными параметрами для задачи фуражировки (Ровбо, 2019). Модификация состоит в добавлении исследовательского поведения аналогично классическим методам обучения с подкреплением (Sutton & Barto, 2018) и проведено сравнение с методом табличного ε-жадного Q-обучения. Наблюдалось стандартное поведение последнего — наличие оптимального параметра исследования ε, при котором агент наиболее быстро обучался и сохранял большую асимптотическую эффективность, в то время как алгоритм семантического вероятностного вывода с исследовательской модификацией на заданных параметрах значительного улучшения скорости обучения не показал (Vorobiev & Rovbo, 2019), в то время как его асимптотическая эффективность уменьшилась. Скорость обучения у него не увеличилась, вероятно, по той причине, что он продемонстрировал очень быстрый выход на максимальную эффективность работы, доступную для заданных параметров.

Последнее свойство является одной из причин, по которой в статье (подана на рассмотрение) (Ровбо & Воробьев, 2019) предлагается использовать часть алгоритма семантического вероятностного вывода, которая выводит закономерности, для определения наиболее значимых входных (сенсорных) параметров для улучшения характеристик обучения другими методами, в частности, Q-обучения. В этой же статье описывается общая схема такого способа обучения и приводится анализ других методов управления агентами и представления знаний, в основном на основе логики, в применении к задаче определения значимых признаков для управления агентом. В семиотических сетях изменение структуры происходит за счет выделения новых понятий (например, описаний объектов) (Осипов, Панов, Чудова, & Кузнецова, 2017), что может служить для пополнения вектора описания наблюдений относительно текущей ситуации и последующего уменьшения этого пространства, что должно приводить к ускорению обучения. Возможность такого ускорения продемонстрирована на примере задачи фуражировки в (Ровбо & Воробьев, 2019), которое происходит с уменьшением асимптотического качества работы системы. В ней также предлагается возможное устранение этого недостатка путем применения многоагентных систем с передачей опыта, что является одной из современных областей исследования в обучении с подкреплением (Hu, Gao, & An, 2015). Таким образом, эта статья также определяет возможные дальнейшие исследования.

Все вышеописанные исследования проводились с помощью вычислительных экспериментов на специально разработанной модели для многоагентной задачи фуражировки на языке Python и соответствующими модулями управления, реализующими описываемые алгоритмы и методы. Для исследования агентов с исследуемыми алгоритмами был адаптирован комплекс роботов с локальной связью и соответствующие элементы симуляции, описываемые в (Ровбо & Воробьев, 2019).

Результаты, полученные в 2019 году

Было исследовано несколько алгоритмов для задачи передачи опыта при обучении на примере задачи фуражировки. Эти алгоритмы подходят для семиотической системы управления, чтобы облегчить передачу опыта между двумя обучающимися агентами с различными описаниями состояния в пространстве агента в форме предикатов. Они требуют, чтобы описание задачи целевого агента было подмножеством описания исходного агента. Алгоритмы основаны на алгоритме Q-обучения и используют специальную функцию передачи опыта, инициализирующую таблицу состояний-действий целевого агента, которая сопоставляет соответствующие предикаты. Тестовая задача, используемая для оценки алгоритмов, является задачей фуражировки, когда агент должен собирать случайно сгенерированную пищу в мире-сетке. Результаты показывают, что они обеспечивают улучшение кривой обучения для целевого агента после передачи опыта от агента с большим количеством входных предикатов. Улучшение непостоянно и иногда не приносит заметной разницы в производительности, но целевой агент работает по крайней мере так же хорошо, как агент без предшествующего опыта.

Дальнейшие исследования были направлены на адаптацию алгоритмов к работе в реальной среде и повышению эффективности работы таких систем (Воробьев, 2020; Воробьев & Ровбо, 2020). Для этого, в частности, было предложено использование переноса обучения вместе с обучением с подкреплением для агентов с моделью мира на основе логических описаний (Rovbo, 2020). В работе (Воробьев, 2020) предлагаются несколько механизмов для ускорения процесса логического вывода в группе роботов с локальным взаимодействием.

Реализация вышеописанных методов и алгоритмов переноса обучения для агентов с семиотической моделью на реальных мобильных роботах и моделях, приближенных к реальной среде (с использованием физической симуляции в Gazebo), описывается в работе Воробьев & Ровбо, 2020).

Некоторые публикации

  1. Vorobiev V., Rovbo M. Analysis of Semantic Probabilistic Inference Control Method in Multiagent Foraging Task // Open Semantic Technologies for Intelligent Systems. Research Papers Collection. Minsk, 2019. P. 237–242.
  2. Воробьев В.В. К вопросу об использовании логической модели адаптивной системы управления в группах роботов с локальным взаимодействием // Межвузовская научно-техническая конференция студентов, аспирантов и молодых специалистов имени Е.В. Арменского. Материалы конференции. Москва, 2019. P. 92–93.
  3. Ровбо М.А. Влияние исследовательского поведения агента на эффективность работы семантического вероятностного вывода в задаче фуражировки // Межвузовская научно-техническая конференция студентов, аспирантов и молодых специалистов имени Е.В. Арменского. Материалы конференции. Москва: МИЭМ НИУ ВШЭ, 2019. P. 35–36.
  4. Ровбо М.А., Воробьев, В. В. [подано в редакцию] Преобразование пространства признаков для ускорения обучения в задаче управления мобильными роботами на основе логических методов. // Информационные Технологии, 2020.
  5. Воробьев В.В., Ровбо М.А. [подано в редакцию] Применение передачи обучения в семиотических моделях к проблеме фуражирования с реальными роботами // Программные продукты и системы, 2020.
  6. Воробьев В.В. [подано в редакцию] Механизм обмена данными между роботами в коллективе как средство ускорения процесса группового логического вывода // 31-я международная научно-техническая конференция Экстремальная робототехника, 2020.
  7. Rovbo M. Agent-Space Transfer Learning for Sign-Based World Model // Open Semantic Technologies for Intelligent Systems. Research Papers Collection. Minsk, 2020. P. 327–332.