RoboFob  Лаборатория "Робототехника"
 ФНБИК МФТИ, МИЭМ НИУ ВШЭ, МГТУ им. Н.Э. Баумана

Главная Галерея Проекты Робоспорт Материалы СМИ О нас

ИССЛЕДОВАНИЕ И МОДЕЛИРОВАНИЕ МЕХАНИЗМОВ ОБУЧЕНИЯ И УПРАВЛЕНИЯ РОБОТОМ НА ОСНОВЕ СЕМИОТИЧЕСКОЙ СТРУКТУРЫ ПРЕДСТАВЛЕНИЯ ДАННЫХ И ЗНАНИЙ // 2018 - 2019

Проект выполнен при поддержке РФФИ (проект № РФФИ 18-37-00498 мол_а).


Коллектив

  • Ровбо М.А.
  • Воробьев В.В.

Предложена архитектура для адаптивного управления распределенной группой роботов на основе функциональных систем и метода семантического вероятностного вывода с учетом ограничения локального взаимодействия. Предложена модификация алгоритма семантического вероятностного вывода, добавляющая в него ε-жадное исследовательское поведение, а также исследовано влияние этой модификации на эффективность и скорость обучения для задачи фуражировки. Алгоритм сравнивался с классическим алгоритмом табличного ε-жадного Q-обучения.

Описанные выше исследования проводились с помощью вычислительных экспериментов на специально разработанной симуляции многоагентной фуражировки, реализованы соответствующие методы и алгоритмы управления, средства сбора и обработки данных. Была описана схема обучения с преобразованием входных данных о среде с целью выделения наиболее значимых и сокращения пространства, на котором агент учится принимать решения. Анализируется применимость некоторых способов управления и представления знаний, в том числе на основе логического представления, для выделения таких признаков. На примере задачи фуражировки демонстрируется возможность ускорения обучения с улучшением качества работы (но асимптотическим ухудшением) при определенных представлениях входных данных. Проанализированы недостатки этого способа и предлагается возможность применения передачи опыта на основе описанной схемы обучения для их устранения.

Адаптирован программно-аппаратный комплекс мобильных роботов с локальной связью для дальнейших исследований алгоритмов.

Результаты, полученные в 2018 году

Предложена многоагентная архитектура управления для коллектива агентов (В. В. Воробьев, 2019) на основе метода семантического вероятностного вывода (Демин & Витяев, 2008), в особенности близкая к формулировке и методу, описанному в (Demin & Vityaev, 2018), однако предназначенная для управления физически распределенными группами агентов с локальной связью и организованными в статический рой (Karpov & Karpova, 2015; Виталий Владимирович Воробьев, 2017). Такая архитектура позволяет разнести систему управления на блоки, связанные между собой локальной связью агентов, что приближает архитектуру к сетевой и позволяет рассматривать каждую функциональную систему отдельных агентов как соответствующий знак в терминах семиотических сетей, ее закономерности – как личный смысл, предикаты, определяющие цель — как образ знака.

Предложена модификация метода семантического вероятностного вывода и исследовано ее поведение с определенными параметрами для задачи фуражировки (Ровбо, 2019). Модификация состоит в добавлении исследовательского поведения аналогично классическим методам обучения с подкреплением (Sutton & Barto, 2018) и проведено сравнение с методом табличного ε-жадного Q-обучения. Наблюдалось стандартное поведение последнего — наличие оптимального параметра исследования ε, при котором агент наиболее быстро обучался и сохранял большую асимптотическую эффективность, в то время как алгоритм семантического вероятностного вывода с исследовательской модификацией на заданных параметрах значительного улучшения скорости обучения не показал (Vorobiev & Rovbo, 2019), в то время как его асимптотическая эффективность уменьшилась. Скорость обучения у него не увеличилась, вероятно, по той причине, что он продемонстрировал очень быстрый выход на максимальную эффективность работы, доступную для заданных параметров.

Последнее свойство является одной из причин, по которой в статье (подана на рассмотрение) (Ровбо & Воробьев, 2019) предлагается использовать часть алгоритма семантического вероятностного вывода, которая выводит закономерности, для определения наиболее значимых входных (сенсорных) параметров для улучшения характеристик обучения другими методами, в частности, Q-обучения. В этой же статье описывается общая схема такого способа обучения и приводится анализ других методов управления агентами и представления знаний, в основном на основе логики, в применении к задаче определения значимых признаков для управления агентом. В семиотических сетях изменение структуры происходит за счет выделения новых понятий (например, описаний объектов) (Осипов, Панов, Чудова, & Кузнецова, 2017), что может служить для пополнения вектора описания наблюдений относительно текущей ситуации и последующего уменьшения этого пространства, что должно приводить к ускорению обучения. Возможность такого ускорения продемонстрирована на примере задачи фуражировки в (Ровбо & Воробьев, 2019), которое происходит с уменьшением асимптотического качества работы системы. В ней также предлагается возможное устранение этого недостатка путем применения многоагентных систем с передачей опыта, что является одной из современных областей исследования в обучении с подкреплением (Hu, Gao, & An, 2015). Таким образом, эта статья также определяет возможные дальнейшие исследования.

Все вышеописанные исследования проводились с помощью вычислительных экспериментов на специально разработанной модели для многоагентной задачи фуражировки на языке Python и соответствующими модулями управления, реализующими описываемые алгоритмы и методы. Для исследования агентов с исследуемыми алгоритмами был адаптирован комплекс роботов с локальной связью и соответствующие элементы симуляции, описываемые в (Ровбо & Воробьев, 2019).


Некоторые публикации

  1. Vorobiev V., Rovbo M. Analysis of Semantic Probabilistic Inference Control Method in Multiagent Foraging Task // Open Semantic Technologies for Intelligent Systems. Research Papers Collection. Minsk, 2019. P. 237–242.
  2. Воробьев В.В. К вопросу об использовании логической модели адаптивной системы управления в группах роботов с локальным взаимодействием // Межвузовская научно-техническая конференция студентов, аспирантов и молодых специалистов имени Е.В. Арменского. Материалы конференции. Москва, 2019. P. 92–93.
  3. Ровбо М.А. Влияние исследовательского поведения агента на эффективность работы семантического вероятностного вывода в задаче фуражировки // Межвузовская научно-техническая конференция студентов, аспирантов и молодых специалистов имени Е.В. Арменского. Материалы конференции. Москва: МИЭМ НИУ ВШЭ, 2019. P. 35–36.
Поиск с Яндексом  
Лаборатория "Робототехника", ФНБИК МФТИ, МИЭМ НИУ ВШЭ, МГТУ им. Н.Э. Баумана
        e-mail: user@robofob.ru