RoboFob  Лаборатория "Робототехника"
 ФНБИК МФТИ, МИЭМ НИУ ВШЭ, МГТУ им. Н.Э. Баумана

Главная Галерея Проекты Робоспорт Материалы СМИ О нас

ИССЛЕДОВАНИЕ И МОДЕЛИРОВАНИЕ МЕХАНИЗМОВ РЕГУЛЯЦИИ СОЦИАЛЬНОГО ПОВЕДЕНИЯ И ОБУЧЕНИЯ ДЛЯ ГРУППЫ АВТОНОМНЫХ РОБОТОВ // 2017 - 2019

Проект выполнен при поддержке РФФИ (проект № 7-29-07083 офи_м).


Коллектив

Когнитивный блок

  • Величковский Б.М.
  • Шишкин С.Л.
  • Дубынин И.А.
  • Чжао Д.Г.

Этологический блок

  • Бургов Е.В.

Нейрофизиологический блок

  • Ивашкина О.И.
  • Торопова К.А.
  • Груздева А.М.

Робототехнический блок

  • Карпов В.Э.
  • Ровбо М.А.
  • Сорокоумов П.С.

Оглавление


2018-2019 гг

Основным итогом исследований стало то, что результаты естественно-научных исследований позволили получить конструктивные модели и методы управления поведением социумом искусственных агентов, причем в виде, пригодном для реализации на имитационном и натурном уровнях робототехнического блока. Так, этологические исследования позволили сформулировать задачи и создать модели управления поведением искусственных агентов на макроуровне. Результаты нейробиологических исследований позволили получить и реализовать такие важнейшие механизмы, как подражательное поведение и социальное обучение, а также создать модель ассоциативной памяти искусственного агента (робота). Когнитивные исследования позволили определить особенности человеко-машинного взаимодействия (оператор-группа роботов и оператор-робот) и создать специфический интерфейс на основе виртуальной реальности.

1. ЭТОЛОГИЧЕСКИЙ БЛОК

Для выявления и уточнения ряда характеристик модельных видов муравьев проведены полевые исследования. Получены новые данные по функциональным различиям видов рода Formica, расширен перечень модельных видов. Выделено две функциональные группы внутри рода. Показано, что в смешанных семьях F. sanguinea и F. cinerea происходит совмещение функций представителей обеих групп.

Определены качественные и количественные характеристики лабораторного полигона и модельной группы. Выполнена трехмерная модель полигона, включающая «гнездо», «кормовой участок» и «дорожно-тоннельную систему». На основании предложенных формальных моделей в дальнейшем были созданы модели зрительного анализатора, системы взаимодействия индивидов при моделировании киноптических реакций, системы фуражировки (в среде kvorum). На основе трехмерной модели выполнена разметка полигона и протестировано функционирование роботов YARP-2 с ее использованием.

2. КОГНИТИВНЫЙ БЛОК

Была проведена серия экспериментов с участием 23 испытуемых, которые отдавали команды движущимся на экране объектам, изображающим мобильных роботов, сочетанием взгляда и короткой голосовой команды: взгляд, отслеживаемый айтрекером, указывал робота, а голос использовался для ее подтверждения.

Рис.2.1. Скриншот экспериментальной среды. Круги, обозначающие мобильных роботов, двигались со скоростью. Зеленым цветом выделен “выбранный” робот

Испытуемому надо было последовательно активировать десять роботов сначала по порядку их номеров, и сразу после этого в обратном порядке. Все испытуемые успешно справились с заданием. На поиск робота среди десяти роботов, движущихся в поле зрения испытуемого с угловой скоростью 6 градусов в секунду, и подачу команды уходило в среднем 1,6-1,7 с. Предполагается, что легкости овладения этим способом управления способствуют имеющиеся у подавляющего большинства людей навыки взаимодействия с другими людьми с использованием сочетания взгляда и вокализации. В отличие от ранее описанных в литературе методик человеко-машинного взаимодействия с помощью такого сочетания, в нашем эксперименте использовался наиболее простой способ подтверждения – его можно было осуществить с помощью любой вокализации, что ускоряло распознавание команды и упрощало задачу пользователя. Представляется перспективным использовать такой гибридный способ взаимодействия человека и роботов, когда обычные способы управления с использованием рук недоступны или неэффективны (занятые руки, инвалидность и др.).

3. НЕЙРОБИОЛОГИЧЕСКИЙ БЛОК

Проведено исследование нейрональных основ социальной и индивидуальной памяти у мышей в задаче социальной передачи вкусового предпочтения. Было показано, что животные успешно обучаются социальной передаче вкусового предпочтения, и данное обучение приводит к формированию кратковременной (при оценке через 1 час), а также долговременной памяти, сохранявшейся не менее 24 часов. Кроме того, впервые в мире нами было проанализировано поведение мышей-демонстраторов через 24 часа после ознакомления с целевым кормом. Животные-демонстраторы запоминали ранее съеденный ими корм, однако, в отличие от наблюдателей, у демонстраторов эта память проявлялась в устойчивом предпочтении нового, а не целевого корма.
Таким образом, нами впервые было показано, что как индивидуальное, так и социальное обучение одной и той же ситуации внешней среды приводит к формированию устойчивой долговременной памяти, однако эта память совершенно по-разному проявляется в поведении в зависимости от того, была ли она сформирована в результате индивидуального опыта или наблюдательного обучения. Нами впервые в мире было проведено сопоставление активности мозга при извлечении индивидуально сформированной и социально усвоенной памяти, а также продемонстрированы общие и специфические свойства таких форм памяти. Было показано, что орбитальная и пириформная области коры одинаково активны при индивидуальном и социальном обучении, в то время как передние обонятельные области вовлекаются в извлечение только индивидуально сформированной памяти, а гиппокамп – только при социальной передаче вкусового предпочтения. Коннектомный анализ показал, что наблюдательное обучение отличает высокая функциональная связанность различных областей мозга в целом и гиппокампа в частности, тогда как индивидуальное обучение вкусовому предпочтению приводит только к формированию локальных сетей областей мозга, связанных с анализом вкусовых данных.

4. РОБОТОТЕХНИЧЕСКИЙ БЛОК

Был рассмотрен ряд моделей и архитектур, которые позволяют создавать высокоуровневый каркас для базовых механизмов социального поведения. Были рассмотрены вопросы группового управления обучающихся агентов на примере задачи фуражировки. Формулировка метода обменов была адаптирована для BDI модели, а также рассмотрены модификации, позволяющие агентам взаимодействовать за счет виртуального ресурса. Сравнение и анализ было проведено, в том числе, с методами на основе BDI архитектуры и досок объявлений, а также проведено его сравнение с формулировкой STRIPS.

Была разработана архитектура управления для робототехнических систем с обучением, позволяющая комбинировать различные алгоритмы целенаправленного поведения, а также предложен алгоритм управления верхнего уровня, переключающий управление между базовыми алгоритмами. Был проведен его анализ для задачи, сформулированной в терминах обучения с подкреплением.

В плане развития интерфейсов была разработана подсистема взаимодействия человека с группой роботов с помощью средств виртуальной реальности, позволяющая оператору воспринимать окружение с точки зрения выбранных роботов из группы, получать данные о состоянии робота и ходе выполнения им задачи, а также корректировать рабочий процесс. Тестирование показало, что показатели качества управления для разработанного интерфейса несколько выше, чем у традиционного графического. Для практической отработки предложенных механизмов была создана модель группы мобильных агентов, позволяющая выполнять задачу поиска нужной точки в лабиринте путём сочетания нескольких подходов к планированию действий агентов, в том числе методов машинного обучения и логического вывода на основе знаковых моделей. Исследовано поведение группы агентов при различных вариантах постановки задачи и комбинирования поведений.

В развитие базисных методов социального взаимодействия между искусственными агентами на основе результатов нейробиологического блока исследований были разработаны модели подражательного поведения и социального обучения. Кроме того, была создана модель ассоциативной памяти анимата, решающую задачу ориентации в пространстве.

ВАЖНЕЙШИЕ НАУЧНЫЕ РЕЗУЛЬТАТЫ

1. ЭТОЛОГИЧЕСКИЙ БЛОК

1.1. Определение параметров особей. Получены новые данные по функциональным различиям видов рода Formica, скоростям движения рабочих по различным поверхностям, расширен перечень модельных видов. Внутри рода можно выделить две экологические группы: муравьи, способные к самостоятельному движению и переносу грузов по тонкой траве, и муравьи, вынужденные двигаться по свободному от травы пространству (Рис. 1.1.1). К первой относятся представители подродов Formica s.str. (F. polyctena и F. pratensis) и Raptiformica (F. sanguinea), ко второй – Serviformica (F. cunicularia, F. cinerea) и Coptoformica (F. exsecta, F. pressilabris). Данные по скорости движения муравьев использованы при расчете параметров модельной группы роботов.

Рис.1.1.1. Скорость движения муравьев на мостиках разной ширины при движении вниз

1.2. Исследование функциональной дифференциации. В смешанных семьях, образованных путем временного социального паразитизма, сочетаются функции представителей обеих групп (показано на модели смешанной семьи F. sanguinea и F. cinerea). Такое сочетание обеспечивает смешанной семье возможность более полного и эффективного использования ресурсов среды. Принцип функционального разделения внутри смешанной семьи используется и при организации гетерогенной группы роботов.

1.3. Модель фуражировки. Описана организация фуражировки в группе искусственных агентов. Определены основные характеристики группы. На основе расчетов качественных и количественных характеристик группы выполнена трехмерная модель полигона (Рис.1.3.1).

Рис.1.3.1. Трехмерная модель полигона

В среде Kvorum отработан механизм неспецифической активации фуражиров [Бургов, Малышев, 2019]. Выполнена виртуальная модель полигона в среде Kvorum, протестировано функционирование группы аниматов (пассивных и активных фуражиров) при различных соотношениях численности особей (Рис. 1.3.2).

Рис.1.3.2. Моделирование кормового поведения

Предложенная инфраструктура реализована на полигоне лаборатории робототехники НИЦ «Курчатовский институт» (Рис. 1.3.3): отработано использование роботами искусственных элементов инфраструктуры: «гнезда» и «дорожно-тоннельной» системы.

Рис.1.3.3. Полигон лаборатории робототехники НИЦ КИ с нанесенной разметкой

2. КОГНИТИВНЫЙ БЛОК

Экспериментальные исследования эффективности и удобства выбора мобильного робота из группировки с помощью сочетания прослеживающих движений глаз и коротких голосовых команд. В ходе исследований с учетом ранее полученных предварительных результатов была подготовлена и проведена полноценная серия экспериментов с участием 23 испытуемых (подробнее см. Дополнительные материалы; по этому исследованию в настоящее время готовится статья, которая будет представлена в The Journal of Eye Movement Research, индексируемый в WoS и Scopus). В этом экспериментальном исследовании оценивалась возможность взаимодействия с движущимися на экране объектами, изображающими мобильных роботов, с помощью сочетания взгляда и короткой вокализации: взглядом нужно было указать одного из роботов, а вокализация выполняла роль подтверждения команды.

Все испытуемые успешно справились с заданием. На поиск робота и подачу команды уходило в среднем 1712 +-348 мс, когда испытуемые использовали для подтверждения слово «ты», 1626 +- 331 мс, когда они в качестве подтверждения называли номер робота, и 1581 +- 305 мс – когда использовали выбранное ими самими слово (этот режим, в отличие от других, всегда предлагался испытуемым на фиксированном месте – в самом конце эксперимента, поэтому тенденция увеличения скорости выбора могла быть связана с постепенным освоением технологии взаимодействия с помощью взгляда и голоса). Выбор робота с помощью сочетания взгляда и более стандартного подтверждающего действия – нажатия на клавишу – осуществлялся еще быстрее: на него уходило всего 1269 +- 265 мс, причем лишь этот режим демонстрировал статистические значимые отличия от остальных (p=0,00015 для сравнений этого режима со всеми остальными, post-hoc критерий Тьюки).

Рис.2.1. Среднее время между последовательным выбором роботов в разных режимах подтверждения команды, отдаваемой взглядом (N - подтверждение называнием номера робота, T - подтверждение словом “ты”, F - подтверждение свободно выбранным словом, M - подтверждение клавишей)

Большинство испытуемых (16 из 23) сочли подтверждение отдаваемой взглядом команды моторным действием наиболее удобным, однако высоко оценили и подтверждение с помощью вокализации. Следует иметь в виду, что подтверждение подаваемой взглядом команды с помощью моторного действия не всегда возможно: оно может быть недоступно тяжелым инвалидам, а также в случае, когда обе руки у оператора заняты выполнением других операций.

Большой интерес представляют ответы испытуемых на вопросы опросника, предлагавшегося им после эксперимента. Подтверждение называнием номера выбрали как наиболее удобный среди режимов с подтверждением вокализацией 17 из 23 участников эксперимента, и количественные оценки удобства этого метода были значимо выше, чем подтверждения с помощью слова «ты» (p=0,0004 по критерию Вилкоксона). По-видимому, весьма нежелательно использовать для подтверждения одно и то же слово, если команды надо давать часто (половина испытуемых отметила, что это им мешало при использовании слова «ты»). Как уже наблюдалось ранее в предварительной серии, использование слова «ты» отвлекало от выполнения задачи выбора роботов в соответствии с их нумерацией (у шести испытуемых даже были случаи, когда они сбивались со счета), тогда как произнесение номера робота, напротив, способствовало ее выполнению. Нельзя исключить, что такая «интерференция» может исчезнуть с автоматизацией подачи команды при достаточно продолжительной практике. Интересно, что при свободном выборе некоторые испытуемые выбрали слово «да» и сочли его использование удобным, тогда как именно это слово в предварительных экспериментах вызвало резко отрицательную реакцию у части испытуемых. Испытуемые, исходя из своего опыта свободного выбора слова для подтверждения, отмечали важность его удачного подбора.

Результаты опроса в целом указывают на желательность использования для подтверждения слова, естественным образом ассоциирующегося с роботом, например, его номера (как в эксперименте) или имени (что, по-видимому, может дать не худшие или даже существенно лучшие результаты, но в эксперименте не использовалось, поскольку потребовало бы много дополнительного времени на запоминание имен роботов, существенного уменьшения «группировки» и других нежелательных модификаций эксперимента). По-видимому, для подтверждения отдаваемой взглядом команды с помощью короткой вокализации оптимальным является использование либо слова, естественным образом ассоциирующегося с командой или номером/именем робота, либо (при нечастой подаче команд) слова, выбранного самим оператором. Важно, чтобы выбранные слова были достаточно короткие, поскольку длинные слова могут вызвать повторные срабатывания, либо существенно замедлить распознавание команды (что неудобно при использовании взгляда), либо потребовать удлинения периодов нечувствительности, из-за которых, в свою очередь, станет невозможным частая подача команд тогда, когда это будет требоваться.

Следует также отметить, что хотя произнесение слова «ты» оказалось сравнительно неудобным способом подтверждения команды, отдаваемой взглядом, это могло быть связано с особенностями эксперимента – одно и то же слово требовалось произносить слишком часто и слишком много раз. Не исключено, что если бы его требовалось произносить существенно реже (например, только при обращении к роботам, имена которых неизвестны, либо когда их трудно вспомнить), с ним также было бы удобно работать.

Как и в предварительных экспериментах, испытуемые быстро и легко осваивали новый для них способ взаимодействия с техникой – это касалось и десяти испытуемых, у которых до эксперимента не было вообще какого-либо опыта использования управления на основе айтрекинга. Мы считаем вероятным, что в основе овладения этим способом управления лежат имеющиеся у подавляющего большинства людей навыки взаимодействия с другими людьми с использованием сочетания взгляда и вокализации. Как мы уже отмечали в отчете по первому этапу проекта, не исключено, что такого рода взаимодействие может оказаться еще более эффективным, если операторы будут иметь достаточно времени на обучение ему (в наших экспериментах такие условия пока не удавалось воспроизвести из-за временных ограничений). Однако и без продолжительного обучения, как показали результаты экспериментальной серии, использование сочетания взгляда и вокализации весьма эффективно, и представляется перспективным использовать его в различных человеко-машинных системах, когда по тем или иным причинам нельзя использовать обычные способы управления с использованием рук (занятые руки, инвалидность и др.) [Величковский, Величковский, Ушаков, 2019]

3. НЕЙРОБИОЛОГИЧЕСКИЙ БЛОК

3.1. Отработка модели социальной передачи вкусового предпочтения. В связи с тем, что в задаче социальной передачи страха, использованной для выполнения работ по проекту в 2018 году, у животных-наблюдателей формируется слабая ассоциативная память, и при этом индивидуальная вариабельность поведения мышей оказывается очень высокой, что затрудняет изучение нейрональных основ социальной памяти, в отчетном году для выполнения задач проекта было принято решение использовать другую широко применяемую задачу наблюдательного обучения – социальную передачу вкусового предпочтения [Wrenn, 2004], [Ross, Eichenbaum, 2006], [Smith, East, Colombo, 2010], [Cintoli и др., 2018]. Нами была проведена отработка модели социальной передачи вкусового предпочтения у мышей линии С57Bl/6. Для этого был использован протокол обучения, предложенный, Wrenn и соавторами [Wrenn, 2004], в которой животное-наблюдатель обучается употреблению пиши, имеющей новый незнакомый вкус и запах, через взаимодействие с животным-демонстратором, ранее уже питавшимся такой пищей. Было показано, что часового взаимодействия с демонстратором, непосредственно перед этим употреблявшим в пищу новый корм, достаточно для формирования устойчивой ассоциативной памяти в отношении вкуса и запаха этого корма у мышей-наблюдателей. Так, мыши-наблюдатели демонстрировали выраженное предпочтение целевого корма по сравнению с контрольным как через 1 час после окончания взаимодействия с демонстратором, так и через 24 часа (Рис. 3.1.1).

Рис.3.1.1. Поведение мышей-наблюдателей при тестировании памяти в задаче социальной передачи вкусового предпочтения. А – тестирование через 1 час после обучения. Б – тестирование через 24 часа после обучения. *** – p < 0.0001, парный критерий Стьюдента.

Таким образом, нами было показано, что животные успешно обучались социальной передаче вкусового предпочтения, и данное обучение приводило к формированию кратковременной, а также долговременной памяти, сохранявшейся не менее 24 часов

Кроме того, впервые в мире нами было проанализировано поведение мышей-демонстраторов по отношению к ранее знакомому им и новому корму через 24 часа после ознакомления с целевым кормом. Было показано, что животные-демонстраторы запоминали ранее съеденный ими корм, однако, в отличие от наблюдателей, у демонстраторов эта память проявлялась в устойчивом предпочтение нового, а не целевого корма (Рис. 3.1.2).

Рис. 3.1.2. Поведение мышей-демонстраторов при тестировании памяти через 24 часа после ознакомления с целевым кормом. *** – p = 0.0018, парный критерий Стьюдента

Ранее подобный феномен предпочтения нового стимула по сравнению с знакомым был неоднократно показан у мышей в задаче распознавания объектов. Таким образом, нами впервые было показано, что как индивидуальное, так и социальное обучение одной и той же ситуации внешней среды (пище, имеющей новый вкус) приводит к формированию устойчивой долговременной памяти, однако эта память совершенно по-разному проявляется в поведении в зависимости от того, была ли она сформирована в результате индивидуального опыта или наблюдательного обучения [Toropova, 2019], [Плюснин и др., 2019].

3.2. Выявление структур мозга мышей, вовлекающихся в индивидуальное и наблюдательное обучение. Для того, чтобы установить, какие области мозга участвуют в социальном и индивидуальном обучении вкусовому предпочтению, а также выявить паттерны структур, общие для этих двух форм обучения и специфичные для каждой из них, нами было проведено картирование активности мозга мышей-наблюдателей и демонстраторов при помощи выявления белка-продукта немедленного раннего гена с-fos при извлечении ранее сформированной памяти о новом вкусе. Было показано, что при извлечении памяти о наблюдательном обучении в задаче социальной передачи вкусового предпочтения происходит специфическая активация орбитальной и пириформной областей коры, а также гиппокамп. При этом, извлечение индивидуально сформированной памяти о новом вкусе пищи приводило к активации передних обонятельных областей, орбитальной и пириформной областей коры, но не гиппокампа (Рис. 3.2.1).

Рис. 3.2.1. Активность структур мозга мышей при извлечении индивидуальной и социально сформированной памяти о новом вкусе. # – p < 0.01, по сравнению с группой «домашняя клетка», + – p < 0.0001 по сравнению с группой «наблюдатели», * – p < 0.0001 по сравнению с группой «демонстраторы», двухфакторный дисперсионный анализ ANOVA и апостериорный критерий Тьюки

Таким образом, активация орбитальной и пириформной зон коры наблюдалась как при социальном, так и при индивидуальном обучении и, по-видимому, отражает сходство этих двух форм памяти. Тогда как активация гиппокампа являлась специфической для наблюдательного обучения, а активация передних обонятельных областей наблюдалась только при индивидуальном обучении. Таким образом, нами впервые в мире было проведено сопоставление активности мозга при извлечении индивидуально сформированной и социально усвоенной памяти, а также продемонстрированы общие и специфические свойства таких форм памяти [Toropova, 2019].

3.3. Анализ функциональной связанности областей мозга мышей при наблюдательном и индивидуальном обучении. Для выявления функциональной связанности областей мозга мышей при социальной передаче вкусового предпочтения и индивидуальном обучении употреблению пищи с новым вкусом нами были проанализированы попарные корреляции активности различных областей мозга по с-fos и на основе значимых положительных корреляций построены коннектограммы социального и индивидуального вкусового предпочтения (Рис. 3.3.1). Было показано, что функциональная связанность в коннектоме социальной памяти в целом выше, чем в коннектоме индивидуальной памяти, что выражается в большем количестве связей между различными областями мозга мышей, обучавшихся наблюдательно. При этом хабом сети социального обучения является гиппокамп, для которого наблюдалось наибольшее количество функциональных связей с другими проанализированными областями. В индивидуальном обучении количество связей гиппокампа и других областей мозга было низким, и функциональная связанность была наибольшей для передних обонятельных областей. Таким образом, наблюдательное обучение отличает высокая функциональная связанность различных областей мозга в целом и гиппокампа в частности, тогда как индивидуальное обучение вкусовому предпочтению приводит только к формированию локальных сетей областей мозга, связанных с анализом вкусовых данных.

Рис.3.3.1. Диаграммы связанности областей мозга мышей при наблюдательном и индивидуальном обучении. А – демонстраторы. Б – наблюдатели. Аббревиатурами обозначены названия областей мозга мыши в соответствии со стереотаксическим атласом (Franklin, Paxinos, 2007)

4. РОБОТОТЕХНИЧЕСКИЙ БЛОК

4.1. Подсистема взаимодействия человека с группой роботов. Разработанная подсистема взаимодействия человека с группой роботов средствами виртуальной и дополненной реальности состоит из двух частей – драйвера шлема виртуальной реальности (т.е. системы визуализации) и обработчика данных, взаимодействующего с этим драйвером. Система обеспечивает работу как с реальными, так и с моделируемыми роботами, созданными в среде симуляции Gazebo. Программная часть системы управления включает в себя набор отдельных программ, работающих под управлением фреймворка ROS; система визуализации создана с использованием игрового движка Unreal Engine 4 (Рис. 4.1.1).

Рис.4.1.1. Внешний вид интерфейса визуализатора

Эффективность предложенного решения измерена на тестовой задаче; оказалось, что среднее время верной реакции на события интерфейса виртуальной реальности (2.7 с) ниже аналогичного времени для традиционного графического интерфейса (3.0 с), причём это различие статистически значимо (p = 0.006) (Рис. 4.1.2).

Рис.4.1.2. Среднее время задержки для разных типов исследованных интерфейсов

Другим результатом стало различие между субъективным восприятием опыта работы пользователем и объективными показателями (задача, указанная пользователями как более сложная, в действительности была решена с меньшим числом ошибок, чем указанная как более лёгкая). Результаты экспериментов показывают, что эффективность использования интерфейса виртуальной реальности для модельной задачи сравнима с результатами на традиционных видах интерфейсов – консольном и графическом (Рис. 4.1.3), при этом такой интерфейс по сравнению с обычным графическим может обеспечить небольшой выигрыш по скорости.

Рис.4.1.3. Классификация ошибок по точности ответа пользователя

4.2. Система управления групповым поведением. Концепция социального управления групповыми робототехническими системами включает наличие различных базовых механизмов, объединение которых в систему позволяет реализовывать гибкое и эффективное управление группой. В рамках данной работы был рассмотрен ряд моделей и архитектур, которые позволяют создавать высокоуровневый каркас для базовых механизмов социального поведения. При этом семиотическое управление, использующее модель из множества семантических сетей и специальных связей между ними, образующих знаки, представляется наиболее подходящим способом реализации такой системы управления, поскольку создает условия для объединения коммуникативных возможностей и управляющих алгоритмов в единую структуру. Поэтому основное внимание в проекте было уделено исследованию иерархических и сетевых архитектур управления и их адаптивным свойствам.

  • Был рассмотрен ряд моделей и архитектур, которые позволяют создавать высокоуровневый каркас для базовых механизмов социального поведения. Были рассмотрены вопросы группового управления обучающихся агентов на примере задачи фуражировки [Vorobiev, Rovbo, 2019] (Рис. 4.2.1). В ней обучающиеся индивидуально агенты на основе модификации алгоритма семантического вероятностного вывода, собирали пищу на квадратном поле без препятствий, образуя систему с неявным взаимодействием через среду. Эксперименты показали, что кривая обучения агентов больше зависела от типа и параметров алгоритма, чем от индивидуального опыта: агенты с одними настройками отличались гораздо сильнее от агентов с другими настройками по эффективности, чем между собой в силу индивидуальных различий в истории работы в среде, а усредненная скорость сбора пищи по агентам не сильно отличалась от работы одного агента в среде, поэтому при достаточно малом числе агентов в группе, индивидуальное обучение, в основном, происходит так же, как и без группы.

    Рис.4.2.1. Модель мира в задаче групповой фуражировки с обучением. Зеленые кружки – местоположение пищи, розовые – агенты, белые палочки на агентах обозначают направление, в которое они повернуты в данный момент, светло-серые квадраты по краям обозначают препятствия

  • Были рассмотрены и предложены некоторые модификации различных алгоритмов управления агентами с BDI архитектурой на основе досок объявлений и метода обменов (Рис. 4.2.2). Был рассмотрен вопрос взаимодействия группы агентов на основе планирования с помощью локальных досок, позволяющее планировать достижение цели агентам, ограниченным в расстоянии возможной коммуникации [Ровбо, Овсянникова, 2019]. Формулировка метода обменов, оригинально описанного в [Карпов, Мещерякова, 2004], была адаптирована для BDI модели, а также рассмотрены модификации, позволяющие агентам взаимодействовать за счет виртуального ресурса. Было проведено его сравнение с формулировкой STRIPS, которая показала, что задачи метода обменов могут быть рассмотрены в виде STRIPS задачи соответствующими методами, однако сам метод может приводить к ускорению нахождения решения за счет рассмотрения меньшего графа поиска.

    Рис.4.2.2. Граф метода обменов

  • Была разработана архитектура управления для робототехнических систем с обучением, позволяющая комбинировать различные алгоритмы целенаправленного поведения, а также предложен алгоритм управления верхнего уровня, переключающий управление между базовыми алгоритмами. Моделирование показало, что предложенный метод ведет себя более стабильно для различных вариантов задачи, чем каждый из базовых по отдельности, хотя и не дает наилучшего результата для каждого отдельного случая, для задачи, сформулированной в терминах обучения с подкреплением. Были продемонстрированы преимущества использования алгоритмов управления, основываемых на базовых алгоритмах, организованных в структуру управления верхнего уровня [Rovbo, Moscowsky, Sorokoumov, 2019]. Разработанная система управления группой мобильных агентов обеспечивает сочетание различных поведенческих алгоритмов для поиска наилучшим образом проявляющей себя в заданных условиях комбинации этих поведений. Каждое из поведений определяет, какие действия и в каких условиях будет выбирать агент; при этом разные виды поведений обеспечивают различных подход к решению задачи: на основе априорных знаний (планирование путём логического вывода), на основе прецедентов (алгоритм машинного обучения Q-learning) либо без предположений о природе задачи (случайный выбор); допустимо также добавление, например, специализированного исследовательского поведения или других вариантов действий. Благодаря тому, что переключение между поведениями возможно только в периодически наступающие моменты, каждое из них потенциально способно за предоставленный отрезок времени проявить свои характерные свойства. Благодаря собираемой статистике об успешности решения поставленной задачи оказывается возможной адаптация агента к конкретным условиям среды, что и было показано экспериментально. Вместе с тем необходимо в дальнейшем дополнительно исследовать изменение ранее сложившегося поведения агента при попадании в новую среду, а также дать интерпретацию результатов в виде классификации сред по предпочтительным видам поведений и методику априорной оценки эффективности поведенческих алгоритмов в конкретной среде.

    4.4. Модели поведения. Были разработаны модели подражательного поведения и социального обучения. В основе этих моделей – семиотический подход, в котором в модели мира анимата имеется знак "Я". Этот знак используется для сопоставления наблюдаемого контрспецифика с субъектом поведения – агентом [Карпов, 2019a], [Карпов, 2019b], [Карпов, Ивашкина, 2019]. Модель подражательного поведения и модель социального обучения были разработаны на основе результатов исследований, проведенных в нейробиологическом блоке, и относятся к уровню стимул-реактивного поведения, см Рис.4.4.1, 4.1.2.

    Рис.4.4.1. Схема подражательного поведения

    Рис.4.4.2. Схема социального обучения

    Для реализации более сложных форм поведения была разработана модель ассоциативной памяти, отработка которой проводилась на задаче ориентации анимата в пространстве [Карпов, Карпова, 2019], [Карпов, 2019c], Рис.4.4.3.

    Рис.4.4.3. Ассоциативная память анимата


    Документы

  • Дополнительные материалы
  • Поиск с Яндексом  
    Лаборатория "Робототехника", ФНБИК МФТИ, МИЭМ НИУ ВШЭ, МГТУ им. Н.Э. Баумана
            e-mail: user@robofob.ru