ОПТИМИЗАЦИЯ ПРОКСИМАЛЬНОЙ ПОЛИТИКИ АВТОНОМНЫХ РОБОТОВ-ПОМОЩНИКОВ

Гаджиева Рена Фарамаз Г.; Султанлы Аббас Алифага О.

ГАДЖИЕВА РЕНА ФАРАМАЗ Г., СУЛТАНЛЫ АББАС АЛИФАГА О.

Азербайджанский Государственный Университет нефти и промышленности

Абстракт. Первая методология, примененная в этом проекте для обучения роботов этой задаче, — это обучение с подкреплением. В это время робот учится, получая награды и наказания при выполнении желаемой задачи. Другая рассматриваемая методология — имитационное обучение, при котором робот изучает задачу посредством первоначальной демонстрации. Обучение робота с помощью обучения с подкреплением выполнению вспомогательной задачи потребует много времени, а безопасность тестировщика окажется под угрозой. Лучший вариант для начала обучения - симуляция. Для моделирования задач использовалась программная среда Assistive Gym.

Ключевые слова: автономный робот, оптимизация, программная среда Assistive Gym.

Был написан большой объем литературы, посвященной исследованию задач, решаемых робототехникой, и ряду приложений для различных роботов, от рук, установленных на инвалидных колясках, до мобильных манипуляторов. Вспомогательные роботы — это роботы, предназначенные для оказания помощи или поддержки пользователю-человеку. Существуют различные типы роботов, которые могут выполнять эти задачи:

- Реабилитационные роботы: биомедицинские инженерные технологии, которые могут быть легко использованы пациентами и терапевтами, облегчают упражнения для пациентов. В активных вспомогательных упражнениях робот применяет силу, сопровождая пользователя, чтобы облегчить или усложнить движение, поэтому пользователь прилагает больше усилий для перемещения. Существуют различные типы реабилитационных роботов, каждый из которых предназначен для реабилитации определенной части тела. Цель реабилитационных роботов — помочь пользователю быстрее или лучше восстановиться после физической травмы. В эту группу также включены роботизированные протезы частей тела, а также стабилизаторы предплечий для людей с тремором или болезнью Паркинсона.

- Роботы с поддержкой мобильности: эти роботы обеспечивают поддержку мобильности, руководство и даже мониторинг здоровья людей с ограниченными возможностями или ограниченными возможностями. Это могут быть умные инвалидные коляски, экзоскелеты, электронные трости и ходунки для слепых.

- Роботы-компаньоны: социальные роботы-компаньоны, которые могут выполнять работу по дому, защищать дом, обучать детей и сопровождать пожилых людей или людей с проблемами со здоровьем. Основное внимание уделяется взаимодействию с людьми и окружающей средой, сохраняя при этом дистанцию, которая обычно принимает форму людей или животных.

- Манипуляторы: предназначены для людей с физическими недостатками или ограниченной подвижностью. Цель этих роботов — предоставить этим людям автономию и помочь парамедикам выполнять ADL нуждающимся людям. Еще одной сильной стороной является автономность принятия решений роботами, учитывая возможность ручного управления, и в этом случае пользователь должен иметь хотя бы частичный контроль над верхними конечностями. Это могут быть передвижные роботы-гуманоиды или передвижные роботы-гуманоиды.

- Образовательная робототехника: имеет дисциплину, позволяющую познакомить учащихся с робототехникой и программированием, одновременно изучая другие когнитивные навыки. Подходит для всех возрастов и уровней сложности. Среди функционально зависимых взрослых наиболее трудными задачами являются кормление, питье, одевание, почесывание, купание в постели и манипулирование руками. В этой главе основное внимание уделяется

ОФ "Международный научно-исследовательский центр "Endless Light in Science"

различным методам, алгоритмам и подходам, позволяющим предоставить роботу автономию для выполнения интерпретируемых действий.

Помогает в проектировании примитивов и разработке роботизированной системы кормления, которая использует их для автономного кормления людей. [9] Существуют и другие исследования, в которых траектории рассчитываются с использованием метода обучения путем демонстрации. [2] Более того, некоторые даже улучшают траектории, рассчитанные с помощью параметризованного поиска сходных путей (PSPS), где робот может уточнить траекторию по известной функции стоимости. [17] Обнаружение типа и причины отклонений во время движения в реальной системе также изучалось с хорошими результатами. [14] Было сделано множество улучшений, таких как онлайн-отслеживание траектории движения пользователя и даже распознавание выражения лица, позволяющее решить, подавать еду или нет. [13]

Питье — это действие, по характеристикам схожее с едой; где чашка, вилка или ложка должны сохранять правильную ориентацию во время орбитального и околоротового движения. Представлены мозго-машинные интерфейсы для пациентов с инсультом. [20]

Акт одевания (рис. 1.1) был в центре внимания исследований в последние годы. Использование нежестких материалов в этом движении - еще одна трудность, которая добавится к самостоятельно изучаемой проблеме. Обращаясь к действиям помощника, пользователь обрабатывает запросы на размещение.

Показано, как оценить локальное положение конечности человека в режиме реального времени с помощью метода многомерного емкостного зондирования. [5] Модель нейронной сети предсказывает расположение ближайшей точки между концевым эффектором и конечностью человека, а также направление центральной оси конечности. Он оказался полезным для купания и одевания — двух видов повседневной жизни.

Предлагается метод демонстрационного программирования для эффективного изучения и адаптации навыков помощи при одевании путем сбора информации по данным пользователя и робота. [16] Этот метод требует нескольких презентаций, чтобы изучить движение, и адаптирует траекторию онлайн, если пользователь движется. Движение изучается через человеческое представление, и они объединяют символическое планирование высокого уровня и примитивы движения низкого уровня с помощью скрытых полумарковских моделей, которые также могут адаптироваться к предпочтениям пользователя, корректировать траектории в соответствии с действиями пользователя и справляться с ними. [1]

Рисунок 1.1. Демонстрация и воспроизведение задания на перевязку на роботе

Baxter.

Первым проявлением обучения с подкреплением в вспомогательной робототехнике является процесс надевания рубашки, а наградой являются штрафы за расстояние между точками шеи рубашки и шеей манекена. [22]

Проведенные исследования изучают силы, которые одежда оказывает на тело человека, чтобы повысить эффективность роботизированной помощи. [4]

Они предлагают систему, которая изучает тактильную классификацию результатов задачи с учетом нескольких реальных опытов с человеком. [25] Система оптимизирует параметры физического симулятора, используя реальные данные, а затем обучает скрытые марковские модели на основе собранных данных. Затем они смогут классифицировать и предсказать результат вспомогательной задачи на основе измерений конечного эффектора. Они предлагают глубокую итеративную модель, которая предсказывает силы, которые

ОФ "Международный научно-исследовательский центр "Endless Light in Science"

костюм будет воздействовать на человеческое тело, и с помощью этой информации показывают, что робот может оказать лучшую помощь. [6]

Также были исследованы различные стратегии контроля износа. Клегг и др. представили совместный подход к оптимизации для изучения задачи одевания робота KUKA IIWA [3] и человека при помощи моделирования.

Исследователи разработали устройство Вауса, которое состоит из компонентов оптической мыши, закрепленных на виске пользователя через защитные очки, которые обнаруживают возбуждение, вызванное движением кожи возле глаза. Это устройство дает пользователям больше автономии по сравнению с парализованными пользователями. [10]

Оптимизация проксимальной политики. Оптимизация проксимальной политики (PPO) [21] — это алгоритм обучения с подкреплением (RL), который можно использовать для обучения робота в любой среде. Это относительно новый метод политического градиента для обучения, который использует переход между выборкой данных посредством взаимодействия с окружающей средой и оптимизацией целевой функции с использованием стохастического повышения градиента. Существует множество различных целевых функций, которые может использовать PPO, и они будут объяснены ниже.

Методы градиента политики вычисляют оценщик градиента политики и передают его алгоритму стохастического градиента. Наиболее распространены следующие: g" = E"thV9 logn9(at|st)A"ti (1.1)

Здесь п9 — стохастическая политика, st — состояния системы, at — действие, а A"t — оценка функции предпочтения на временном шаге t. Ожидание представляет собой эмпирическое среднее конечного набора образцов. Оценка "g получается из производной целевой функции:

LPG(9) = E"th logn0(at|st)A"ti (1.2)

Оптимизация этой функции потерь часто приводит к катастрофически большим обновлениям политики.

В оптимизации политики доверительного региона (TRPO) целевая функция максимизируется, а оптимизация достигается за счет использования штрафа вместо ограничения для упрощения задачи оптимизации.

max E t old(at|ts|ts)t)A"t - pKL[n9old(-|st),n9(-|st)] (1.3) Это увеличивает сложность выбора подходящего значения в, которое хорошо работает при решении различных задач или даже одной и той же задачи, свойства которой меняются в результате обучения, а некоторые исследования даже доказывают, что этого недостаточно. 0 old — вектор параметров политики до обновления.

Усеченная суррогатная цель rt(9) = п 9nold9(a(ta|ts|ts)t) обозначает отношение правдоподобия. ТРПО максимизирует.

CPI означает итерацию консервативной политики. Без ограничений, максимизация LCPI приведет к чрезмерно большому обновлению политики. Целевая функция модифицируется, чтобы наказывать изменения в политике, которые отклоняют rt(9) от 1.

Эта новая целевая функция включает в себя LCPI и предотвращает выход rt за пределы диапазона [1 - ,1 + ]. Минимальное значение усеченного и неусеченного целевого показателя берется таким, чтобы конечный целевой показатель конвертировался в нижнюю границу для учета изменения отношения правдоподобия при улучшении целевого показателя и в том числе при ухудшении целевого показателя.

Альтернативой или дополнением к усеченному прокси-целю является адаптивный штрафной коэффициент KL. Он применяет штраф за отклонение KL и корректирует этот коэффициент для достижения значения dtarg отклонения KL при каждом обновлении политики. Процедура заключается в оптимизации целевой функции, d = E"t [KL[n9 (-|st),n9(-|st)]] (1.4) d < dtarg/1,5 ^ в ^ p/2 d > dtarg - 1,5 ^ в ^ в x 2

ОФ "Международный научно-исследовательский центр "Endless Light in Science"

Этот обновленный ß используется для следующего обновления политики. Этот параметр может иметь немного другие значения, но он быстро корректируется. Начальное значение выбирается интуитивно со значениями 1,5 и 2, алгоритм быстро корректирует значение ß, а коэффициенты не сильно влияют на алгоритм.

Суррогатные потери от предыдущих базовых показателей можно рассчитать и дифференцировать с небольшим изменением в типичном применении градиента политики. Большинство методов вычисления функций предпочтения с уменьшенной дисперсией используют изученную функцию значения состояния V (s). Если используется нейронная сеть, которая разделяет параметры политики и функции значения, выбранная функция потерь должна сочетать в себе прокси-сервер политики и член ошибки функции значения. Эту цель можно повысить, добавив бонус энтропии для обеспечения адекватного исследования. Сочетание всего этого дает такой результат:

LCLIPt +VF+S(9) = E~thLCLIPt (б) - clLVFt (9) + c2S[n9](st)I (1.5)

Здесь c1, c2 — коэффициенты, S — бонус энтропии, а LVFt — квадрат потерь по ошибке (V9(st)-Vttarg)2,0.

Один стиль реализации градиента политики, подходящий для рекуррентных нейронных сетей, реализует политику для временного шага T и использует собранные выборки для обновления. Для этого требуется оценщик предпочтений,

A~t = -V (ст) + rt + yrt+1 + - - + yT-t+1rT-1 + YT-tV (sT) (1.6)

где t обозначает индекс времени в [0,T]. Эту оценку можно обобщить и сократить.

Пример алгоритма оптимизации проксимальной политики с использованием сегментов траектории фиксированной длины показан в алгоритме 1. Каждый N актер собирает данные за T временных шагов. Затем на этих данных временного шага N-T генерируется суррогатная потеря и оптимизируется для эпох K с помощью оптимизатора Адама.

Сравнение различных суррогатных целей по разным гиперпараметрам проводится с использованием разных сценариев. Кроме того, лучшие общие характеристики были получены с помощью различных методов, описанных в литературе.

Политика представляет собой полностью связанную MLP с двумя скрытыми слоями по 64 единицы и гиперболической касательной нелинейностью, усредняющей гауссово распределение. Наилучшая производительность у алгоритма отсечки со значением 0,2.

Программное обеспечение Assistive Gym. Assistive Gym — это среда моделирования с открытым исходным кодом, основанная на физике, разработанная на Python для физического взаимодействия человека и робота и помощи роботов. Что отличает эту среду моделирования от других, так это ее ориентация на взаимодействие между роботами и людьми, которое было тщательно изучено дизайнерами. [7]

Их среда построена на физическом движке PyBullet с открытым исходным кодом, а стратегия, используемая для обучения робота, — это алгоритмы обучения с подкреплением. На каждом шаге робот записывает наблюдения за состоянием системы, действует в соответствии с политикой управления, а затем получает вознаграждение. Эти наблюдения представляют собой характеристики, которые можно получить из реального сценария вспомогательной робототехники, такие как положения и направления частей робота или человека, силы взаимодействия между ними и характеристики выполняемого действия, такие как скорость количества пищи во время кормления или количества воды, налитой в рот пользователя.

Используется метод глубокого обучения с подкреплением, называемый оптимизацией проксимальной политики (PPO). Это алгоритм градиента политики, который использует полностью связанную нейронную сеть с двумя скрытыми слоями по 64 узла. Для реализации PPO используется библиотека на основе PyTorch, которая позволяет разработчику обучать и оценивать различные модели с помощью многоагентных политик, даже используя совместную оптимизацию (рис. 1.2).

Он интегрирован в структуру OpenAI Gym, набор инструментов для разработки и сравнительного анализа задач обучения с подкреплением, который, в случае Assistive Gym, создает основанную на физике среду, в которой роботы могут помогать людям с шестью различными задачами. Эти задачи чаще требуются взрослым, чья деятельность зависит от повседневной жизни:

- Царапание Небольшой царапающий инструмент удерживается концевым эффектором робота, который должен достичь цели, случайно размещенной программным обеспечением, и совершить царапающие движения рядом с этой целью.

- Ванна для кровати. Пользователь лежит на кровати, а робот должен использовать тампон для очистки правой руки. Чтобы контролировать скорость чистящего рычага, он заполняется частицами, равномерно распределенными по длине рычага.

- Одевание Робот держит больничную рубашку и должен протянуть руку над левой рукой человека.

- Питьё Робот держит чашку, наполненную мелкими частицами, имитирующими жидкость. Цель состоит в том, чтобы поместить эти частицы в рот, не проливая.

- Манипуляция руками. Цель этого движения — положить правую руку пользователя на кровать и приблизить ее к туловищу пользователя, вися на кровати.

- Кормление. Это действие заключается в кормлении пользователя, сидящего в кресле, с помощью ложки, полной имитирующих пищу частиц, помещенной на концевой эффектор робота.

Для каждого движения и окружающей среды исходное положение и ориентация робота рассчитываются с оптимизацией для достижения лучшей производительности. Награды применяются следующим образом.

5*1 f* Ж liwi >11 J

Ц)

Рисунок 1.2. Четыре робота в тренажерном зале, выполняющие шесть различных задач, перечисленных в тексте.

Успешно справляться с поставленной задачей, всегда учитывая человеческие предпочтения и силы взаимодействия между роботом и человеком. Очень важно учитывать предпочтения человека, поскольку это ключевой момент для внедрения вспомогательных роботов.

Assistive Gym также предоставляет исследователям инструменты для разработки собственных сред, включая роботов и задачи с разными размерами и ограничениями на суставы, а также различные алгоритмы обучения политике управления, которые можно легко сравнить.

Применяемыми роботами являются четыре коммерческих робота, как показано на рисунке 1.3: роботы Yaco, Sawyer, Baxter и PR2. Однако, как упоминалось ранее, легко могут быть внедрены и другие роботы, такие как TiaGo, принадлежащий лаборатории, в которой

разрабатывался проект. Подводя итог, можно сказать, что существует 48 различных комбинаций роботов, задач и возможных совместных оптимизаций.

robot

obot cl^Her robot

Рисунок 1.3. Описание некоторых роботов в программном обеспечении Assistive Gym.

Имитированные человеческие суставы моделируются с теми же ограничениями, что и реальное человеческое тело, поскольку цель состоит в том, чтобы позволить роботам научиться безопасно оказывать помощь, не вызывая дискомфорта. Кроме того, программное обеспечение учитывает возможность того, что пользователь имеет ту или иную форму или ограниченные двигательные функции, и роботы учатся оказывать лучшую помощь в таких ситуациях, моделируя это как совместную задачу оптимизации, которой обучаются и человек, и робот. .

Как показано на рисунке 1.4, представлены стандартные модели человека мужского и женского пола, размеры и границы суставов которых соответствуют опубликованным значениям 50-го процентиля. [23] Интересно, что при столкновении между различными частями тела активируются 40 управляемых суставов. Смоделированные ограничения включают в себя: тремор головы и рук, слабость суставов и ограниченный диапазон движений.

Рисунок 1.4. Женские и мужские модели по умолчанию в Assistive Gym.

Они также реализовали оптимизацию политики (PPO) через написанную ими библиотеку PyTorch. Для использования этой библиотеки необходима установка библиотеки OpenAI Baselines. Для каждой задачи роботы обучались в общей сложности с использованием 10 000 000 временных шагов или 50 000 симуляционных презентаций (испытаний) для 36 агентов. Каждый прогон состоит из 200 временных шагов, что дает 20-секундную симуляцию. Политика на каждом шагу совершает новую операцию. После того как каждый субъект завершает один выход, выполняется 10 циклов обновления политики. Доказано, что PPO может изучить разумную политику управления для всех четырех роботов. [2] Наконец, дизайнеры сравнивают обученную политику для каждой из 48 возможных комбинаций, 100 испытаний в каждой среде, чтобы оценить производительность каждого робота для

конкретной задачи. Их работа доказывает, что Assistive Gym — это мощная платформа с открытым исходным кодом для разработки автономных роботов, которые могут оказывать физическую помощь.

СПИСОК ЛИТЕРАТУРЫ

1. N. S. Usevitch, Z. M. Hammond, and M. Schwager, "Locomotion of linear actuator robots through kinematic planning and nonlinear optimization," IEEE Transactions on Robotics, vol. 36, no. 5, pp. 1404-1421, 2020.

2. [128] O. Goury and C. Duriez, "Fast, generic, and reliable control and simulation of soft robots using model order reduction," IEEE Transactions on Robotics, vol. 34, no. 6, pp. 1565-1576, 2018.

3. [129] R. K. Katzschmann, M. Thieffry, O. Goury, A. Kruszewski, T.-M. Guerra, C. Duriez, and D. Rus, "Dynamically closed-loop controlled soft robotic arm using a reduced order finite element model with state observer," in IEEE International Conference on Soft Robotics, pp. 717-724, 2019.

4. [130] S. Park, E. Park, M. Yim, J. Kim, and T. Seo, "Optimization-based nonimpact rolling locomotion of a variable geometry truss," IEEE Robotics and Automation Letters, vol. 4, no. 2, pp. 747-752, 2019.

ОПТИМИЗАЦИЯ ПРОКСИМАЛЬНОЙ ПОЛИТИКИ АВТОНОМНЫХ РОБОТОВ-ПОМОЩНИКОВ Текст научной статьи по специальности «Техника и технологии»

Аннотация научной статьи по технике и технологии, автор научной работы — Гаджиева Рена Фарамаз Г., Султанлы Аббас Алифага О.

Похожие темы научных работ по технике и технологии , автор научной работы — Гаджиева Рена Фарамаз Г., Султанлы Аббас Алифага О.

Текст научной работы на тему «ОПТИМИЗАЦИЯ ПРОКСИМАЛЬНОЙ ПОЛИТИКИ АВТОНОМНЫХ РОБОТОВ-ПОМОЩНИКОВ»