Информация

Как сгенерировать сигнал вознаграждения в алгоритме обучения временной разнице (TD)?

Как сгенерировать сигнал вознаграждения в алгоритме обучения временной разнице (TD)?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Применительно к алгоритму обучения TD, предложенному Саттоном и Барто, который задается уравнениями:

$$ V_i (t + 1) = V_i (t) + beta bigg ( lambda (t + 1) + gamma bigg [ sum_ {j} V_j (t) X_j (t + 1) bigg]) - bigg [ sum_ {j} V_j (t) X_j (t) bigg] bigg) alpha bar {X} _i (t + 1), bar {X} _i (t + 1) = bar {X} _i (t) + delta big (X_i (t) - bar {X} _i (t) big) $$ У меня есть следующие сомнения:

  1. Если я хочу смоделировать алгоритм в автономной среде, как мне сгенерировать сигнал вознаграждения $ lambda (t + 1) $?
  2. Как $ lambda (t + 1) $ связана с обусловливающим стимулом и безусловным стимулом?

Например, если бы я хотел смоделировать облегчение удаленной ассоциации с помощью промежуточного стимула в модели TD, как показано на рис. ниже, тогда будет ли достаточно, если я буду рассматривать «лямбда» как сигнал, представленный США?

Я смог разработать подходящие CSA и CSB. Однако, когда я использую $ lambda $, как указано на изображении US, я не получаю результат, показанный в испытаниях. Что могло пойти не так в формулировке награды?

Уравнения можно найти в главе 12 книги Саттона и Барто, 1990. Эта глава называется «Временные модели павловского армирования».

Саттон, Р. С., и Барто, А. Г. (1990). Обучающая и вычислительная нейробиология: основы адаптивных сетей. A / 1 IT Press, Кембридж, Массачусетс, 497-437.


TD (λ) в Delphi / Pascal (обучение временной разнице)

У меня есть искусственная нейронная сеть, которая играет в крестики-нолики, но она еще не завершена.

Что у меня еще есть:

  • массив вознаграждений «R [t]» с целочисленными значениями для каждого временного шага или хода «t» (1 = игрок A выигрывает, 0 = ничья, -1 = выигрывает игрок B)
  • Входные значения правильно распространяются по сети.
  • формула регулировки весов:

Чего не хватает:

  • Обучение TD: мне все еще нужна процедура, которая "распространяет" ошибки сети в обратном направлении, используя алгоритм TD (λ).

Но я не очень понимаю этот алгоритм.

Мой подход на данный момент.

Параметр затухания следа λ должен быть «0,1», поскольку дистальные состояния не должны получать такую ​​большую часть вознаграждения.

Скорость обучения составляет «0,5» в обоих слоях (входном и скрытом).

Это случай отложенного вознаграждения: вознаграждение остается равным «0» до конца игры. Тогда награда становится «1» за победу первого игрока, «-1» за победу второго игрока или «0» в случае ничьей.

Мои вопросы:

  • Как и когда вычислить ошибку сети (ошибку TD)?
  • Как можно реализовать «обратное распространение» ошибки?
  • Как веса корректируются с помощью TD (λ)?

Огромное спасибо заранее :)


Выбор домена для обучения с подкреплением

Один из способов представить автономного агента обучения с подкреплением - это слепой человек, пытающийся ориентироваться в мире, используя только уши и белую трость. У агентов есть маленькие окна, которые позволяют им воспринимать окружающую среду, и эти окна могут быть даже не самым подходящим способом для них воспринимать то, что их окружает.

Заинтересованы в обучении с подкреплением?

Автоматически применяйте RL к сценариям использования моделирования (например, колл-центры, складские помещения и т. Д.) С помощью Pathmind.

(Фактически, решая какие типы ввода и обратной связи, на которые должен обратить внимание ваш агент, - это сложная проблема. Это называется выбором домена. Алгоритмы, которые учатся играть в видеоигры, могут в большинстве случаев игнорировать эту проблему, поскольку среда создана человеком и строго ограничена. Таким образом, видеоигры обеспечивают стерильную среду лаборатории, где можно проверить идеи об обучении с подкреплением. Выбор предметной области требует человеческих решений, обычно основанных на знаниях или теориях о проблеме, которую необходимо решить, например выбор области ввода для алгоритма в беспилотном автомобиле может включать выбор включения радарных датчиков в дополнение к камерам и данным GPS.)


Ключевые слова

Сен Ван доцент Школы программной инженерии Чунцинского университета, Чунцин, Китай. Он получил степень бакалавра, магистра и доктора философии. степень в области информатики в Университете науки и технологий Китая (USTC), Китайской академии наук (CAS) и Университете Цинхуа, Китай, в 2005, 2008 и 2014 годах, соответственно. Его исследовательские интересы включают кэширование в сети, информационные сети, облачные вычисления, программно-определяемые сети и виртуализацию сетевых функций.

Джун Би получил степень бакалавра, магистра и доктора философии. С 1990 по 1999 год он получил степень в области компьютерных наук Университета Цинхуа, Пекин, Китай. С 2000 по 2003 год он был научным сотрудником Исследовательского отдела коммуникационных наук Bell Labs и Центра передовых коммуникационных технологий Bell Labs, Нью-Джерси, США. В настоящее время он является профессором и директором отдела исследований сетевой архитектуры и IPv6 Института сетевых наук и киберпространства Университета Цинхуа, а также имеет степень доктора философии. Научный руководитель факультета компьютерных наук Университета Цинхуа. Он является старшим членом IEEE, ACM и почетным членом Китайской компьютерной федерации. Он был председателем Руководящей группы Азиатского будущего Интернет-форума, председателем семинаров INFOCOM NOM и ICNP CoolSDN, а также членом технического программного комитета NFOCOM, ICNP, CoNEXT, SOSR и т. Д.

Цзяньпин У профессор компьютерных наук и директор Центра сетевых исследований Университета Цинхуа, Пекин, Китай. С 1994 года он отвечал за Китайскую образовательную и исследовательскую сеть (CERNET), которая является крупнейшей академической сетью в мире, в качестве директора Сетевого центра и Технического совета. Он был председателем или членом программного комитета многих международных конференций, в том числе председателем FORTE / PSTV'1999 и членом программного комитета INFOCOM'2002, ICNP'2001 и 2006, FORTE / PSTV '1995–2003 и TESTCOM' 1995. –2006 и др. Его область специализации включает высокоскоростные компьютерные сети, Интернет и его приложения, тестирование сетевых протоколов и формальные методы.


Безмодельное предсказание

Динамическое программирование позволяет нам определять функции состояния-значения и действия-значения с учетом динамики (модели) системы. Он делает это математически, используя уравнения Беллмана и подключая динамику (вознаграждения и вероятности).

Если модель (вознаграждения и вероятности) системы неизвестна априори, мы можем эмпирически оценить функции ценности для данной политики. Мы делаем это, предпринимая действия в соответствии с данной политикой и принимая к сведению переходы между состояниями и вознаграждения. Выполнив достаточное количество испытаний, мы можем приблизиться к функциям ценности для данной политики.

Монте-Карло обучение

Это относится к экспериментам, которые проводятся как эпизоды. Каждый эпизод завершается, и следующий эпизод не зависит от текущего эпизода. Например, когда играют в настольную игру, каждая новая игра представляет собой отдельный эпизод.

При наличии политики в каждом состоянии предпринимаются действия в соответствии с политикой. Для состояния, которое наступило во время, рассчитывается отдача для конкретного прогона через завершение эпизода:

Вот награда, полученная за действия в состоянии в определенное время.

Такие возвраты добавляются для всех эпизодов, в течение которых государство посещается, чтобы получить общий доход для штата:

И подсчитывается количество эпизодов (или, в альтернативном методе, количество посещений ??), которые посещается состояние.

Ценность государства оценивается как средняя доходность, поскольку по закону больших чисел как.

Обратите внимание, что среднюю доходность можно рассчитать онлайн (в режиме реального времени) по мере запуска эпизодов, а не рассчитывать его только после завершения всех эпизодов следующим образом:

На практике в сценарии онлайн-обучения вместо того, чтобы взвешивать отдачу от текущего эпизода, используется постоянный коэффициент. Это приводит к формулировке:

Что за рассуждение? В отличие от среднего значения по всем эпизодам, возврату из недавних эпизодов придается больший вес, чем по старым эпизодам. Доходам от эпизодов присваиваются веса, которые экспоненциально убывают со временем.

Обучение по временной разнице (TD)

В отличие от обучения по методу Монте-Карло, обучение по временной разнице (TD) может изучать функцию ценности для неэпизодических экспериментов.

В обучении методом Монте-Карло мы просматриваем весь эпизод, отмечаем «реальную» отдачу, полученную в конце эпизода, и накапливаем эти реальные отдачи, чтобы оценить ценность состояния.

В обучении TD мы делаем следующее:

  1. мы инициализируем значение для каждого состояния.
  2. мы проводим эксперимент (согласно заданной политике) для определенного количества шагов (не обязательно до конца эпизода или эксперимента). Количество шагов, которые мы запускаем в эксперименте, обозначается как -step TD (или TD (), для краткости) обучения.
  3. мы отмечаем вознаграждение, полученное на этих этапах.
  4. Затем мы используем уравнение Беллмана, чтобы оценить отдачу от оставшейся части эксперимента. Эта предполагаемая доходность составляет. Этот предполагаемый общий доход называется целевым показателем TD.
  5. Мы обновляем аналогично онлайн-обучению Монте-Карло, за исключением того, что здесь мы используем ориентировочную доходность, а не доходность & # 8220real & # 8221. То есть мы обновляем, используя:. Величина называется ошибкой TD.

Как мы определяем в обучении TD ()? Мы не & # 8217t. В так называемом обучении TD () мы используем геометрическое взвешивание предполагаемой отдачи всех шагов, чтобы получить:


Концепция эксплуатации и разведки неразрывно связана с человеческой природой, где мы, люди, предпочитаем известное неизвестному. Например, идя в ресторан, вы можете пойти в свой любимый ресторан, так как еда вам там уже нравится, но до тех пор, пока вы не попробуете другой ресторан, вы не узнаете, есть ли лучший ресторан.

Эксплуатация, таким образом, совершает или совершает одно и то же действие, которое дает лучшую ценность из состояния (это часто называется жадным действием), в то время как исследование заключается в опробовании новых действий, которые могут дать лучшую отдачу в долгосрочной перспективе, даже если немедленная награда не может быть обнадеживающим. На приведенной выше диаграмме, если агент рассматривает только немедленное вознаграждение, следуя по красному пути, чтобы получить максимальное вознаграждение, он позже обнаружит, что синий путь, который имеет более высокое значение, даже при немедленном вознаграждении, ниже. Вот почему необходимы геологоразведочные работы, чтобы получить более долгую прибыль.


Заключение

Время и RL по большей части изучались отдельно, что привело к появлению в значительной степени неперекрывающихся вычислительных моделей. Однако здесь мы утверждали, что эти модели действительно имеют некоторые важные общие черты, и их согласование может обеспечить единое объяснение многих поведенческих и нейронных явлений. Хотя в этом кратком обзоре мы только набросали такой синтез, наша цель - заложить основы для будущего теоретического объединения.

Один открытый вопрос касается того, как согласовать разрозненные теоретические идеи о представлении времени, описанные в этой статье. В нашем синтезе была предложена центральная роль распределенных элементов представления времени, таких как микростимулы Людвига и др. (2008). Можно ли вместо этого использовать представление, полученное на основе полумарковской модели или модели кардиостимулятора-аккумулятора? Это возможно, но есть несколько причин, чтобы предпочесть представление микростимула. Во-первых, микростимулы естественным образом поддаются архитектуре аппроксимации линейных функций, которая широко используется в моделях RL базальных ганглиев. Напротив, полумарковская модель требует дополнительного вычислительного оборудования, и неясно, как включить модель кардиостимулятора-аккумулятора в теорию RL. Во-вторых, полумарковская модель учитывает взаимосвязь между временной точностью и длиной интервала за счет отклонения от нормативной структуры RL. В-третьих, как мы отмечали ранее, модели кардиостимуляторов-аккумуляторов имеют ряд других недостатков (см. Staddon and Higa, 1999, 2006 Matell and Meck, 2004 Simen et al., 2013), таких как отсутствие экономичности, неправдоподобные нейрофизиологические допущения и неверные поведенческие прогнозы. Тем не менее, будет интересно изучить, какие аспекты этих моделей могут быть успешно включены в следующее поколение моделей RL.

Заявление о конфликте интересов

Авторы заявляют, что исследование проводилось при отсутствии каких-либо коммерческих или финансовых отношений, которые могли бы быть истолкованы как потенциальный конфликт интересов.


Учебное пособие по обучению с подкреплением

Если вы ищете курс обучения с подкреплением для начинающих или продвинутых, убедитесь, что помимо базового введения он включает в себя глубокий анализ RL с акцентом на Q-Learning, Deep Q-Learning и продвинутые концепции в Политике. Градиенты с Doom и Cartpole. Вам следует выбрать учебник по обучению с подкреплением, который научит вас создавать структуру и шаги для формулирования проблемы с подкреплением и реализации RL. Вы также должны знать о последних достижениях RL. Я предлагаю вам посетить сообщества или сообщества по обучению с подкреплением, где эксперты в области науки о данных, профессионалы и студенты делятся проблемами, обсуждают решения и отвечают на вопросы, связанные с RL.

Машинное обучение или обучение с подкреплением - это метод анализа данных, который автоматизирует построение аналитических моделей. Это ветвь искусственного интеллекта, основанная на идее, что системы могут учиться на данных, выявлять закономерности и принимать решения с минимальным вмешательством человека.

Большинство отраслей, работающих с большими объемами данных, осознали ценность технологии машинного обучения. Собирая идеи из этих данных - часто в режиме реального времени, - организации могут работать более эффективно или получить преимущество перед конкурентами.

Курсы Data Analytics от Digital Vidya

Аналитика данных представляет собой более широкую картину машинного обучения. Подобно тому, как Data Analytics имеет различные категории, основанные на используемых данных, машинное обучение также выражает способ, которым одна машина изучает код или работает в контролируемой, неконтролируемой, полууправляемой и подкрепляющей манере.

Чтобы получить больше информации о подкреплении и его роли в аналитике данных, вы можете выбрать онлайн-программу или программу сертификации в классе. Если вы программист и хотите сделать карьеру в области машинного обучения или науки о данных, пройдите курс Data Analytics, чтобы получить более прибыльные варианты карьеры в области индуктивного логического программирования. Digital Vidya предлагает продвинутые курсы по аналитике данных. Актуальные для отрасли учебные программы, прагматичный подход, ориентированный на рынок, практический проект Capstone - одни из лучших причин для выбора Digital Vidya.

Самостоятельный технический коммуникатор, способный работать в предпринимательской среде, создавая все виды технического контента, включая системные руководства, примечания к выпуску продукта, руководства пользователя продукта, учебные пособия, руководства по установке программного обеспечения, технические предложения и официальные документы. К тому же заядлый блоггер и энтузиаст маркетинга в социальных сетях.

Дата: 26 июня 2021 г. (суббота)
Время: 10:30 - 11:30 (IST / GMT +5: 30)


Обучение с временной разницей

Обнаружение подсказки fERN показало, что участники оценивали промежуточные состояния с точки зрения будущего вознаграждения. Этот результат согласуется с классом моделей TD, в которых кредит присваивается на основе немедленных и будущих вознаграждений. Чтобы оценить, отражают ли поведенческие и ERP-результаты такой процесс RL, мы исследовали прогнозы трех алгоритмов RL: субъект / критик (Барто, Саттон, Андерсон, 1983), Q-обучение (Уоткинс, Дайан, 1992). и SARSA (Rummery & # x00026 Niranjan, 1994). Кроме того, мы рассмотрели варианты каждого алгоритма со следами соответствия и без них (Sutton & # x00026 Barto, 1998).

Модели

Актер / критик

Модель актер / критик (AC) изучает функцию предпочтений, п(с, а) и государственно-значение функции, V(s). Функция предпочтения, которая соответствует актеру, позволяет выбирать действие. Государственно-ценностная функция, соответствующая критику, позволяет оценить результат. После каждого результата критик вычисляет ошибку прогноза,

Параметр временной скидки & # x003b3 контролирует, насколько резко будущая награда дисконтируется, и критик рассматривает будущую награду как ценность следующего состояния. Критик использует ошибку предсказания для обновления функции значения состояния,

Параметр скорости обучения & # x003b1 определяет, насколько сильно взвешены недавние результаты. Используя ошибку предсказания для корректировки значений состояния, критик учится предсказывать сумму немедленной награды, рт+1, и дисконтированная стоимость будущего вознаграждения, & # x003b3 & # x000b7 V(sт+1).

Актер также использует ошибку предсказания для обновления функции предпочтений,

Используя ошибку предсказания для настройки предпочтений действий, актер учится выбирать выгодные варианты поведения. Вероятность выбора действия, & # x003c0(с, а), определяется решающим правилом softmax,

Параметр шума выбора, & # x003c4, контролирует степень случайности выбора. Решения становятся стохастическими, когда & # x003c4 увеличивается, и решения становятся детерминированными по мере того, как & # x003c4 уменьшается.

Q-обучение

AC и Q-обучение различаются двумя способами. Во-первых, Q-обучение использует функцию значения действия, Q(с, а), чтобы выбрать действия и оценить результаты. Во-вторых, Q-обучение рассматривает будущее вознаграждение как ценность оптимального действия в состоянии. т+1,

Агент использует ошибку предсказания для обновления значений действий (уравнение 6), и агент выбирает действия в соответствии с правилом принятия решения softmax.

SARSA

Как и Q-обучение, SARSA использует функцию значения действия, Q(с, а), чтобы выбрать действия и оценить результаты. Однако, в отличие от Q-обучения, SARSA рассматривает будущее вознаграждение как ценность фактического действия, выбранного в состоянии т+1,

Агент использует ошибку предсказания для обновления значений действий (уравнение 6), и агент выбирает действия в соответствии с правилом принятия решения softmax.

Следы права на участие

Хотя алгоритмы RL обеспечивают решение проблемы временного присвоения кредита, отслеживание правомочности может значительно повысить эффективность этих алгоритмов (Sutton & # x00026 Barto, 1998). Трассировки соответствия предоставляют временную запись событий, таких как посещение состояний или выбор действий, и они отмечают события как подходящие для обновления. Исследователи применили кривые соответствия критериям отбора к поведенческим и нейронным моделям (Bogacz, McClure, Li, Cohen, & # x00026, Montague, 2007, Gureckis, & # x00026, Love, Pan, Schmidt, Wickens, & # x00026, 2005, & # x00026, Hyland, 2007). В этом моделировании мы воспользовались тем фактом, что трассировки соответствия требованиям облегчают обучение, когда откладывают отдельные действия и награды (Sutton & # x00026 Barto, 1998).

В AC трасса состояния & # x02019s увеличивается при посещении состояния, и трассы исчезают в соответствии с параметром затухания & # x003bb,

Ошибка прогнозирования вычисляется обычным способом (уравнение 1), но сигнал ошибки используется для обновления всех состояний в соответствии с их правомочностью,

Отдельные трассировки сохраняются для пар состояний и действий # x02013, чтобы обновить функцию предпочтений, п(с, а). Точно так же в Q-Learning и SARSA трассировки сохраняются для пар состояние & # x02013, чтобы обновить функцию действие-значение, Q(с, а).


Сноски

Вклад авторов: P.W.G. написал газету.

Автор заявляет об отсутствии конфликта интересов.

Этот документ является результатом коллоквиума Артура М. Саклера Национальной академии наук «Количественная оценка поведения», который проходил 11–13 июня 2010 г. в здании AAAS в Вашингтоне, округ Колумбия. Полная программа и аудиофайлы большинства презентаций доступны на веб-сайте NAS по адресу www.nasonline.org/quantification.

Эта статья представляет собой прямое представление PNAS.

↵ * Важно признать, что существуют альтернативные взгляды на функцию этих нейронов. Берридж (53) утверждал, что дофаминовые нейроны играют роль, тесно связанную с описанной здесь ролью, которая упоминается как значимость стимулов. Редгрейв и Герни (54) утверждали, что дофамин играет центральную роль в процессах, связанных с вниманием.


TD (λ) в Delphi / Pascal (обучение временной разнице)

У меня есть искусственная нейронная сеть, которая играет в крестики-нолики, но она еще не завершена.

Что у меня еще есть:

  • массив вознаграждений «R [t]» с целочисленными значениями для каждого временного шага или хода «t» (1 = игрок A выигрывает, 0 = ничья, -1 = выигрывает игрок B)
  • Входные значения правильно распространяются по сети.
  • формула регулировки весов:

Чего не хватает:

  • Обучение TD: мне все еще нужна процедура, которая "распространяет" ошибки сети в обратном направлении, используя алгоритм TD (λ).

Но я не очень понимаю этот алгоритм.

Мой подход на данный момент.

Параметр затухания следа λ должен быть «0,1», так как дистальные состояния не должны получать такую ​​большую часть вознаграждения.

Скорость обучения составляет «0,5» в обоих слоях (входном и скрытом).

Это случай отложенного вознаграждения: вознаграждение остается равным «0» до конца игры. Тогда награда становится «1» за победу первого игрока, «-1» за победу второго игрока или «0» в случае ничьей.

Мои вопросы:

  • Как и когда вычислить ошибку сети (ошибку TD)?
  • Как можно реализовать «обратное распространение» ошибки?
  • Как веса корректируются с помощью TD (λ)?

Огромное спасибо заранее :)


Ключевые слова

Сен Ван доцент Школы программной инженерии Чунцинского университета, Чунцин, Китай. Он получил степень бакалавра, магистра и доктора философии. степень в области информатики в Университете науки и технологий Китая (USTC), Китайской академии наук (CAS) и Университете Цинхуа, Китай, в 2005, 2008 и 2014 годах, соответственно. Его исследовательские интересы включают кэширование в сети, информационные сети, облачные вычисления, программно-определяемые сети и виртуализацию сетевых функций.

Джун Би получил степень бакалавра, магистра и доктора философии. С 1990 по 1999 год он получил степень в области компьютерных наук Университета Цинхуа, Пекин, Китай. С 2000 по 2003 год он был научным сотрудником Исследовательского отдела коммуникационных наук Bell Labs и Центра передовых коммуникационных технологий Bell Labs, Нью-Джерси, США. В настоящее время он является профессором и директором отдела исследований сетевой архитектуры и IPv6 Института сетевых наук и киберпространства Университета Цинхуа, а также имеет степень доктора философии. Научный руководитель факультета компьютерных наук Университета Цинхуа. Он является старшим членом IEEE, ACM и почетным членом Китайской компьютерной федерации. Он был председателем Руководящей группы Азиатского будущего Интернет-форума, председателем семинаров INFOCOM NOM и ICNP CoolSDN, а также членом технического программного комитета NFOCOM, ICNP, CoNEXT, SOSR и т. Д.

Цзяньпин У профессор компьютерных наук и директор Центра сетевых исследований Университета Цинхуа, Пекин, Китай. С 1994 года он отвечал за Китайскую образовательную и исследовательскую сеть (CERNET), которая является крупнейшей академической сетью в мире, в качестве директора Сетевого центра и Технического совета. Он был председателем или членом программного комитета многих международных конференций, в том числе председателем FORTE / PSTV'1999 и членом программного комитета INFOCOM'2002, ICNP'2001 и 2006, FORTE / PSTV '1995–2003 и TESTCOM' 1995. –2006 и др. Его область специализации включает высокоскоростные компьютерные сети, Интернет и его приложения, тестирование сетевых протоколов и формальные методы.


Заключение

Время и RL по большей части изучались отдельно, что привело к появлению в значительной степени неперекрывающихся вычислительных моделей. Однако здесь мы утверждали, что эти модели действительно имеют некоторые важные общие черты, и их согласование может обеспечить единое объяснение многих поведенческих и нейронных явлений. Хотя в этом кратком обзоре мы только набросали такой синтез, наша цель - заложить основы для будущего теоретического объединения.

Один открытый вопрос касается того, как согласовать разрозненные теоретические идеи о представлении времени, описанные в этой статье. В нашем синтезе была предложена центральная роль распределенных элементов представления времени, таких как микростимулы Людвига и др. (2008). Можно ли вместо этого использовать представление, полученное на основе полумарковской модели или модели кардиостимулятора-аккумулятора? Это возможно, но есть несколько причин, чтобы предпочесть представление микростимула. Во-первых, микростимулы естественным образом поддаются архитектуре аппроксимации линейных функций, которая широко используется в моделях RL базальных ганглиев. Напротив, полумарковская модель требует дополнительного вычислительного оборудования, и неясно, как включить модель кардиостимулятора-аккумулятора в теорию RL. Во-вторых, полумарковская модель учитывает взаимосвязь между временной точностью и длиной интервала за счет отклонения от нормативной структуры RL. В-третьих, как мы отмечали ранее, модели кардиостимуляторов-аккумуляторов имеют ряд других недостатков (см. Staddon and Higa, 1999, 2006 Matell and Meck, 2004 Simen et al., 2013), таких как отсутствие экономичности, неправдоподобные нейрофизиологические допущения и неверные поведенческие прогнозы. Тем не менее, будет интересно изучить, какие аспекты этих моделей могут быть успешно включены в следующее поколение моделей RL.

Заявление о конфликте интересов

Авторы заявляют, что исследование проводилось при отсутствии каких-либо коммерческих или финансовых отношений, которые могли бы быть истолкованы как потенциальный конфликт интересов.


Концепция эксплуатации и разведки неразрывно связана с человеческой природой, где мы, люди, предпочитаем известное неизвестному. Например, идя в ресторан, вы можете пойти в свой любимый ресторан, так как еда вам там уже нравится, но до тех пор, пока вы не попробуете другой ресторан, вы не узнаете, есть ли лучший ресторан.

Эксплуатация, таким образом, совершает или совершает одно и то же действие, которое дает лучшую ценность от состояния (это часто называется жадным действием), в то время как исследование заключается в опробовании новых действий, которые могут дать лучшую отдачу в долгосрочной перспективе, даже если немедленная награда не может быть обнадеживающим. На приведенной выше диаграмме, если агент рассматривает только немедленное вознаграждение, следуя по красному пути, чтобы получить максимальное вознаграждение, он позже обнаружит, что синий путь, который имеет более высокое значение, даже при немедленном вознаграждении, ниже. Вот почему необходимы геологоразведочные работы, чтобы получить более долгую прибыль.


Выбор домена для обучения с подкреплением

Один из способов представить автономного агента обучения с подкреплением - это слепой человек, пытающийся ориентироваться в мире только своими ушами и белой тростью. У агентов есть маленькие окна, которые позволяют им воспринимать окружающую среду, и эти окна могут быть даже не самым подходящим способом для них воспринимать то, что их окружает.

Заинтересованы в обучении с подкреплением?

Автоматически применяйте RL к сценариям использования моделирования (например, колл-центры, складские помещения и т. Д.) С помощью Pathmind.

(Фактически, решая какие типы ввода и обратной связи, на которые должен обратить внимание ваш агент, - это сложная проблема. Это называется выбором домена. Алгоритмы, которые учатся играть в видеоигры, могут в большинстве случаев игнорировать эту проблему, поскольку среда создана человеком и строго ограничена. Таким образом, видеоигры обеспечивают стерильную среду лаборатории, где можно проверить идеи об обучении с подкреплением. Выбор предметной области требует человеческих решений, обычно основанных на знаниях или теориях о проблеме, которую необходимо решить, например выбор области ввода для алгоритма в беспилотном автомобиле может включать выбор включения радарных датчиков в дополнение к камерам и данным GPS.)


Обучение с временной разницей

Обнаружение реплики fERN показало, что участники оценивали промежуточные состояния с точки зрения будущего вознаграждения. Этот результат согласуется с классом моделей TD, в которых кредит присваивается на основе немедленных и будущих вознаграждений. Чтобы оценить, отражают ли поведенческие и ERP-результаты такой процесс RL, мы исследовали прогнозы трех алгоритмов RL: субъект / критик (Барто, Саттон, Андерсон, 1983), Q-обучение (Уоткинс, Дайан, 1992). и SARSA (Rummery & # x00026 Niranjan, 1994). Кроме того, мы рассмотрели варианты каждого алгоритма со следами соответствия и без них (Sutton & # x00026 Barto, 1998).

Модели

Актер / критик

Модель актер / критик (AC) изучает функцию предпочтений, п(с, а) и государственно-значение функции, V(s). Функция предпочтения, которая соответствует актеру, позволяет выбирать действие. Государственно-ценностная функция, соответствующая критику, позволяет оценить результат. После каждого результата критик вычисляет ошибку прогноза,

Параметр временной скидки & # x003b3 контролирует, насколько резко будущая награда дисконтируется, и критик рассматривает будущую награду как ценность следующего состояния. Критик использует ошибку предсказания для обновления функции значения состояния,

Параметр скорости обучения & # x003b1 определяет, насколько сильно взвешены недавние результаты. Используя ошибку предсказания для корректировки значений состояния, критик учится предсказывать сумму немедленной награды, рт+1, и дисконтированная стоимость будущего вознаграждения, & # x003b3 & # x000b7 V(sт+1).

Актер также использует ошибку предсказания для обновления функции предпочтений,

Используя ошибку предсказания для настройки предпочтений действий, актер учится выбирать выгодные варианты поведения. Вероятность выбора действия, & # x003c0(с, а), определяется решающим правилом softmax,

Параметр шума выбора, & # x003c4, контролирует степень случайности выбора. Решения становятся стохастическими, когда & # x003c4 увеличивается, и решения становятся детерминированными по мере того, как & # x003c4 уменьшается.

Q-обучение

AC и Q-обучение различаются двумя способами. Во-первых, Q-обучение использует функцию значения действия, Q(с, а), чтобы выбрать действия и оценить результаты. Во-вторых, Q-обучение рассматривает будущее вознаграждение как ценность оптимального действия в состоянии. т+1,

Агент использует ошибку предсказания для обновления значений действий (уравнение 6), и агент выбирает действия в соответствии с правилом принятия решений softmax.

SARSA

Как и Q-обучение, SARSA использует функцию значения действия, Q(с, а), чтобы выбрать действия и оценить результаты. Однако, в отличие от Q-обучения, SARSA рассматривает будущее вознаграждение как ценность фактического действия, выбранного в состоянии т+1,

Агент использует ошибку предсказания для обновления значений действий (уравнение 6), и агент выбирает действия в соответствии с правилом принятия решения softmax.

Следы права на участие

Хотя алгоритмы RL обеспечивают решение проблемы временного присвоения кредита, отслеживание правомочности может значительно повысить эффективность этих алгоритмов (Sutton & # x00026 Barto, 1998). Трассировки соответствия предоставляют временную запись событий, таких как посещение состояний или выбор действий, и они отмечают события как подходящие для обновления. Исследователи применили кривые соответствия критериям отбора к поведенческим и нейронным моделям (Bogacz, McClure, Li, Cohen, & # x00026, Montague, 2007, Gureckis & # x00026, Love, Pan, Schmidt, Wickens, & # x00026, 2005, & # x00026). В этом моделировании мы воспользовались тем фактом, что трассировки соответствия критериям облегчают обучение, когда откладывают отдельные действия и награды (Sutton & # x00026 Barto, 1998).

В AC трасса состояния & # x02019s увеличивается при посещении состояния, и трассы исчезают в соответствии с параметром затухания & # x003bb,

Ошибка предсказания вычисляется обычным способом (уравнение 1), но сигнал ошибки используется для обновления всех состояний в соответствии с их правомочностью,

Отдельные трассировки сохраняются для пар состояний и действий # x02013, чтобы обновить функцию предпочтений, п(с, а). Точно так же в Q-Learning и SARSA трассировки сохраняются для пар состояние & # x02013, чтобы обновить функцию действие-значение, Q(с, а).


Сноски

Вклад авторов: P.W.G. написал газету.

Автор заявляет об отсутствии конфликта интересов.

Этот документ является результатом коллоквиума Артура М. Саклера Национальной академии наук «Количественная оценка поведения», который проходил 11–13 июня 2010 г. в здании AAAS в Вашингтоне, округ Колумбия. Полная программа и аудиофайлы большинства презентаций доступны на веб-сайте NAS по адресу www.nasonline.org/quantification.

Эта статья представляет собой прямое представление PNAS.

↵*It is important to acknowledge that there are alternative views of the function of these neurons. Berridge (53) has argued that dopamine neurons play a role closely related to the one described here that is referred to as incentive salience. Redgrave and Gurney (54) have argued that dopamine plays a central role in processes related to attention.


Model-free prediction

Dynamic programming enables us to determine the state-value and action-value functions given the dynamics (model) of the system. It does this by mathematically using the Bellman equations and plugging in the dynamics (rewards and probabilities).

If the model (rewards and probabilities) of the system is not known a priori, we can empirically estimate the value functions for a given policy. We do this by taking actions according to the given policy, and taking note of the state transitions and rewards. By making enough number of trials, we are able to converge to the value functions for the given policy.

Monte-Carlo learning

This applies to experiments which are run as episodes. Each episode terminates and next episode is independent of the current episode. As an example, when a board game is played, each new game constitutes a separate episode.

Given a policy, action is taken in each state according to the policy. For a state that is arrived at time , return for a particular run through the termination of the episode is calculated:

Here, is the reward obtained by taking action in the state at time .

Such returns are added for all the episodes during which the state is visited to obtain total return for the state:

And, number of episodes (or in an alternate method, number of visits??) that the state is visited is calculated.

Value of the state is estimated as mean return , since by law of large numbers as .

Note that running average return can calculated online (real-time) as the episodes are run instead of calculating it only after all episodes are completed as follows:

In practice in online learning scenario, rather than using for weighing the return from current episode, a constant factor with is used. This leads to the formulation:

What is the reasoning? Rather than the average over all episodes, returns from recent episodes is given more weight than returns from old episodes. Returns from episodes are given weights that exponentially decrease with time.

Temporal-Difference (TD) learning

In contrast to Monte-Carlo learning, Temporal-Difference (TD) learning can learn the value function for non-episodic experiments.

In Monte-Carlo learning, we run through a complete episode, note the “real” return obtained through the end of the episode and accumulate these real returns to estimate the value of a state.

In TD learning, we do as follows:

  1. we initialize the value for each state.
  2. we run the experiment (according to the given policy) for a certain number of steps (not necessarily to the end of the episode or experiment). The number of steps we run the experiment is identified as -step TD (or TD(), for short) learning.
  3. we note the reward obtained in these steps.
  4. We then use the Bellman equation to estimate the return for the remaining of the experiment. This estimated return is . This estimated total return is called TD target.
  5. We update similar to online Monte-Carlo learning except that here, we use estimated return rather than the “real” return. That is, we update using: . The quantity is called TD error.

How do we determine in TD() learning? We don’t. In what is called TD() learning, we use geometric weighting of estimated returns of all steps to obtain:


Reinforcement Learning Tutorial

If you are looking for a beginner’s or advanced level course in Reinforcement Learning, make sure that apart from a basic introduction, it includes a deep delving analysis of RL with an emphasis upon Q-Learning, Deep Q-Learning, and advanced concepts into Policy Gradients with Doom and Cartpole. You should choose a Reinforcement Learning tutorial that teaches you to create a framework and steps for formulating a Reinforcement problem and implementation of RL. You should also know about recent RL advancements. I suggest you visit Reinforcement Learning communities or communities, where the data science experts, professionals, and students share problems, discuss solutions, and answers to RL-related questions.

Machine learning or Reinforcement Learning is a method of data analysis that automates analytical model building. It is a branch of artificial intelligence based on the idea that systems can learn from data, identify patterns and make decisions with minimal human intervention.

Most industries working with large amounts of data have recognized the value of machine learning technology. By gleaning insights from this data – often in real time – organizations are able to work more efficiently or gain an advantage over competitors.

Data Analytics courses by Digital Vidya

Data Analytics represents a bigger picture of Machine learning. Just as Data Analytics has various categories based on the Data used, Machine Learning also expresses the way one machine learns a code or works in a supervised, unsupervised, semi-supervised and reinforcement manner.

To gain more knowledge about Reinforcement and its role in Data Analytics you may opt for online or classroom Certification Programs. If you are a programmer looking forward to a career in machine learning or data science, go for a Data Analytics course for more lucrative career options in Inductive Logic Programming. Digital Vidya offers advanced courses in Data Analytics. Industry-relevant curriculums, pragmatic market-ready approach, hands-on Capstone Project are some of the best reasons for choosing Digital Vidya.

A self-starter technical communicator, capable of working in an entrepreneurial environment producing all kinds of technical content including system manuals, product release notes, product user guides, tutorials, software installation guides, technical proposals, and white papers. Plus, an avid blogger and Social Media Marketing Enthusiast.

Дата: 26th Jun, 2021 (Saturday)
Время: 10:30 AM - 11:30 AM (IST/GMT +5:30)



Комментарии:

  1. Aethelisdun

    Остынь!

  2. Todd

    Нет вообще. Я знаю.

  3. Colm

    Объединить. Я согласен со всем вышеупомянутым. Мы можем поговорить об этой теме.

  4. Avalloc

    Это замечательно, это забавный ответ

  5. Montrell

    Вы случайно не специалист?



Напишите сообщение