#OFN Ключевые концепции максимизации вознаграждений
Взаимодействие агента и окружающей среды:
Искусственная интеллектуальная система (агент) взаимодействует со своей окружающей средой, получая обратную связь в виде вознаграждений за свои действия.
Пример в
#OpenfabricA I: Торговый бот на финансовом рынке принимает действия (покупка, продажа, удержание) и получает прибыль или убытки в качестве вознаграждений.
Функция вознаграждения:
Функция, которая сопоставляет каждое действие, выполненное в данном состоянии, с числовым вознаграждением.
Пример: В рекомендательной системе вознаграждение может быть назначено в зависимости от того, нажимает ли пользователь на предложенный товар или совершает покупку.
Кумулятивное вознаграждение:
Цель состоит не в максимизации немедленных вознаграждений, а в максимизации общего ожидаемого вознаграждения с течением времени.
Формула:
�
�
=
�
�
+
1
+
�
�
�
+
2
+
�
2
�
�
+
3
+
…
G
t
=R
t+1
+γR
t+2
+γ
2
R
t+3
+…
G_t — это общая отдача, начиная с временного шага t,
γ (гамма) — это коэффициент дисконтирования, контролирующий важность будущих вознаграждений.
Политика (π):
Стратегия, которая определяет действия, которые следует предпринимать в каждом состоянии для максимизации вознаграждений.
Пример: Политика чат-бота определяет, как отвечать на ввод пользователя, чтобы удерживать пользователей вовлеченными и удовлетворенными.