#OFN Ключевые концепции максимизации вознаграждений

Взаимодействие агента и окружающей среды:

Искусственная интеллектуальная система (агент) взаимодействует со своей окружающей средой, получая обратную связь в виде вознаграждений за свои действия.

Пример в #OpenfabricA I: Торговый бот на финансовом рынке принимает действия (покупка, продажа, удержание) и получает прибыль или убытки в качестве вознаграждений.

Функция вознаграждения:

Функция, которая сопоставляет каждое действие, выполненное в данном состоянии, с числовым вознаграждением.

Пример: В рекомендательной системе вознаграждение может быть назначено в зависимости от того, нажимает ли пользователь на предложенный товар или совершает покупку.

Кумулятивное вознаграждение:

Цель состоит не в максимизации немедленных вознаграждений, а в максимизации общего ожидаемого вознаграждения с течением времени.

Формула:

=

+

1

+

+

2

+

2

+

3

+

G

t

=R

t+1

+γR

t+2

2

R

t+3

+…

G_t — это общая отдача, начиная с временного шага t,

γ (гамма) — это коэффициент дисконтирования, контролирующий важность будущих вознаграждений.

Политика (π):

Стратегия, которая определяет действия, которые следует предпринимать в каждом состоянии для максимизации вознаграждений.

Пример: Политика чат-бота определяет, как отвечать на ввод пользователя, чтобы удерживать пользователей вовлеченными и удовлетворенными.