#OFN Conceptos Clave de la Maximización de Recompensas

Interacción Entre Agente y Entorno:

El sistema de IA (agente) interactúa con su entorno, recibiendo retroalimentación en forma de recompensas por sus acciones.

Ejemplo en #OpenfabricA I: Un bot de trading en un mercado financiero toma acciones (comprar, vender, mantener) y recibe ganancias o pérdidas como recompensas.

Función de Recompensa:

Una función que mapea cada acción tomada en un estado dado a una recompensa numérica.

Ejemplo: En un motor de recomendaciones, se podría asignar una recompensa basada en si un usuario hace clic en un artículo sugerido o realiza una compra.

Recompensa Acumulativa:

El objetivo no es maximizar recompensas inmediatas, sino la recompensa total esperada a lo largo del tiempo.

Fórmula:

=

+

1

+

+

2

+

2

+

3

+

G

t

=R

t+1

+γR

t+2

2

R

t+3

+…

G_t es el retorno total comenzando desde el paso de tiempo t,

γ (gamma) es el factor de descuento que controla la importancia de las recompensas futuras.

Política (π):

Una estrategia que define las acciones a tomar en cada estado para maximizar recompensas.

Ejemplo: La política de un chatbot determina cómo responder a las entradas del usuario para mantener a los usuarios comprometidos y satisfechos.