#OFN المفاهيم الأساسية لتعظيم المكافآت
تفاعل الوكيل والبيئة:
يتفاعل نظام الذكاء الاصطناعي (الوكيل) مع بيئته، ويتلقى ملاحظات على شكل مكافآت عن أفعاله.
مثال في
#OpenfabricA I: يقوم روبوت تداول في سوق مالية باتخاذ إجراءات (شراء، بيع، احتفاظ) ويتلقى أرباحًا أو خسائر كمكافآت.
دالة المكافأة:
دالة تربط كل إجراء يتم اتخاذه في حالة معينة بمكافأة عددية.
مثال: في محرك التوصية، يمكن تعيين مكافأة بناءً على ما إذا كان المستخدم ينقر على عنصر مقترح أو يقوم بعملية شراء.
المكافأة التراكمية:
الهدف ليس تعظيم المكافآت الفورية ولكن تعظيم المكافأة الإجمالية المتوقعة على مر الزمن.
الصيغة:
�
�
=
�
�
+
1
+
�
�
�
+
2
+
�
2
�
�
+
3
+
…
G
t
=R
t+1
+γR
t+2
+γ
2
R
t+3
+…
G_t هو العائد الكلي بدءًا من خطوة الزمن t,
γ (غاما) هو عامل الخصم الذي يتحكم في أهمية المكافآت المستقبلية.
السياسة (π):
استراتيجية تحدد الأفعال التي يجب اتخاذها في كل حالة لتعظيم المكافآت.
مثال: تحدد سياسة روبوت الدردشة كيفية الرد على مدخلات المستخدمين للحفاظ على تفاعل المستخدمين ورضاهم.