#OFN Konsep Kunci dari Maksimalisasi Reward

Interaksi Agen dan Lingkungan:

Sistem AI (agen) berinteraksi dengan lingkungannya, menerima umpan balik dalam bentuk hadiah untuk tindakannya.

Contoh di #OpenfabricA I: Bot perdagangan di pasar keuangan mengambil tindakan (beli, jual, tahan) dan menerima keuntungan atau kerugian sebagai hadiah.

Fungsi Reward:

Sebuah fungsi yang memetakan setiap tindakan yang diambil dalam keadaan tertentu ke hadiah numerik.

Contoh: Dalam mesin rekomendasi, sebuah hadiah dapat diberikan berdasarkan apakah pengguna mengklik item yang disarankan atau melakukan pembelian.

Reward Kumulatif:

Tujuannya bukan untuk memaksimalkan hadiah langsung tetapi total hadiah yang diharapkan dari waktu ke waktu.

Rumus:

=

+

1

+

+

2

+

2

+

3

+

G

t

=R

t+1

+γR

t+2

2

R

t+3

+…

G_t adalah total pengembalian yang dimulai dari langkah waktu t,

γ (gamma) adalah faktor diskon yang mengontrol pentingnya hadiah di masa depan.

Kebijakan (π):

Sebuah strategi yang mendefinisikan tindakan yang harus diambil dalam setiap keadaan untuk memaksimalkan hadiah.

Contoh: Kebijakan chatbot menentukan bagaimana merespons input pengguna untuk menjaga pengguna tetap terlibat dan puas.