TD–learning pro IZU

Je něco špatně? Napiš mi na Discordu!

Nastav si zadání:

Neboj, vše se zpracovává uvnitř prohlížeče a nic se nikam neposílá.

— nebo zadej ručně —

Uvažujte dvou­rozměrný obdél­níkový stavový prostor o roz­měrech
×
s těmito indexy jednot­livých stavů:
Dále uvažujte, že aktuální ohodno­cení jednot­livých stavů po před­chozích procház­kách je násle­dující (zkratkami rew= jsou ozna­čeny odměny / rewards):
Metodou TD–learning s koeficienty
alpha  =  a gamma  =
vy­počítejte nová ohodno­cení všech stavů po pro­cházce stavy:

a výsledek za­pište ve tva­ru ma­tice s čís­ly za­o­krou­hle­nými na desetinná místa.

Výsledek