IZU: Projekt 3

Uvažujte dvourozměrný obdélníkový stavový prostor o rozměrech s těmito indexy jednotlivých stavů: Dále uvažujte, že aktuální ohodnocení jednotlivých stavů po předchozích procházkách je následující (zkratkami rew= jsou označeny odměny / rewards): Metodou TD–learning s koeficienty vypočítejte nová ohodnocení všech stavů po procházce stavy:

a výsledek zapište ve tvaru matice s čísly zaokrouhlenými na desetinná místa.

TD–learning pro IZU

Nastav si zadání:

Výsledek