Tipkovnice
spodbujevano učenje, pri katerem agent optimizira drugo strategijo od tiste, ki jo uporablja za izbiro akcijen off-policy learning
spodbujevano učenje, pri katerem agent optimizira tisto strategijo, ki jo uporablja tudi za izbiro akcijen on-policy learning
Obvestilo o uporabi piškotkov
Trenutno imate izkljopljeno uporabo ne-nujnih piškotkov.
Ta stran uporablja piškotke. Z nadaljevanjem uporabe te strani soglašate z uporabo nujnih piškotkov. Za ne-nujne piškotke podajte izrecno soglasje.
Več o piškotkih
Dostopnost