Termania - Rezultati iskanja

spodbujevano učenje, pri katerem agent optimizira drugo strategijo od tiste, ki jo uporablja za izbiro akcij
en off-policy learning

spodbujevano učenje, pri katerem agent optimizira tisto strategijo, ki jo uporablja tudi za izbiro akcij
en on-policy learning