Iskani niz je bil najden v DRUGI VSEBINI:
učenje mimo strategije
spodbujevano učenje, pri katerem agent optimizira drugo strategijo od tiste, ki jo uporablja za izbiro akcij
en off-policy learning
učenje s časovno razliko
spodbujevano učenje, pri katerem agent po izvedbi akcije posodobi vrednost stanja v smeri vrednosti naslednjega stanja
en temporal difference learning
učenje s strategijo
spodbujevano učenje, pri katerem agent optimizira tisto strategijo, ki jo uporablja tudi za izbiro akcij
en on-policy learning
učinek obzorja
nezmožnost zaznavanja pomembnih dogodkov v prihodnosti igre, ki se pojavi pri nasprotniškem iskanju, ko zaradi časovne omejitve agent gradi drevo igre le do omejene globine in ne more predvideti celotnega razpleta izbranih potez
en horizon effect
underwriter
sl zavarovatelj; vpisnik (primarne) emisije/izdaje vrednostnih papirjev