Iskani niz je bil najden v DRUGI VSEBINI:
algoritem minimaks
algoritem nasprotniškega iskanja optimalne poteze agenta v igrah s popolno informacijo in ničelno vsoto, ki z iskanjem v globino drevo igre razvije do določene globine in ocene listov prenaša proti korenu po načelu izmenične izbire maksimalne in minimalne vrednosti naslednikov
en minimax algorithm
epizoda
pri spodbujevanem učenju zaporedje izkušenj agenta pri interakciji z okoljem, ki se zaključi s prehodom v končno stanje okolja ali po izvedbi vnaprej določenega števila akcij
en episode
faktor znižanja
vrednost med 0 in 1, s katero se pri spodbujevanem učenju obtežijo prihodnje nagrade agenta, zaradi česar se prispevek časovno bolj oddaljenih nagrad eksponentno zmanjšuje
en discount factor
funkcija vrednosti akcije
predpis, ki pri spodbujevanem učenju za vsak par stanja okolja in akcije agenta določa pričakovano vrednost skupne nagrade, ki jo agent pridobi, če začne v danem stanju in izvede dano akcijo, v nadaljevanju pa akcije izvaja glede na svojo trenutno strategijo
en action-value function; Q-function
izkušnja
pri spodbujevanem učenju posamezen korak interakcije agenta z okoljem, ki je podan z izvedeno akcijo agenta, stanjem pred akcijo, stanjem po akciji in pridobljeno nagrado
en experience
kompromis raziskovanje-izkoriščanje
pri spodbujevanem učenju uravnoteževanje izbire med izvajanjem še nepreizkušenih akcij in najboljših doslej preizkušenih akcij agenta
en exploration-exploitation trade-off
nasprotniško iskanje
iskanje optimalne poteze agenta v tekmovalni igri, npr. algoritem minimaks
en adversarial search
planiranje
področje umetne inteligence, ki se ukvarja z razvojem algoritmov za avtomatsko določanje strategij delovanja ali zaporedij akcij, ki naj bi avtonomnega agenta, npr. mobilnega robota, spoznavnega robota, privedle do izpolnitve podanega cilja
en planning