Iskani niz je bil najden v DRUGI VSEBINI:
doučitev
prilagoditev modela v strojnem učenju, ki za izhodišče učenja uporabi že naučeni model ali del modela in ga z učenjem s prenosom osveži glede na podane učne primere
en fine tuning
epizoda
pri spodbujevanem učenju zaporedje izkušenj agenta pri interakciji z okoljem, ki se zaključi s prehodom v končno stanje okolja ali po izvedbi vnaprej določenega števila akcij
en episode
epoha
prehod skozi celotno množico učnih vzorcev pri učenju umetnih nevronskih mrež
en epoch
faktor znižanja
vrednost med 0 in 1, s katero se pri spodbujevanem učenju obtežijo prihodnje nagrade agenta, zaradi česar se prispevek časovno bolj oddaljenih nagrad eksponentno zmanjšuje
en discount factor
funkcija vrednosti akcije
predpis, ki pri spodbujevanem učenju za vsak par stanja okolja in akcije agenta določa pričakovano vrednost skupne nagrade, ki jo agent pridobi, če začne v danem stanju in izvede dano akcijo, v nadaljevanju pa akcije izvaja glede na svojo trenutno strategijo
en action-value function; Q-function