Markov decision process задається 1) скінченними множинами St станів, для кожного t з T. 2) скінченними множинами At дій, для кожного t з T. 3) для кожного стану st з St і кожної дії at з At, задано ймовірніснісний розподіл переходу pt( . / st, at), для кожного t з T. 4) задано функцію винагороди rt : St * At -> R, для всіх t з T.
"Визначення: Markov decision process"
No comments yet. -