About

Q-learning két állapot példa

Diszkont tényező (γ):

Akció 1

P(s→s1): R(s,a1,s1): V(s1): P(s→s2): R(s,a1,s2): V(s2):

Akció 2

P(s→s1): R(s,a2,s1): V(s1): P(s→s2): R(s,a2,s2): V(s2):

Q(s,a1) = 8.32

Q(s,a2) = 7.31

Optimális érték: V(s) = 8.32

Legjobb akció: a1

An unhandled error has occurred. Reload 🗙