Q-learning két állapot példa Diszkont tényező (γ): Akció 1 P(s→s1): R(s,a1,s1): V(s1): P(s→s2): R(s,a1,s2): V(s2): Akció 2 P(s→s1): R(s,a2,s1): V(s1): P(s→s2): R(s,a2,s2): V(s2): Q(s,a1) = 8.32 Q(s,a2) = 7.31 Optimális érték: V(s) = 8.32 Legjobb akció: a1