[ 인공지능/강화학습 ]
벨만 최적 방정식
2024-03-29 06:38:07
아 졸려... 벨만 최적 방정식 Bellman Optimality Equation 벨만 최적 방적식도 앞에서 보았던 벨만 기대 방정식과 비슷하게 0단계와 1,2단계로 나누어져있다 0단계 $v_{*}(s_t) = \max_a \mathbb{E}[r_{t+1} + \gamma v_{*}(s_{t+1})]$ $q_{*}(s_t, a_t) = \mathbb{E}[r_{t+1} + \gamma \max_{a'} q_{*}(s_{t+1}, a')]$ maxa는 모든 가능한 행동 a에 대하여 최댓값을 선택함을 의미하며, E는 기댓값을 의미 1단계 $v_*(s) = \max_a q_*(s, a)$ $q_*(s, a) = r_s^a + \gamma \sum_{s' \in S} P_{ss'}^a v_*(s')$ 2단계 $..