방명록
- 벨만 기대 방정식2024년 03월 28일 06시 17분 07초에 업로드 된 글입니다.작성자: 재형이반응형
- 석사 취득 후, 박사? 기술사? 현실적인 상황을 고려... 박사는 돈과 시간, 기술사는 시간과 상대적 낮은 기대 수익
- 아버지...! 청주에서 듣고 있다면 정답을 알려줘...
- 강화학습에서 벨류를 구하는 것은 매우 중요하다
- 그렇다면 벨류를 어떻게 구할 수 있을까? 벨만 방정식
- 벨만 방정식에는 벨만 기대 방정식(Bellman Expectation Equation)과 벨만 최적 방정식(Bellman Optimality Equation)이 있다
벨만 기대 방정식 (Bellman Expectation Equation)
- 벨만 기대 방정식은 0단계, 1단계, 2단계로 이루어진다
- 벨만 기대 방정식은 벨류들의 재귀적 관계에 대한 식이다
- 0단계
- $v_{\pi}(s_t) = \mathbb{E}_{\pi}[r_{t+1} + \gamma v_{\pi}(s_{t+1})]$
- $q_{\pi}(s_t, a_t) = \mathbb{E}_{\pi}[r_{t+1} + \gamma q_{\pi}(s_{t+1}, a_{t+1})]$
- 1단계
- $v_{\pi}(s) = \sum_{a \in A} \pi(a|s) q_{\pi}(s, a)$
- $q_{\pi}(s, a) = r_s^a + \gamma \sum_{s' \in S} P_{ss'}^a v_{\pi}(s')$
- 2단계
- $v_{\pi}(s) = \sum_{a \in A} \pi(a|s) \left( r_s^a + \gamma \sum_{s' \in S} P_{ss'}^a v_{\pi}(s') \right)$
- $q_{\pi}(s, a) = r_s^a + \gamma \sum_{s' \in S} P_{ss'}^a \sum_{a' \in A} \pi(a'|s') q_{\pi}(s', a')$
벨만 기대 방정식의 증명
0단계
- $v_{\pi}(s_t) = \mathbb{E}_{\pi}[r_{t+1} + \gamma v_{\pi}(s_{t+1})]$
- $v_{\pi}(s_t) = \mathbb{E}_{\pi}[G_t] \\
= \mathbb{E}_{\pi}[r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} + \ldots] \\
= \mathbb{E}_{\pi}[r_{t+1} + \gamma (r_{t+2} + \gamma r_{t+3} + \ldots)] \\
= \mathbb{E}_{\pi}[r_{t+1} + \gamma G_{t+1}] \\
= \mathbb{E}_{\pi}[r_{t+1} + \gamma v_{\pi}(s_{t+1})]
$ - $G_t=r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} + \ldots$라는건 리턴의 정의이다
- E라는 기댓값 안에 있기 때문에 $\gamma (r_{t+2} + \gamma r_{t+3} + \ldots)$가 $\gamma G_{t+1}$로 표현이 가능하다
1단계
1단계 - $𝑞_𝜋$를 이용해 $𝑣_𝜋$ 계산하기
- 위와 같이 각 액션에 대한 $q_𝜋$의 값이 주어져 있을 때
- 상태 s의 벨류 $v_𝜋(s)$를 구하고 싶다면?
- 위 식을 이용하면 된다
1단계 - $𝑣_𝜋$를 이용해 $𝑞_𝜋$ 계산하기
- 위와 같이 다음에 도달할 수 있는 각 상태에 대한 $v_𝜋$의 값이 주어져 있을 때
- 상태 s에서 a를 선택하는 것의 액션 벨류 $q_𝜋(s,a)$를 구하고 싶다면?
- 위 식을 이용하면 된다
2단계
- 2단계는 가장 복잡해보이지만 그냥 대입만 해주면 끝이다
벨만 기대 방정식 결론
- 그렇다면 벨만 기대 방정식을 언제 쓸 수 있느냐?
- 보상 함수와 전이 확률은 환경의 일부입니다. 이 2가지를 알 때 MDP를 안다고 표현
- 보상함수와 전이확률을 알 때 (MDP를 알고 있을 때)
- Model-Based(모델 기반) or Planning(플래닝) 접근법: 실제로 경험해 보지 않고 머릿속에서 시뮬레이션 해보는 것만으로도 강화학습을 할 수 있다
- 2단계 벨만 기대 방정식 이용
- 보상함수와 전이확률을 모를 때 (즉, MDP를 모를 때)
- Model-Free 접근법: 그 상태에서 실제로 액션을 해보고 경험(Experience)을 통해 학습하게 됨
- 0단계 벨만 기대 방정식 이용
- 결론적으로 보면 MDP에 대한 정보를 알 때는 2단계 식을 사용하고, MDP에 대한 정보를 모를 때는 0단계를 사용한다
바닥부터 배우는 강화 학습 - 예스24
강화 학습 기초 이론부터 블레이드 & 소울 비무 AI 적용까지강화 학습을 모르는 초보자도 쉽게 이해할 수 있도록 도와주는 입문서다. 현업의 강화 학습 전문가가 직접 설명해 강화 학습에 가장
www.yes24.com
반응형'인공지능 > 강화학습' 카테고리의 다른 글
MDP를 알 때의 플래닝 (0) 2024.03.30 벨만 최적 방정식 (2) 2024.03.29 Markov Decision Process (4) 2024.03.27 Markov Process, Markov Reward Process (2) 2024.03.26 에이전트, Exploitation, Exploration (6) 2024.03.25 다음글이 없습니다.이전글이 없습니다.댓글