방명록
- Markov Decision Process2024년 03월 27일 06시 05분 53초에 업로드 된 글입니다.작성자: 재형이반응형
- 요즘 마음이 너무 싱숭생숭하다
- 무엇이 문제일까? 사실 무엇이 문제인지는 알고 있는데 쉽지가 않다
- 지금은 내가 해야할 것에만 집중할 수 있도록...그러다보면... 모르겠다ㅋ
Markov Decision Process
- 액션이 추가되었다
- 액션의 집합 A = {𝑎0, 𝑎1}
- MP ≡ {𝑆, 𝑃}
- MRP ≡ {𝑆, 𝑃, 𝑅, 𝛾}
- MDP ≡ {𝑆, 𝑃, 𝑅, 𝛾, 𝐴}
- 𝑆 : 상태의 집합
- 𝑆 = {𝑠0, 𝑠1, 𝑠2, 𝑠3, 𝑠4}
- 𝑃 : 전이 확률
- $P^{a}_{ss'}$ : s 에서 a를 했을때 s’에 도달할 확률
- $P^{a}_{ss'}= ℙ[s_{t+1}=s'|s_{t}=s,a_{t}=a]$
- 형태가 약간 바뀜
- MP, MRP : $P_{ss'}$
- MDP : $P^{a}_{ss'}$
- 전이 확률 예시
- $P^{a_{2}}_{s_{0}s'_{2}}=0.6$
- $P^{a_{2}}_{s_{0}s'_{1}}=0.4$
- 사실 위의 그림에서 중간에 점이 없이 그냥 화살표로만 이어진 부분은 확률이 100%이기 때문에 중간에 점을 생략한 것이다.
- 𝑅 : 보상 함수
- $R^{a}_{s}= 𝔼[r_{t+1}|s_{t}=s,a_{t}=a]$
- 𝛾 : 감쇠 인자
- 실제 환경은 그림으로 표현하기 힘들 정도로 더욱 복잡하다. 위의 아이가 잠에 드는 Markov Decision Process는 쉬운 예시일 뿐
Policy
- Policy func는 에이전트가 MDP 안에서 어떤 정책을 갖고 움직일지 나타내는 함수
- 𝜋(𝑎|𝑠) 로 표현
- 상태 s에서 a를 선택할 확률
- 예시
- 𝜋 (𝑎0|𝑠0) = 0.2
- 𝜋 (𝑎1|𝑠0) = 0.5
- 𝜋 (𝑎2|𝑠0) = 0.3
Value
- Policy 는 𝜋 로 고정되었다 가정
- 에피스도를 샘플링해보면 매번 다른 결과를 얻게 된다
- 그 때마다 리턴 값도 달라진다
- $G_{t}=r_{t+1}+γr_{t+2}+γ^{2}r_{t+3}+γ^{3}r_{t+4}+...$
- Value는 어떤 상태의 가치를 판단하는 기준이 된다
- Value를 계산할 때 과거를 고려하지 않고 미래를 고려하여 값을 계산하는 것처럼 우리도 무언가를 성취하고자 할 때 앞으로의 미래를 생각하며 준비하게 된다. 딥러닝이 인간의 뇌구조를 따라한 것처럼 강화학습은 우리의 인생을 따라하려고 한 것이 아닐까?란 생각을 해본다
- $v_𝜋 (s)= 𝔼_ 𝜋 [r_{t+1}+γr_{t+2}+γ^{2}r_{t+3}+γ^{3}r_{t+4}+|s_t=s]\\ =𝔼_𝜋 [𝐺_𝑡|𝑠_𝑡 = 𝑠]$
- 𝜋 를 이용해 상태 s에서 시작해 끝까지 움직일 때 얻게 될 리턴의 기댓값
Action Value
- $𝑞_𝜋(𝑠, 𝑎) = 𝔼_𝜋 [𝐺_𝑡|𝑠_𝑡 = 𝑠, 𝑎_𝑡 = 𝑎]$
- s 에서 a를 선택하고, 이후에 𝜋 를 이용해 끝까지 움직일 때 얻게 될 리턴의 기댓값
반응형'인공지능 > 강화학습' 카테고리의 다른 글
벨만 최적 방정식 (2) 2024.03.29 벨만 기대 방정식 (4) 2024.03.28 Markov Process, Markov Reward Process (2) 2024.03.26 에이전트, Exploitation, Exploration (6) 2024.03.25 강화 학습 - 지도학습과 강화학습, 순차적 의사결정, 리워드 (2) 2024.03.24 다음글이 없습니다.이전글이 없습니다.댓글