재형이의 성장통 일지
  • Markov Decision Process
    2024년 03월 27일 06시 05분 53초에 업로드 된 글입니다.
    작성자: 재형이
    반응형

     

     

    • 요즘 마음이 너무 싱숭생숭하다
    • 무엇이 문제일까? 사실 무엇이 문제인지는 알고 있는데 쉽지가 않다
    • 지금은 내가 해야할 것에만 집중할 수 있도록...그러다보면... 모르겠다ㅋ

     

     

     


     

     

     

     

    Markov Decision Process

    a0=자장가를 불러줌, a1=같이 놀아줌

     

    • 액션이 추가되었다
      • 액션의 집합 A = {𝑎0, 𝑎1}
    • MP ≡ {𝑆, 𝑃}
    • MRP ≡ {𝑆, 𝑃, 𝑅, 𝛾}
    • MDP ≡ {𝑆, 𝑃, 𝑅, 𝛾, 𝐴}
    • 𝑆 : 상태의 집합
      • 𝑆 = {𝑠0, 𝑠1, 𝑠2, 𝑠3, 𝑠4}
    • 𝑃 : 전이 확률
    • $P^{a}_{ss'}$ : s 에서 a를 했을때 s’에 도달할 확률
    • $P^{a}_{ss'}= ℙ[s_{t+1}=s'|s_{t}=s,a_{t}=a]$
    • 형태가 약간 바뀜
      • MP, MRP : $P_{ss'}$
      • MDP : $P^{a}_{ss'}$
    • 전이 확률 예시
      • $P^{a_{2}}_{s_{0}s'_{2}}=0.6$
      • $P^{a_{2}}_{s_{0}s'_{1}}=0.4$
    • 사실 위의 그림에서 중간에 점이 없이 그냥 화살표로만 이어진 부분은 확률이 100%이기 때문에 중간에 점을 생략한 것이다.

    이 둘은 같은 뜻이다

    • 𝑅 : 보상 함수
      • $R^{a}_{s}= 𝔼[r_{t+1}|s_{t}=s,a_{t}=a]$
    • 𝛾 : 감쇠 인자
    • 실제 환경은 그림으로 표현하기 힘들 정도로 더욱 복잡하다. 위의 아이가 잠에 드는 Markov Decision Process는 쉬운 예시일 뿐

    Policy

    • Policy func는 에이전트가 MDP 안에서 어떤 정책을 갖고 움직일지 나타내는 함수
    • 𝜋(𝑎|𝑠) 로 표현
      • 상태 s에서 a를 선택할 확률
    • 예시
      • 𝜋 (𝑎0|𝑠0) = 0.2
      • 𝜋 (𝑎1|𝑠0) = 0.5
      • 𝜋 (𝑎2|𝑠0) = 0.3

    Value

    • Policy 는 𝜋 로 고정되었다 가정
    • 에피스도를 샘플링해보면 매번 다른 결과를 얻게 된다

    • 그 때마다 리턴 값도 달라진다
      • $G_{t}=r_{t+1}+γr_{t+2}+γ^{2}r_{t+3}+γ^{3}r_{t+4}+...$
    • Value는 어떤 상태의 가치를 판단하는 기준이 된다
    • Value를 계산할 때 과거를 고려하지 않고 미래를 고려하여 값을 계산하는 것처럼 우리도 무언가를 성취하고자 할 때 앞으로의 미래를 생각하며 준비하게 된다. 딥러닝이 인간의 뇌구조를 따라한 것처럼 강화학습은 우리의 인생을 따라하려고 한 것이 아닐까?란 생각을 해본다
    • $v_𝜋 (s)= 𝔼_ 𝜋 [r_{t+1}+γr_{t+2}+γ^{2}r_{t+3}+γ^{3}r_{t+4}+|s_t=s]\\ =𝔼_𝜋 [𝐺_𝑡|𝑠_𝑡 = 𝑠]$
    • 𝜋 를 이용해 상태 s에서 시작해 끝까지 움직일 때 얻게 될 리턴의 기댓값

    Action Value

    • $𝑞_𝜋(𝑠, 𝑎) = 𝔼_𝜋 [𝐺_𝑡|𝑠_𝑡 = 𝑠, 𝑎_𝑡 = 𝑎]$
    • s 에서 a를 선택하고, 이후에 𝜋 를 이용해 끝까지 움직일 때 얻게 될 리턴의 기댓값

     

     

     

     

     

     


     

     

     

     

     

     

    반응형
    댓글