재형이의 성장통 일지
  • 벨만 기대 방정식
    2024년 03월 28일 06시 17분 07초에 업로드 된 글입니다.
    작성자: 재형이
    반응형

     

     

    • 석사 취득 후, 박사? 기술사? 현실적인 상황을 고려... 박사는 돈과 시간, 기술사는 시간과 상대적 낮은 기대 수익
    • 아버지...! 청주에서 듣고 있다면 정답을 알려줘...

     

     

     

     


     

     

     

     

     

    • 강화학습에서 벨류를 구하는 것은 매우 중요하다
    • 그렇다면 벨류를 어떻게 구할 수 있을까? 벨만 방정식
    • 벨만 방정식에는 벨만 기대 방정식(Bellman Expectation Equation)과 벨만 최적 방정식(Bellman Optimality Equation)이 있다

    벨만 기대 방정식 (Bellman Expectation Equation)

    • 벨만 기대 방정식은 0단계, 1단계, 2단계로 이루어진다
    • 벨만 기대 방정식은 벨류들의 재귀적 관계에 대한 식이다
    • 0단계
      • $v_{\pi}(s_t) = \mathbb{E}_{\pi}[r_{t+1} + \gamma v_{\pi}(s_{t+1})]$
      • $q_{\pi}(s_t, a_t) = \mathbb{E}_{\pi}[r_{t+1} + \gamma q_{\pi}(s_{t+1}, a_{t+1})]$
    • 1단계
      • $v_{\pi}(s) = \sum_{a \in A} \pi(a|s) q_{\pi}(s, a)$
      • $q_{\pi}(s, a) = r_s^a + \gamma \sum_{s' \in S} P_{ss'}^a v_{\pi}(s')$
    • 2단계
      • $v_{\pi}(s) = \sum_{a \in A} \pi(a|s) \left( r_s^a + \gamma \sum_{s' \in S} P_{ss'}^a v_{\pi}(s') \right)$
      • $q_{\pi}(s, a) = r_s^a + \gamma \sum_{s' \in S} P_{ss'}^a \sum_{a' \in A} \pi(a'|s') q_{\pi}(s', a')$

    벨만 기대 방정식의 증명

    0단계

    • $v_{\pi}(s_t) = \mathbb{E}_{\pi}[r_{t+1} + \gamma v_{\pi}(s_{t+1})]$
    • $v_{\pi}(s_t) = \mathbb{E}_{\pi}[G_t] \\
      = \mathbb{E}_{\pi}[r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} + \ldots] \\
      = \mathbb{E}_{\pi}[r_{t+1} + \gamma (r_{t+2} + \gamma r_{t+3} + \ldots)] \\
      = \mathbb{E}_{\pi}[r_{t+1} + \gamma G_{t+1}] \\
      = \mathbb{E}_{\pi}[r_{t+1} + \gamma v_{\pi}(s_{t+1})]
      $
    • $G_t=r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} + \ldots$라는건 리턴의 정의이다
    • E라는 기댓값 안에 있기 때문에 $\gamma (r_{t+2} + \gamma r_{t+3} + \ldots)$가 $\gamma G_{t+1}$로 표현이 가능하다

    1단계

    1단계 - $𝑞_𝜋$를 이용해 $𝑣_𝜋$ 계산하기

    • 위와 같이 각 액션에 대한 $q_𝜋$의 값이 주어져 있을 때
    • 상태 s의 벨류 $v_𝜋(s)$를 구하고 싶다면?
    • 위 식을 이용하면 된다

    1단계 - $𝑣_𝜋$를 이용해 $𝑞_𝜋$ 계산하기

    • 위와 같이 다음에 도달할 수 있는 각 상태에 대한 $v_𝜋$의 값이 주어져 있을 때
    • 상태 s에서 a를 선택하는 것의 액션 벨류 $q_𝜋(s,a)$를 구하고 싶다면?
    • 위 식을 이용하면 된다

    2단계

    • 2단계는 가장 복잡해보이지만 그냥 대입만 해주면 끝이다

    벨만 기대 방정식 결론

    • 그렇다면 벨만 기대 방정식을 언제 쓸 수 있느냐?
    • 보상 함수와 전이 확률은 환경의 일부입니다. 이 2가지를 알 때 MDP를 안다고 표현
    • 보상함수와 전이확률을 알 때 (MDP를 알고 있을 때)
      • Model-Based(모델 기반) or Planning(플래닝) 접근법: 실제로 경험해 보지 않고 머릿속에서 시뮬레이션 해보는 것만으로도 강화학습을 할 수 있다
      • 2단계 벨만 기대 방정식 이용
    • 보상함수와 전이확률을 모를 때 (즉, MDP를 모를 때)
      • Model-Free 접근법: 그 상태에서 실제로 액션을 해보고 경험(Experience)을 통해 학습하게 됨
      • 0단계 벨만 기대 방정식 이용
    • 결론적으로 보면 MDP에 대한 정보를 알 때는 2단계 식을 사용하고, MDP에 대한 정보를 모를 때는 0단계를 사용한다

     

     

     

     

     

     

     


     

     

     

     

    바닥부터 배우는 강화 학습 - 예스24

    강화 학습 기초 이론부터 블레이드 & 소울 비무 AI 적용까지강화 학습을 모르는 초보자도 쉽게 이해할 수 있도록 도와주는 입문서다. 현업의 강화 학습 전문가가 직접 설명해 강화 학습에 가장

    www.yes24.com

     

     

    반응형

    '인공지능 > 강화학습' 카테고리의 다른 글

    MDP를 알 때의 플래닝  (0) 2024.03.30
    벨만 최적 방정식  (2) 2024.03.29
    Markov Decision Process  (4) 2024.03.27
    Markov Process, Markov Reward Process  (2) 2024.03.26
    에이전트, Exploitation, Exploration  (6) 2024.03.25
    댓글