재형이의 성장통 일지
  • MDP를 알 때의 플래닝
    2024년 03월 30일 12시 06분 41초에 업로드 된 글입니다.
    작성자: 재형이
    반응형

     

     

    • 마음을 다시 굳게 먹자
    • 해이해졌어 김재형
    • 계획을 다시 세우자
    • 그리고 매일 상상하자
    • 구체화시키고 실현시키자
    • 겁먹지 말자
    • 무엇을 하든 지금보단 나을테니까...
    • 나는 지금 단거리가 아닌 마라톤을 해야 한다. 그러니까 지속적으로 할 수 있는 원동력이 필요하다. 사소한 것에서 성취감을 찾으려고 노력하자. 무뎌지지 말자.
    • 포기하지말자
    • 지금의 난 아무것도 아니지만 5년 후의 나는 어떻게 되어있을까? 기대되지 않는가?

     

     

     

     


     

     

     

     

     

     

    술취한 사람의 귀가 문제

    • 각 스테이트의 밸류는 무엇일까?
    • 이 문제에서 우리는 MDP를 알고 있다
      • 𝑀𝐷𝑃 ≡ {𝑆, 𝐴, 𝑅, 𝑃, 𝛾}
        • 𝑅, 𝑃 를 알 때
        • 여기서 안 다는 것은 해보기도 전에 미리 아는 것
    • 그리고 이 문제는 MDP가 작은 문제라고 볼 수 있다
    • 작다고 하는 것은 다음의 가짓수가 작은 것을 의미한다
      • Action space
      • State space
      • Time horizon
    • MDP에 대한 모든 정보를 알 때 이를 이용하여 정책을 개선해 나가는 과정을 넓게 가리켜 플래닝(Planning)이라고 한다
    • 테이블 기반 방법론(Tabular Method)을 이용해서 풀어보자
      • 모든 상태 s 혹은 상태와 액션의 페어(s,a)에 대한 테이블에서 값을 기록해 놓고, 그 값을 조금씩 업데이트 하는 방식을 의미한다
      • 작은 문제일 경우 상태나 액션의 개수가 많지 않아 그에 해당하는 테이블을 만들 수 있어서 가능한 방법론이다

    Iterative Policy Evaluation – 테이블 초기화

    • 각 상태마다 값을 적어놓을 테이블을 만든다
    • 이 테이블의 값을 임의의 값으로 초기화 한다

    Iterative Policy Evaluation – 값 업데이트

    • 벨만 최적방정식은 파이랑 상관없이 옵티멀 폴리시의 벨류에 대한 방정식인데, 지금 상황에서는 파이가 주어졌고 그 파이를 따라갔을 때 리턴의 기댓값을 구하는 것이기 때문에 벨류 기대방정식을 사용할 것이다
    • 지금 여기서 우리는 MDP를 알고 있기 때문에 벨만 기대방정식 2단계를 사용할 것이다

    • 일단 모든 상태에서 모든 액션을 할 확률은 4분의 1이다(유니폼 랜덤)
    • 리워드는 어느 상태냐 어느 액션이냐와 상관없이 고정된 -1의 값이다
    • 감쇄는 없다고 가정 → 감마는 1
    • s에서 a를 했을 때 s'으로 갈 확률은 내가 북쪽 액션을 취했을 때 북쪽방향만 1.0이고 나머지는 모두 0.0이다. 그 상태의 밸류는 거기 써져 있는 값을 사용하면 된다. 위에서는 북쪽 방향에 0.0이 적혀있으므로 $P^{a}_{ss'}=0.0$이다

    • 그래서 동서남북 모두 하나씩 해주고 시그마해주면 -1.0이 나온다
    • 이 값이 왜 더 나은 값일까?
    • 처음엔 임의의 값이었지만 계속 반복이 진행될수록 조금씩 조금씩 정확한 값으로 바뀌게 된다
    • 환경이 주는 실제 값을 이용하기 때문이다

    Iterative Policy Evaluation – 모든 상태에 대해 반복

    • 마지막 상태의 밸류는 0으로 고정
    • 모든 상태에 대해 한 바퀴를 돌면 위와 같이 된다

    Iterative Policy Evaluation – k 바퀴를 돌면..?

    • 이렇게 나온다
    • 이 테이블의 의미는 다음과 같다

    • 목표까지 도달하는데 평균적으로 59.4번 시도한다. 그니까 대충 60번 시도한다. 머 그런 의미이다

     

     

     

     

     


     

     

     

     

     

     

    반응형

    '인공지능 > 강화학습' 카테고리의 다른 글

    Policy Iteration  (2) 2024.03.31
    벨만 최적 방정식  (2) 2024.03.29
    벨만 기대 방정식  (4) 2024.03.28
    Markov Decision Process  (4) 2024.03.27
    Markov Process, Markov Reward Process  (2) 2024.03.26
    댓글