방명록
- MDP를 알 때의 플래닝2024년 03월 30일 12시 06분 41초에 업로드 된 글입니다.작성자: 재형이반응형
- 마음을 다시 굳게 먹자
- 해이해졌어 김재형
- 계획을 다시 세우자
- 그리고 매일 상상하자
- 구체화시키고 실현시키자
- 겁먹지 말자
- 무엇을 하든 지금보단 나을테니까...
- 나는 지금 단거리가 아닌 마라톤을 해야 한다. 그러니까 지속적으로 할 수 있는 원동력이 필요하다. 사소한 것에서 성취감을 찾으려고 노력하자. 무뎌지지 말자.
- 포기하지말자
- 지금의 난 아무것도 아니지만 5년 후의 나는 어떻게 되어있을까? 기대되지 않는가?
술취한 사람의 귀가 문제
- 각 스테이트의 밸류는 무엇일까?
- 이 문제에서 우리는 MDP를 알고 있다
- 𝑀𝐷𝑃 ≡ {𝑆, 𝐴, 𝑅, 𝑃, 𝛾}
- 𝑅, 𝑃 를 알 때
- 여기서 안 다는 것은 해보기도 전에 미리 아는 것
- 𝑀𝐷𝑃 ≡ {𝑆, 𝐴, 𝑅, 𝑃, 𝛾}
- 그리고 이 문제는 MDP가 작은 문제라고 볼 수 있다
- 작다고 하는 것은 다음의 가짓수가 작은 것을 의미한다
- Action space
- State space
- Time horizon
- MDP에 대한 모든 정보를 알 때 이를 이용하여 정책을 개선해 나가는 과정을 넓게 가리켜 플래닝(Planning)이라고 한다
- 테이블 기반 방법론(Tabular Method)을 이용해서 풀어보자
- 모든 상태 s 혹은 상태와 액션의 페어(s,a)에 대한 테이블에서 값을 기록해 놓고, 그 값을 조금씩 업데이트 하는 방식을 의미한다
- 작은 문제일 경우 상태나 액션의 개수가 많지 않아 그에 해당하는 테이블을 만들 수 있어서 가능한 방법론이다
Iterative Policy Evaluation – 테이블 초기화
- 각 상태마다 값을 적어놓을 테이블을 만든다
- 이 테이블의 값을 임의의 값으로 초기화 한다
Iterative Policy Evaluation – 값 업데이트
- 벨만 최적방정식은 파이랑 상관없이 옵티멀 폴리시의 벨류에 대한 방정식인데, 지금 상황에서는 파이가 주어졌고 그 파이를 따라갔을 때 리턴의 기댓값을 구하는 것이기 때문에 벨류 기대방정식을 사용할 것이다
- 지금 여기서 우리는 MDP를 알고 있기 때문에 벨만 기대방정식 2단계를 사용할 것이다
- 일단 모든 상태에서 모든 액션을 할 확률은 4분의 1이다(유니폼 랜덤)
- 리워드는 어느 상태냐 어느 액션이냐와 상관없이 고정된 -1의 값이다
- 감쇄는 없다고 가정 → 감마는 1
- s에서 a를 했을 때 s'으로 갈 확률은 내가 북쪽 액션을 취했을 때 북쪽방향만 1.0이고 나머지는 모두 0.0이다. 그 상태의 밸류는 거기 써져 있는 값을 사용하면 된다. 위에서는 북쪽 방향에 0.0이 적혀있으므로 $P^{a}_{ss'}=0.0$이다
- 그래서 동서남북 모두 하나씩 해주고 시그마해주면 -1.0이 나온다
- 이 값이 왜 더 나은 값일까?
- 처음엔 임의의 값이었지만 계속 반복이 진행될수록 조금씩 조금씩 정확한 값으로 바뀌게 된다
- 환경이 주는 실제 값을 이용하기 때문이다
Iterative Policy Evaluation – 모든 상태에 대해 반복
- 마지막 상태의 밸류는 0으로 고정
- 모든 상태에 대해 한 바퀴를 돌면 위와 같이 된다
Iterative Policy Evaluation – k 바퀴를 돌면..?
- 이렇게 나온다
- 이 테이블의 의미는 다음과 같다
- 목표까지 도달하는데 평균적으로 59.4번 시도한다. 그니까 대충 60번 시도한다. 머 그런 의미이다
반응형'인공지능 > 강화학습' 카테고리의 다른 글
Policy Iteration (2) 2024.03.31 벨만 최적 방정식 (2) 2024.03.29 벨만 기대 방정식 (4) 2024.03.28 Markov Decision Process (4) 2024.03.27 Markov Process, Markov Reward Process (2) 2024.03.26 다음글이 없습니다.이전글이 없습니다.댓글