MDP를 알 때의 플래닝

MDP를 알 때의 플래닝

2024년 03월 30일 12시 06분 41초에 업로드 된 글입니다.

작성자: 재형이

마음을 다시 굳게 먹자
해이해졌어 김재형
계획을 다시 세우자
그리고 매일 상상하자
구체화시키고 실현시키자
겁먹지 말자
무엇을 하든 지금보단 나을테니까...
나는 지금 단거리가 아닌 마라톤을 해야 한다. 그러니까 지속적으로 할 수 있는 원동력이 필요하다. 사소한 것에서 성취감을 찾으려고 노력하자. 무뎌지지 말자.
포기하지말자
지금의 난 아무것도 아니지만 5년 후의 나는 어떻게 되어있을까? 기대되지 않는가?

술취한 사람의 귀가 문제

각 스테이트의 밸류는 무엇일까?
이 문제에서 우리는 MDP를 알고 있다
- 𝑀𝐷𝑃 ≡ {𝑆, 𝐴, 𝑅, 𝑃, 𝛾}
  - 𝑅, 𝑃 를 알 때
  - 여기서 안 다는 것은 해보기도 전에 미리 아는 것
그리고 이 문제는 MDP가 작은 문제라고 볼 수 있다
작다고 하는 것은 다음의 가짓수가 작은 것을 의미한다
- Action space
- State space
- Time horizon
MDP에 대한 모든 정보를 알 때 이를 이용하여 정책을 개선해 나가는 과정을 넓게 가리켜 플래닝(Planning)이라고 한다
테이블 기반 방법론(Tabular Method)을 이용해서 풀어보자
- 모든 상태 s 혹은 상태와 액션의 페어(s,a)에 대한 테이블에서 값을 기록해 놓고, 그 값을 조금씩 업데이트 하는 방식을 의미한다
- 작은 문제일 경우 상태나 액션의 개수가 많지 않아 그에 해당하는 테이블을 만들 수 있어서 가능한 방법론이다

벨만 최적방정식은 파이랑 상관없이 옵티멀 폴리시의 벨류에 대한 방정식인데, 지금 상황에서는 파이가 주어졌고 그 파이를 따라갔을 때 리턴의 기댓값을 구하는 것이기 때문에 벨류 기대방정식을 사용할 것이다
지금 여기서 우리는 MDP를 알고 있기 때문에 벨만 기대방정식 2단계를 사용할 것이다

일단 모든 상태에서 모든 액션을 할 확률은 4분의 1이다(유니폼 랜덤)
리워드는 어느 상태냐 어느 액션이냐와 상관없이 고정된 -1의 값이다
감쇄는 없다고 가정 → 감마는 1
s에서 a를 했을 때 s'으로 갈 확률은 내가 북쪽 액션을 취했을 때 북쪽방향만 1.0이고 나머지는 모두 0.0이다. 그 상태의 밸류는 거기 써져 있는 값을 사용하면 된다. 위에서는 북쪽 방향에 0.0이 적혀있으므로 $P^{a}_{ss'}=0.0$이다

Policy Iteration (2)	2024.03.31
벨만 최적 방정식 (2)	2024.03.29
벨만 기대 방정식 (4)	2024.03.28
Markov Decision Process (4)	2024.03.27
Markov Process, Markov Reward Process (2)	2024.03.26

다음글이 없습니다.

이전글이 없습니다.