[ 인공지능/강화학습 ]
Policy Iteration
2024-03-31 08:23:56
벌써 오늘이 마지막 날이다 어제 조대협님의 대항로도 끝을 맺었고... 다시 리프레시할겸 계획을 세워야 겠다 구글 스터디잼 + AWS 자격증 + 사이드 프로젝트 + 독서 + 운동 +...ㅎ 나는 계속 매일 블로그를 올려볼 생각이다. 원래는 패스트캠퍼스 강의 남은걸로 진행할까 했는데 구글 스터디잼도 괜찮을 것 같다. 여튼 뭐가 됐든ㅎ 이전에는 벨류를 구하는 방법을 찾았으니, 이번에는 최적의 폴리시를 구하는 방법을 알아보자 이전과 같은 작은 MDP 문제를 사용해보자 작은 문제 작다는 것은 다음의 가짓수가 작은 것을 의미함 A c t io n s p a c e S t a t e s p a c e T im e h o r iz o n M D P 를 알 때 𝑀𝐷𝑃 ≡ {𝑆, 𝐴, 𝑅, 𝑃, 𝛾} 𝑅, 𝑃 를 알 때 ..