[ 인공지능/강화학습 ]
에이전트, Exploitation, Exploration
2024-03-25 05:35:23
챌린지도 끝이 보인다 사실 챌린지를 시작하게 된 이유 중 하나가 내가 60일 동안 꾸준히 아침에 일어나서 올릴 수 있을까? 가 궁금해서 실험해본 것도 있다 다행히 실험은 성공할 것 같다 이번 기회를 통해 바뀐 생활 패턴이 추후에 나에게 큰 도움이 되었으면 하는 바람이다 1. 에이전트와 환경 에이전트란 학습을 하는 주체이다 환경으로 부터 현재 시점 t에서의 환경에 대한 정보 st와 보상 rt를 받음 st를 바탕으로 어떤 행동을 해야 할지 결정 결정된 행동 at를 환경으로 보냄 환경 에이전트로부터 받은 행동 at를 통해서 상태 변화를 일으킴 그 결과 상태는 st → st+1로 바뀜 에이전트에게 줄 보상 또한 rt → rt+1로 바뀜 st+1과 rt+1을 에이전트에게 전달 RL(Reinforcement Lea..