방명록
- 에이전트, Exploitation, Exploration2024년 03월 25일 05시 35분 23초에 업로드 된 글입니다.작성자: 재형이반응형
- 챌린지도 끝이 보인다
- 사실 챌린지를 시작하게 된 이유 중 하나가 내가 60일 동안 꾸준히 아침에 일어나서 올릴 수 있을까? 가 궁금해서 실험해본 것도 있다
- 다행히 실험은 성공할 것 같다
- 이번 기회를 통해 바뀐 생활 패턴이 추후에 나에게 큰 도움이 되었으면 하는 바람이다
1. 에이전트와 환경
- 에이전트란 학습을 하는 주체이다
- 환경으로 부터 현재 시점 t에서의 환경에 대한 정보 st와 보상 rt를 받음
- st를 바탕으로 어떤 행동을 해야 할지 결정
- 결정된 행동 at를 환경으로 보냄
- 환경
- 에이전트로부터 받은 행동 at를 통해서 상태 변화를 일으킴
- 그 결과 상태는 st → st+1로 바뀜
- 에이전트에게 줄 보상 또한 rt → rt+1로 바뀜
- st+1과 rt+1을 에이전트에게 전달
RL(Reinforcement Learning) 에이전트의 종류
- 에이전트에는 3가지 종류가 있다
- Value Based (가치 기반)
- Policy Based (정책 기반)
- Actor Critic
- Policy
- Agent의 행동 패턴입니다. 주어진 환경(state)에서 어떤 행동(action)을 취할지 말해줍니다. 즉, 환경(state)을 행동(action)에 연결 짓는 함수입니다.
- Policy는 크게 deterministic(결정적) policy와 stochastic(확률적) policy로 나뉩니다.
- Deterministic policy는 주어진 환경(state)에 대해 하나의 행동(action)을 주고, stochastic policy는 주어진 환경(state)에 대해 행동(action)들의 확률 분포를 줍니다.
- Value function
- 환경(State)과 행동(action)이 나중에 어느 정도의 보상(reward)을 돌려줄지에 대한 예측 함수입니다.
- 즉, 해당 환경(state)과 행동(action)을 취했을 때 이후에 받을 모든 보상(reward)들의 가중합입니다.
- 이때, 뒤에 받을 보상(reward) 보다 먼저 받을 보상(reward)에 대한 선호를 나타내기 위해 discounting factor λ를 사용합니다
Value Based
- agent가 할 수 있는 행동들의 각각의 가치(Action Value)를 계산해서 제일 높은 것을 고른다
Policy Based
- Policy란 내가 액션을 어떻게 선택하지에 대한 정책
- 각 액션들에 대한 확률 분포를 기반으로 액션을 샘플링해서 행동함
Actor Critic
- Value Based와 Policy Based의 중간 형태
- 액션 선택은 Policy에 기반해서 일어나는데 그것을 어떻게 학습할지는 Critic(Value Function)이 평가해줘서 그것을 바탕으로 Policy의 수정이 일어나고 행동함 → 반복
Exploitation vs Exploration
- Exploration: 정보를 더 모으고자 모험적 행동을 해보는 것
ex) 회사 주변에 맛집을 찾기 위해 여러군데를 돌아다녀 보는 것 - Exploitation : 아는 것을 바탕으로 최선을 다 하는 것
ex) 회사 주변에 맛집이 있다면 괜한 모험을 하지 않고 그 맛집만 주구장창 가는 것 - 좋은 학습 결과를 얻으려면 Exploration나 Exploitation 하나만 하는 것이 아니라 두가지를 적절히 조합해서 사용해야 한다
반응형'인공지능 > 강화학습' 카테고리의 다른 글
벨만 최적 방정식 (2) 2024.03.29 벨만 기대 방정식 (4) 2024.03.28 Markov Decision Process (4) 2024.03.27 Markov Process, Markov Reward Process (2) 2024.03.26 강화 학습 - 지도학습과 강화학습, 순차적 의사결정, 리워드 (2) 2024.03.24 다음글이 없습니다.이전글이 없습니다.댓글