재형이의 성장통 일지
  • 에이전트, Exploitation, Exploration
    2024년 03월 25일 05시 35분 23초에 업로드 된 글입니다.
    작성자: 재형이
    반응형
     

     

    • 챌린지도 끝이 보인다
    • 사실 챌린지를 시작하게 된 이유 중 하나가 내가 60일 동안 꾸준히 아침에 일어나서 올릴 수 있을까? 가 궁금해서 실험해본 것도 있다
    • 다행히 실험은 성공할 것 같다
    • 이번 기회를 통해 바뀐 생활 패턴이 추후에 나에게 큰 도움이 되었으면 하는 바람이다

     

     

     

     

     


     

     

     

     

     

     

    1. 에이전트와 환경

    • 에이전트란 학습을 하는 주체이다
      • 환경으로 부터 현재 시점 t에서의 환경에 대한 정보 st와 보상 rt를 받음
      • st를 바탕으로 어떤 행동을 해야 할지 결정
      • 결정된 행동 at를 환경으로 보냄

    • 환경
      • 에이전트로부터 받은 행동 at를 통해서 상태 변화를 일으킴
      • 그 결과 상태는 st → st+1로 바뀜
      • 에이전트에게 줄 보상 또한 rt → rt+1로 바뀜
      • st+1과 rt+1을 에이전트에게 전달

    RL(Reinforcement Learning) 에이전트의 종류

    • 에이전트에는 3가지 종류가 있다
      1. Value Based (가치 기반)
      2. Policy Based (정책 기반)
      3. Actor Critic
    • Policy
      • Agent의 행동 패턴입니다. 주어진 환경(state)에서 어떤 행동(action)을 취할지 말해줍니다. 즉, 환경(state)을 행동(action)에 연결 짓는 함수입니다.
      • Policy는 크게 deterministic(결정적) policy와 stochastic(확률적) policy로 나뉩니다. 
      • Deterministic policy는 주어진 환경(state)에 대해 하나의 행동(action)을 주고, stochastic policy는 주어진 환경(state)에 대해 행동(action)들의 확률 분포를 줍니다.
    • Value function
      • 환경(State)과 행동(action)이 나중에 어느 정도의 보상(reward)을 돌려줄지에 대한 예측 함수입니다. 
      • 즉, 해당 환경(state)과 행동(action)을 취했을 때 이후에 받을 모든 보상(reward)들의 가중합입니다. 
      • 이때, 뒤에 받을 보상(reward) 보다 먼저 받을 보상(reward)에 대한 선호를 나타내기 위해 discounting factor λ를 사용합니다

    Value Based

    • agent가 할 수 있는 행동들의 각각의 가치(Action Value)를 계산해서 제일 높은 것을 고른다

    Policy Based

    • Policy란 내가 액션을 어떻게 선택하지에 대한 정책
    • 각 액션들에 대한 확률 분포를 기반으로 액션을 샘플링해서 행동함

    Actor Critic

    • Value Based와 Policy Based의 중간 형태
    • 액션 선택은 Policy에 기반해서 일어나는데 그것을 어떻게 학습할지는 Critic(Value Function)이 평가해줘서 그것을 바탕으로 Policy의 수정이 일어나고 행동함 → 반복

    Exploitation vs Exploration

    • Exploration: 정보를 더 모으고자 모험적 행동을 해보는 것
      ex) 회사 주변에 맛집을 찾기 위해 여러군데를 돌아다녀 보는 것
    • Exploitation : 아는 것을 바탕으로 최선을 다 하는 것
      ex) 회사 주변에 맛집이 있다면 괜한 모험을 하지 않고 그 맛집만 주구장창 가는 것
    • 좋은 학습 결과를 얻으려면 Exploration나 Exploitation 하나만 하는 것이 아니라 두가지를 적절히 조합해서 사용해야 한다

     

     

     

     

     

     


     

     

     

     

     

     

    반응형
    댓글