방명록
- 강화 학습 - 지도학습과 강화학습, 순차적 의사결정, 리워드2024년 03월 24일 06시 53분 18초에 업로드 된 글입니다.작성자: 재형이반응형
- 이제 실습 위주는 끝났고 강화학습 이론 강의로 들어간다
- 면접 준비도 미리 하고 학업 계획서도 미리 작성하자
1. 지도 학습 vs 강화 학습
- 우리가 어릴 때 자전거를 배우는 모습을 상상해보자
- 누군가는 부모님 또는 이웃이 도와줬던 경우가 있었을 수 있고, 누군가는 혼자 넘어지면서 배운 사람들도 있을 것이다
- 나는 친구 자전거를 빌려서 혼자 넘어지고 다치면서 배웠던 경험이 있다
- 이처럼 부모님 또는 이웃(정답을 알고 있는)의 지도를 통한 학습 → 지도 학습, 혼자 넘어지면서(Trial & Error) 시행착오를 통한 학습 → 강화 학습 으로 나누어 볼 수 있다
- 머신 러닝은 크게 보면 지도 학습, 비지도 학습, 강화 학습이 있다
- 비지도 학습에는 클러스터링 이런 것들이 있겠다
2. 강화 학습이란?
- 강화 학습이란 쉽게 말하자면 “일단 해보고, 결과가 좋으면 더, 결과가 안좋으면 덜 하는 과정” 이라고 볼 수 있다
- 사전적 정의를 살펴보면 “순차적 의사 결정 문제에서 누적 보상을 최적화 하기 위해 시행 착오를 통해 행동을 교정하는 과정” 이다
- 순차적 의사 결정 문제란 우리가 바둑을 두든, 운전을 하든 무언가를 하면서 어떤 행동 다음에 또 어떤 행동을 해야하고 매순간 결정을 해야하는 상황에 놓이게 되는데 이것을 순차적 의사 결정 문제라고 한다
3. Reward (보상)
- 보상이란 어떠한 행동이 우리가 원하는 결과가 나왔을 때 부여하는 플러스 점수 같은 것이다
- 매 스텝에 따른 보상을 부여하고 여러 스텝을 거쳐서 나온 각 보상 점수들을 모두 합쳐서 그 값을 최대로 하는 것이 강화 학습의 목적이라고 할 수 있다
리워드의 특징
- 리워드를 통해서 어떻게 해야 잘하는건지를 직접적을 알기는 힘들다. 결과적으로 보상 점수 합의 크기를 통해 얼마나 잘한 것인지를 보여줄 뿐이다
- 리워드는 스칼라 값을 가진다. 결과가 좋았다면 더 큰 값, 결과가 좋지 않았다면 더 작은 값을 가지게 된다. 이 값의 총합을 최대화하는 것이 강화학습의 목적이다.
- 리워드는 희소하고 지연될 수 있다. 보상이 바로 바로 주어진다면 빠르게 학습이 가능하고 어떤 행동이 결과에 어떻게 영향을 주는지 빠르게 알 수 있다. 하지만 현실은 그렇지 않다. 예를 들어 바둑을 강화 학습을 시킨다고 생각해보자. 어떤 결과가 나오면 보상을 줄까? 바둑을 이기면 1, 지면 0이라고 해보자. 그러면 바둑을 이기기 위해서는 그 중간에 많은 행동들이 있을테고 하나의 보상을 얻기 위해서 얼마나 걸릴지 알 수 없다. 즉, 지연이 된다. 많은 행동을 거치고 겨우 하나의 보상(희소)을 얻을 수도 있다는 뜻이다.
Reward Hypothesis
- 강화 학습은 Reward Hypothesis에 기반한다
- 언제 어떻게 보상을 부여해야할까?
- 바둑을 생각해보자. 이기면 1점, 지면 0점. 그나마 명확해보인다
- 그러면 운전은? 목적지까지 빠르게 가면 1점? 근데 중간에 역주행해서 가면? 그게 운전을 잘하는걸까? 그러면 법을 준수해서 가면 1점? 근데 막 끼어들기하고 주변 사람들에게 불편을 준다면? 그게 운전을 잘하는걸까? 이렇게 어떻게 보상을 부여해야할지 쉽지 않은 경우가 많다
- 강화 학습은 보상을 어떻게 부여할지 어떻게 누적시킬지 describe가 가능한 문제에 대해서만 진행할 수 있다는 것이 Reward Hypothesis 이다
반응형'인공지능 > 강화학습' 카테고리의 다른 글
벨만 최적 방정식 (2) 2024.03.29 벨만 기대 방정식 (4) 2024.03.28 Markov Decision Process (4) 2024.03.27 Markov Process, Markov Reward Process (2) 2024.03.26 에이전트, Exploitation, Exploration (6) 2024.03.25 다음글이 없습니다.이전글이 없습니다.댓글