반응형
- [ 인공지능/강화학습 ]Policy Iteration2024-03-31 08:23:56벌써 오늘이 마지막 날이다 어제 조대협님의 대항로도 끝을 맺었고... 다시 리프레시할겸 계획을 세워야 겠다 구글 스터디잼 + AWS 자격증 + 사이드 프로젝트 + 독서 + 운동 +...ㅎ 나는 계속 매일 블로그를 올려볼 생각이다. 원래는 패스트캠퍼스 강의 남은걸로 진행할까 했는데 구글 스터디잼도 괜찮을 것 같다. 여튼 뭐가 됐든ㅎ 이전에는 벨류를 구하는 방법을 찾았으니, 이번에는 최적의 폴리시를 구하는 방법을 알아보자 이전과 같은 작은 MDP 문제를 사용해보자 작은 문제 작다는 것은 다음의 가짓수가 작은 것을 의미함 A c t io n s p a c e S t a t e s p a c e T im e h o r iz o n M D P 를 알 때 𝑀𝐷𝑃 ≡ {𝑆, 𝐴, 𝑅, 𝑃, 𝛾} 𝑅, 𝑃 를 알 때 ..
- [ 인공지능/강화학습 ]MDP를 알 때의 플래닝2024-03-30 12:06:41마음을 다시 굳게 먹자 해이해졌어 김재형 계획을 다시 세우자 그리고 매일 상상하자 구체화시키고 실현시키자 겁먹지 말자 무엇을 하든 지금보단 나을테니까... 나는 지금 단거리가 아닌 마라톤을 해야 한다. 그러니까 지속적으로 할 수 있는 원동력이 필요하다. 사소한 것에서 성취감을 찾으려고 노력하자. 무뎌지지 말자. 포기하지말자 지금의 난 아무것도 아니지만 5년 후의 나는 어떻게 되어있을까? 기대되지 않는가? 술취한 사람의 귀가 문제 각 스테이트의 밸류는 무엇일까? 이 문제에서 우리는 MDP를 알고 있다 𝑀𝐷𝑃 ≡ {𝑆, 𝐴, 𝑅, 𝑃, 𝛾} 𝑅, 𝑃 를 알 때 여기서 안 다는 것은 해보기도 전에 미리 아는 것 그리고 이 문제는 MDP가 작은 문제라고 볼 수 있다 작다고 하는 것은 다음의 가짓수가 작은 것을 ..
- [ 인공지능/강화학습 ]벨만 최적 방정식2024-03-29 06:38:07아 졸려... 벨만 최적 방정식 Bellman Optimality Equation 벨만 최적 방적식도 앞에서 보았던 벨만 기대 방정식과 비슷하게 0단계와 1,2단계로 나누어져있다 0단계 $v_{*}(s_t) = \max_a \mathbb{E}[r_{t+1} + \gamma v_{*}(s_{t+1})]$ $q_{*}(s_t, a_t) = \mathbb{E}[r_{t+1} + \gamma \max_{a'} q_{*}(s_{t+1}, a')]$ maxa는 모든 가능한 행동 a에 대하여 최댓값을 선택함을 의미하며, E는 기댓값을 의미 1단계 $v_*(s) = \max_a q_*(s, a)$ $q_*(s, a) = r_s^a + \gamma \sum_{s' \in S} P_{ss'}^a v_*(s')$ 2단계 $..
- [ 인공지능/강화학습 ]벨만 기대 방정식2024-03-28 06:17:07석사 취득 후, 박사? 기술사? 현실적인 상황을 고려... 박사는 돈과 시간, 기술사는 시간과 상대적 낮은 기대 수익 아버지...! 청주에서 듣고 있다면 정답을 알려줘... 강화학습에서 벨류를 구하는 것은 매우 중요하다 그렇다면 벨류를 어떻게 구할 수 있을까? 벨만 방정식 벨만 방정식에는 벨만 기대 방정식(Bellman Expectation Equation)과 벨만 최적 방정식(Bellman Optimality Equation)이 있다 벨만 기대 방정식 (Bellman Expectation Equation) 벨만 기대 방정식은 0단계, 1단계, 2단계로 이루어진다 벨만 기대 방정식은 벨류들의 재귀적 관계에 대한 식이다 0단계 $v_{\pi}(s_t) = \mathbb{E}_{\pi}[r_{t+1} + \..
- [ 인공지능/강화학습 ]Markov Decision Process2024-03-27 06:05:53요즘 마음이 너무 싱숭생숭하다 무엇이 문제일까? 사실 무엇이 문제인지는 알고 있는데 쉽지가 않다 지금은 내가 해야할 것에만 집중할 수 있도록...그러다보면... 모르겠다ㅋ Markov Decision Process 액션이 추가되었다 액션의 집합 A = {𝑎0, 𝑎1} MP ≡ {𝑆, 𝑃} MRP ≡ {𝑆, 𝑃, 𝑅, 𝛾} MDP ≡ {𝑆, 𝑃, 𝑅, 𝛾, 𝐴} 𝑆 : 상태의 집합 𝑆 = {𝑠0, 𝑠1, 𝑠2, 𝑠3, 𝑠4} 𝑃 : 전이 확률 $P^{a}_{ss'}$ : s 에서 a를 했을때 s’에 도달할 확률 $P^{a}_{ss'}= ℙ[s_{t+1}=s'|s_{t}=s,a_{t}=a]$ 형태가 약간 바뀜 MP, MRP : $P_{ss'}$ MDP : $P^{a}_{ss'}$ 전이 확률 예시 $P^{a_..
- [ 인공지능/강화학습 ]Markov Process, Markov Reward Process2024-03-26 05:29:44어제부터 구글 스터디잼이 시작했는데, 진행은 오늘부터 할 것 같다 가보자구!!! Markov Process Markov Process란 현재 상태만 보고 미래를 결정할 수 있는 상태를 말한다 예를 들어 우리가 체스를 두고 있는 상황에서 중간에 내가 대신 두게 된다면 어떨까? 이전에 첫수부터 지금까지의 수까지 알 필요가 있을까? 현재 보드판의 상태만 보고도 바로 체스를 이어갈 수 있을 것이다. 이런 것을 마르코프한 상태라고 부른다. 위와 같은 장면의 사진만 가지고 운전을 바로 할 수 있을까? 물론 사람은 운전에 대한 사전지식을 많이 가지고 있기 때문에 할 수는 있겠지만, 현재 상태만으로는 많은 정보를 담고 있지 않기 때문에 쉽지 않을 것이다. 속력은 몇인지... 다른차가 끼어들려고 하는건지 아닌지...등 ..
- [ 인공지능/강화학습 ]에이전트, Exploitation, Exploration2024-03-25 05:35:23챌린지도 끝이 보인다 사실 챌린지를 시작하게 된 이유 중 하나가 내가 60일 동안 꾸준히 아침에 일어나서 올릴 수 있을까? 가 궁금해서 실험해본 것도 있다 다행히 실험은 성공할 것 같다 이번 기회를 통해 바뀐 생활 패턴이 추후에 나에게 큰 도움이 되었으면 하는 바람이다 1. 에이전트와 환경 에이전트란 학습을 하는 주체이다 환경으로 부터 현재 시점 t에서의 환경에 대한 정보 st와 보상 rt를 받음 st를 바탕으로 어떤 행동을 해야 할지 결정 결정된 행동 at를 환경으로 보냄 환경 에이전트로부터 받은 행동 at를 통해서 상태 변화를 일으킴 그 결과 상태는 st → st+1로 바뀜 에이전트에게 줄 보상 또한 rt → rt+1로 바뀜 st+1과 rt+1을 에이전트에게 전달 RL(Reinforcement Lea..
- [ 인공지능/강화학습 ]강화 학습 - 지도학습과 강화학습, 순차적 의사결정, 리워드2024-03-24 06:53:18이제 실습 위주는 끝났고 강화학습 이론 강의로 들어간다 면접 준비도 미리 하고 학업 계획서도 미리 작성하자 1. 지도 학습 vs 강화 학습 우리가 어릴 때 자전거를 배우는 모습을 상상해보자 누군가는 부모님 또는 이웃이 도와줬던 경우가 있었을 수 있고, 누군가는 혼자 넘어지면서 배운 사람들도 있을 것이다 나는 친구 자전거를 빌려서 혼자 넘어지고 다치면서 배웠던 경험이 있다 이처럼 부모님 또는 이웃(정답을 알고 있는)의 지도를 통한 학습 → 지도 학습, 혼자 넘어지면서(Trial & Error) 시행착오를 통한 학습 → 강화 학습 으로 나누어 볼 수 있다 머신 러닝은 크게 보면 지도 학습, 비지도 학습, 강화 학습이 있다 비지도 학습에는 클러스터링 이런 것들이 있겠다 2. 강화 학습이란? 강화 학습이란 쉽게..
반응형