'분류 전체보기' 카테고리의 글 목록 (4 Page)

[ 인공지능/강화학습 ]
MDP를 알 때의 플래닝
2024-03-30 12:06:41
마음을 다시 굳게 먹자 해이해졌어 김재형 계획을 다시 세우자 그리고 매일 상상하자 구체화시키고 실현시키자 겁먹지 말자 무엇을 하든 지금보단 나을테니까... 나는 지금 단거리가 아닌 마라톤을 해야 한다. 그러니까 지속적으로 할 수 있는 원동력이 필요하다. 사소한 것에서 성취감을 찾으려고 노력하자. 무뎌지지 말자. 포기하지말자 지금의 난 아무것도 아니지만 5년 후의 나는 어떻게 되어있을까? 기대되지 않는가? 술취한 사람의 귀가 문제 각 스테이트의 밸류는 무엇일까? 이 문제에서 우리는 MDP를 알고 있다 𝑀𝐷𝑃 ≡ {𝑆, 𝐴, 𝑅, 𝑃, 𝛾} 𝑅, 𝑃 를 알 때 여기서 안 다는 것은 해보기도 전에 미리 아는 것 그리고 이 문제는 MDP가 작은 문제라고 볼 수 있다 작다고 하는 것은 다음의 가짓수가 작은 것을 ..
NEW
[ 인공지능/강화학습 ]
벨만 최적 방정식
2024-03-29 06:38:07
아 졸려... 벨만 최적 방정식 Bellman Optimality Equation 벨만 최적 방적식도 앞에서 보았던 벨만 기대 방정식과 비슷하게 0단계와 1,2단계로 나누어져있다 0단계 $v_{*}(s_t) = \max_a \mathbb{E}[r_{t+1} + \gamma v_{*}(s_{t+1})]$ $q_{*}(s_t, a_t) = \mathbb{E}[r_{t+1} + \gamma \max_{a'} q_{*}(s_{t+1}, a')]$ maxa는 모든 가능한 행동 a에 대하여 최댓값을 선택함을 의미하며, E는 기댓값을 의미 1단계 $v_*(s) = \max_a q_*(s, a)$ $q_*(s, a) = r_s^a + \gamma \sum_{s' \in S} P_{ss'}^a v_*(s')$ 2단계 $..
NEW
[ 인공지능/강화학습 ]
벨만 기대 방정식
2024-03-28 06:17:07
석사 취득 후, 박사? 기술사? 현실적인 상황을 고려... 박사는 돈과 시간, 기술사는 시간과 상대적 낮은 기대 수익 아버지...! 청주에서 듣고 있다면 정답을 알려줘... 강화학습에서 벨류를 구하는 것은 매우 중요하다 그렇다면 벨류를 어떻게 구할 수 있을까? 벨만 방정식 벨만 방정식에는 벨만 기대 방정식(Bellman Expectation Equation)과 벨만 최적 방정식(Bellman Optimality Equation)이 있다 벨만 기대 방정식 (Bellman Expectation Equation) 벨만 기대 방정식은 0단계, 1단계, 2단계로 이루어진다 벨만 기대 방정식은 벨류들의 재귀적 관계에 대한 식이다 0단계 $v_{\pi}(s_t) = \mathbb{E}_{\pi}[r_{t+1} + \..
NEW
[ 인공지능/강화학습 ]
Markov Decision Process
2024-03-27 06:05:53
요즘 마음이 너무 싱숭생숭하다 무엇이 문제일까? 사실 무엇이 문제인지는 알고 있는데 쉽지가 않다 지금은 내가 해야할 것에만 집중할 수 있도록...그러다보면... 모르겠다ㅋ Markov Decision Process 액션이 추가되었다 액션의 집합 A = {𝑎0, 𝑎1} MP ≡ {𝑆, 𝑃} MRP ≡ {𝑆, 𝑃, 𝑅, 𝛾} MDP ≡ {𝑆, 𝑃, 𝑅, 𝛾, 𝐴} 𝑆 : 상태의 집합 𝑆 = {𝑠0, 𝑠1, 𝑠2, 𝑠3, 𝑠4} 𝑃 : 전이 확률 $P^{a}_{ss'}$ : s 에서 a를 했을때 s’에 도달할 확률 $P^{a}_{ss'}= ℙ[s_{t+1}=s'|s_{t}=s,a_{t}=a]$ 형태가 약간 바뀜 MP, MRP : $P_{ss'}$ MDP : $P^{a}_{ss'}$ 전이 확률 예시 $P^{a_..
NEW
[ 인공지능/강화학습 ]
Markov Process, Markov Reward Process
2024-03-26 05:29:44
어제부터 구글 스터디잼이 시작했는데, 진행은 오늘부터 할 것 같다 가보자구!!! Markov Process Markov Process란 현재 상태만 보고 미래를 결정할 수 있는 상태를 말한다 예를 들어 우리가 체스를 두고 있는 상황에서 중간에 내가 대신 두게 된다면 어떨까? 이전에 첫수부터 지금까지의 수까지 알 필요가 있을까? 현재 보드판의 상태만 보고도 바로 체스를 이어갈 수 있을 것이다. 이런 것을 마르코프한 상태라고 부른다. 위와 같은 장면의 사진만 가지고 운전을 바로 할 수 있을까? 물론 사람은 운전에 대한 사전지식을 많이 가지고 있기 때문에 할 수는 있겠지만, 현재 상태만으로는 많은 정보를 담고 있지 않기 때문에 쉽지 않을 것이다. 속력은 몇인지... 다른차가 끼어들려고 하는건지 아닌지...등 ..
NEW
[ 인공지능/강화학습 ]
에이전트, Exploitation, Exploration
2024-03-25 05:35:23
챌린지도 끝이 보인다 사실 챌린지를 시작하게 된 이유 중 하나가 내가 60일 동안 꾸준히 아침에 일어나서 올릴 수 있을까? 가 궁금해서 실험해본 것도 있다 다행히 실험은 성공할 것 같다 이번 기회를 통해 바뀐 생활 패턴이 추후에 나에게 큰 도움이 되었으면 하는 바람이다 1. 에이전트와 환경 에이전트란 학습을 하는 주체이다 환경으로 부터 현재 시점 t에서의 환경에 대한 정보 st와 보상 rt를 받음 st를 바탕으로 어떤 행동을 해야 할지 결정 결정된 행동 at를 환경으로 보냄 환경 에이전트로부터 받은 행동 at를 통해서 상태 변화를 일으킴 그 결과 상태는 st → st+1로 바뀜 에이전트에게 줄 보상 또한 rt → rt+1로 바뀜 st+1과 rt+1을 에이전트에게 전달 RL(Reinforcement Lea..
NEW
[ 아키텍쳐/레퍼런스 아키텍쳐 - Common ]
백엔드 솔루션들
2024-03-24 08:19:59
Application servers Application servers spring Apache tomcat Jboss : 빵빵한 기술 지원. 근데 요즘 필요할까??? Pythom Django, Flask Single Threaded Application Server (Optimized to C10K) node.js verte.x Reverse proxy Reverse proxy only : HAProxy Webserver + reverse proxy 캐싱, 압축, SSL 등 다양한 기능 추가 가능 nginx : single thread and more faster Apache httpd Message Queue RabbitMQ AMQP 기반, MQTT 지원 다양한 기능과 다양한 메세징 토폴로지 지원 A..
NEW
[ 인공지능/강화학습 ]
강화 학습 - 지도학습과 강화학습, 순차적 의사결정, 리워드
2024-03-24 06:53:18
이제 실습 위주는 끝났고 강화학습 이론 강의로 들어간다 면접 준비도 미리 하고 학업 계획서도 미리 작성하자 1. 지도 학습 vs 강화 학습 우리가 어릴 때 자전거를 배우는 모습을 상상해보자 누군가는 부모님 또는 이웃이 도와줬던 경우가 있었을 수 있고, 누군가는 혼자 넘어지면서 배운 사람들도 있을 것이다 나는 친구 자전거를 빌려서 혼자 넘어지고 다치면서 배웠던 경험이 있다 이처럼 부모님 또는 이웃(정답을 알고 있는)의 지도를 통한 학습 → 지도 학습, 혼자 넘어지면서(Trial & Error) 시행착오를 통한 학습 → 강화 학습 으로 나누어 볼 수 있다 머신 러닝은 크게 보면 지도 학습, 비지도 학습, 강화 학습이 있다 비지도 학습에는 클러스터링 이런 것들이 있겠다 2. 강화 학습이란? 강화 학습이란 쉽게..
NEW

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역