반응형
- [ 인공지능/강화학습 ]벨만 기대 방정식2024-03-28 06:17:07석사 취득 후, 박사? 기술사? 현실적인 상황을 고려... 박사는 돈과 시간, 기술사는 시간과 상대적 낮은 기대 수익 아버지...! 청주에서 듣고 있다면 정답을 알려줘... 강화학습에서 벨류를 구하는 것은 매우 중요하다 그렇다면 벨류를 어떻게 구할 수 있을까? 벨만 방정식 벨만 방정식에는 벨만 기대 방정식(Bellman Expectation Equation)과 벨만 최적 방정식(Bellman Optimality Equation)이 있다 벨만 기대 방정식 (Bellman Expectation Equation) 벨만 기대 방정식은 0단계, 1단계, 2단계로 이루어진다 벨만 기대 방정식은 벨류들의 재귀적 관계에 대한 식이다 0단계 $v_{\pi}(s_t) = \mathbb{E}_{\pi}[r_{t+1} + \..
- [ 인공지능/강화학습 ]Markov Decision Process2024-03-27 06:05:53요즘 마음이 너무 싱숭생숭하다 무엇이 문제일까? 사실 무엇이 문제인지는 알고 있는데 쉽지가 않다 지금은 내가 해야할 것에만 집중할 수 있도록...그러다보면... 모르겠다ㅋ Markov Decision Process 액션이 추가되었다 액션의 집합 A = {𝑎0, 𝑎1} MP ≡ {𝑆, 𝑃} MRP ≡ {𝑆, 𝑃, 𝑅, 𝛾} MDP ≡ {𝑆, 𝑃, 𝑅, 𝛾, 𝐴} 𝑆 : 상태의 집합 𝑆 = {𝑠0, 𝑠1, 𝑠2, 𝑠3, 𝑠4} 𝑃 : 전이 확률 $P^{a}_{ss'}$ : s 에서 a를 했을때 s’에 도달할 확률 $P^{a}_{ss'}= ℙ[s_{t+1}=s'|s_{t}=s,a_{t}=a]$ 형태가 약간 바뀜 MP, MRP : $P_{ss'}$ MDP : $P^{a}_{ss'}$ 전이 확률 예시 $P^{a_..
- [ 인공지능/강화학습 ]Markov Process, Markov Reward Process2024-03-26 05:29:44어제부터 구글 스터디잼이 시작했는데, 진행은 오늘부터 할 것 같다 가보자구!!! Markov Process Markov Process란 현재 상태만 보고 미래를 결정할 수 있는 상태를 말한다 예를 들어 우리가 체스를 두고 있는 상황에서 중간에 내가 대신 두게 된다면 어떨까? 이전에 첫수부터 지금까지의 수까지 알 필요가 있을까? 현재 보드판의 상태만 보고도 바로 체스를 이어갈 수 있을 것이다. 이런 것을 마르코프한 상태라고 부른다. 위와 같은 장면의 사진만 가지고 운전을 바로 할 수 있을까? 물론 사람은 운전에 대한 사전지식을 많이 가지고 있기 때문에 할 수는 있겠지만, 현재 상태만으로는 많은 정보를 담고 있지 않기 때문에 쉽지 않을 것이다. 속력은 몇인지... 다른차가 끼어들려고 하는건지 아닌지...등 ..
- [ 인공지능/강화학습 ]에이전트, Exploitation, Exploration2024-03-25 05:35:23챌린지도 끝이 보인다 사실 챌린지를 시작하게 된 이유 중 하나가 내가 60일 동안 꾸준히 아침에 일어나서 올릴 수 있을까? 가 궁금해서 실험해본 것도 있다 다행히 실험은 성공할 것 같다 이번 기회를 통해 바뀐 생활 패턴이 추후에 나에게 큰 도움이 되었으면 하는 바람이다 1. 에이전트와 환경 에이전트란 학습을 하는 주체이다 환경으로 부터 현재 시점 t에서의 환경에 대한 정보 st와 보상 rt를 받음 st를 바탕으로 어떤 행동을 해야 할지 결정 결정된 행동 at를 환경으로 보냄 환경 에이전트로부터 받은 행동 at를 통해서 상태 변화를 일으킴 그 결과 상태는 st → st+1로 바뀜 에이전트에게 줄 보상 또한 rt → rt+1로 바뀜 st+1과 rt+1을 에이전트에게 전달 RL(Reinforcement Lea..
- [ 아키텍쳐/레퍼런스 아키텍쳐 - Common ]백엔드 솔루션들2024-03-24 08:19:59Application servers Application servers spring Apache tomcat Jboss : 빵빵한 기술 지원. 근데 요즘 필요할까??? Pythom Django, Flask Single Threaded Application Server (Optimized to C10K) node.js verte.x Reverse proxy Reverse proxy only : HAProxy Webserver + reverse proxy 캐싱, 압축, SSL 등 다양한 기능 추가 가능 nginx : single thread and more faster Apache httpd Message Queue RabbitMQ AMQP 기반, MQTT 지원 다양한 기능과 다양한 메세징 토폴로지 지원 A..
- [ 인공지능/강화학습 ]강화 학습 - 지도학습과 강화학습, 순차적 의사결정, 리워드2024-03-24 06:53:18이제 실습 위주는 끝났고 강화학습 이론 강의로 들어간다 면접 준비도 미리 하고 학업 계획서도 미리 작성하자 1. 지도 학습 vs 강화 학습 우리가 어릴 때 자전거를 배우는 모습을 상상해보자 누군가는 부모님 또는 이웃이 도와줬던 경우가 있었을 수 있고, 누군가는 혼자 넘어지면서 배운 사람들도 있을 것이다 나는 친구 자전거를 빌려서 혼자 넘어지고 다치면서 배웠던 경험이 있다 이처럼 부모님 또는 이웃(정답을 알고 있는)의 지도를 통한 학습 → 지도 학습, 혼자 넘어지면서(Trial & Error) 시행착오를 통한 학습 → 강화 학습 으로 나누어 볼 수 있다 머신 러닝은 크게 보면 지도 학습, 비지도 학습, 강화 학습이 있다 비지도 학습에는 클러스터링 이런 것들이 있겠다 2. 강화 학습이란? 강화 학습이란 쉽게..
- [ 데브옵스/쿠버네티스&도커 ]컨테이너의 보안을 높이는 방법2024-03-23 22:28:56컨테이너는 호스트의 커널을 공유하기 때문에 vm에 비해 보안적으로 좋지 않다. (VM은 완전 격리) 그래서 이런 문제점을 보완하고자 나온 솔루션이 gVisor란 것이 있다 https://gvisor.dev/ The Container Security Platform | gVisor Improve your container security Give your K8s, SaaS, or Serverless infrastructure additional layers of protection when running end-user code, untrusted code, LLM-generated code, or third-party code. Enable strong isolation for sharing resour..
- [ 아키텍쳐/아키텍쳐 설계 방법론 ]Contents Caching - CDN (Contents Delivery Network)2024-03-23 22:00:45CDN (Contents Delivery Network) 글로벌 서비스를 제공할 때 일반적인 api 콜은 조금 느리더라도 패킷 자체의 사이즈가 작기 때문에 크게 문제가 되진 않지만, 이미지 또는 바이너리 파일 같은 경우에는 사이즈가 크기 때문에 전세계에 엣지 서버를 두고 콘텐츠를 캐싱하여 제공하는 것이 CDN이다 CDN에서 가장 신경써야할 부분은 비용이다. 굉장히 비싼 서비스이기 때문... CDN 마켓 Big3 Akami CD Networks AWS CDN CDN은 Discount Rate가 굉장히 큰 편이다. 그래서 하나의 제품만 생각하지 말고 최소 2개 이상의 제품을 알아봐야 한다. Discount Rate가 큰 이유는 한번 쓰게되면 의존성 때문에 다시 못 나갈 것이라고 생각하기 때문...ㅋ 그렇기 ..
반응형