강화학습 MDP 기본 개념2, Reinforcement Learning, Markov Decision Process, AI, Artificial Intelligence, agent, state, action, reward, Statistics
2020/09/06 - [Programming/Artificial Intelligence (AI)] - 강화학습 MDP 기본 개념1, Reinforcement Learning, Markov Decision Process, AI, Artificial Intelligence, agent, state, action, reward, Statistics 1. Policy - state 에서 가능한 action 들의 선택 확률에 대한 분포(맵) 이다. 따라서, agent 가 state 에서 어떤 action 을 할 확률, 규칙 이라 할 수 있음 - 강화학습의 method 는 경험을 통해서 agent 의 policy 가 어떻게 바뀔지를 정하는 것이라 볼 수 있다. - State, Model, Action, Rewar..
강화학습 MDP 기본 개념1, Reinforcement Learning, Markov Decision Process, AI, Artificial Intelligence, agent, state, action, reward, Statistics
강화학습의 Finite MDP (유한 마르코프 결정 프로세스) 프레임은 아래와 같은 것이 반복됨 s -> a -> r -> s -> a -> r s 는 state (상태) a 는 action (행동) r 은 reward (보상) 상태0 에서 행동0 을 하고, 보상1 을 받는다. (이 때, 상태는 상태1) 상태1 에서 행동1 을 하고, 보상2 를 받는다. (이 때, 상태는 상태2) ... Termination 될 때 까지 진행한다. state : environment 내에서 현재 agent 의 상태 action : agent 가 취할 수 있는 행동 reward : 중간중간에, 혹은 최종에 받는 보상값 agent : 나, 객체 그 자체 environment : agent 가 처해있는 여러가지 상황 polic..