본문 바로가기

Programming/Artificial Intelligence (AI)

강화학습 MDP 기본 개념1, Reinforcement Learning, Markov Decision Process, AI, Artificial Intelligence, agent, state, action, reward, Statistics

강화학습의 Finite MDP (유한 마르코프 결정 프로세스)

 

프레임은 아래와 같은 것이 반복됨

s -> a -> r -> s -> a -> r

 

s 는 state (상태)

a 는 action (행동)

r 은 reward (보상)

 

상태0 에서 행동0 을 하고, 보상1 을 받는다. (이 때, 상태는 상태1)

상태1 에서 행동1 을 하고, 보상2 를 받는다. (이 때, 상태는 상태2)

...

Termination 될 때 까지 진행한다. 

 

 

state : environment 내에서 현재 agent 의 상태

action : agent 가 취할 수 있는 행동

reward : 중간중간에, 혹은 최종에 받는 보상값

agent : 나, 객체 그 자체

environment : agent 가 처해있는 여러가지 상황

policy : agent 가 각각의 state 에서 어떤 action 을 선택할지에 대한 확률, 지침

 

 

 결국은 시간의 흐름(T) 내에서,

정해둔 environment 내의 agent 가

policy 를 따라서 action 을 행하면서

state 를 바꿔가고 받게되는 reward 가 있다.

 

목표는 reward 를 장기적인 관점에서 최대화 시킬 수 있도록 한다.

 

 

===========

e.g.

 

agent : 자율주행차

state : environment 내에서의 현재위치좌표, 남은기름량, 속도, 핸들방향 등 (설정하기 나름)

action : agent 의 방향변경, 속도변경, 깜빡이점등 등 (설정하기 나름)

reward : environment 에서의 상태값, 혹은 agent 행동에 대한 보상이 주어짐 (보통 시간이 지남에 따라 받는 양을 감소             시킴)

environment : 주변차와의거리, 풍향, 풍속, 지면상태, 목적지까지의거리 등 (설정하기 나름)

policy : 특정 상태 혹은 행동 결과에 대한 다음 행동 지침

          앞의 차가 가까우면 속도를 줄여라, 목적지에 가기 위해 곧 우회전이 필요하니 차선을 변경해라.

===========

 

 

2020/09/06 - [Programming/Artificial Intelligence (AI)] - 강화학습 MDP 기본 개념2, Reinforcement Learning, Markov Decision Process, AI, Artificial Intelligence, agent, state, action, reward, Statistics