강화학습의 Finite MDP (유한 마르코프 결정 프로세스)
프레임은 아래와 같은 것이 반복됨
s -> a -> r -> s -> a -> r
s 는 state (상태)
a 는 action (행동)
r 은 reward (보상)
상태0 에서 행동0 을 하고, 보상1 을 받는다. (이 때, 상태는 상태1)
상태1 에서 행동1 을 하고, 보상2 를 받는다. (이 때, 상태는 상태2)
...
Termination 될 때 까지 진행한다.
state : environment 내에서 현재 agent 의 상태
action : agent 가 취할 수 있는 행동
reward : 중간중간에, 혹은 최종에 받는 보상값
agent : 나, 객체 그 자체
environment : agent 가 처해있는 여러가지 상황
policy : agent 가 각각의 state 에서 어떤 action 을 선택할지에 대한 확률, 지침
결국은 시간의 흐름(T) 내에서,
정해둔 environment 내의 agent 가
policy 를 따라서 action 을 행하면서
state 를 바꿔가고 받게되는 reward 가 있다.
목표는 reward 를 장기적인 관점에서 최대화 시킬 수 있도록 한다.
===========
e.g.
agent : 자율주행차
state : environment 내에서의 현재위치좌표, 남은기름량, 속도, 핸들방향 등 (설정하기 나름)
action : agent 의 방향변경, 속도변경, 깜빡이점등 등 (설정하기 나름)
reward : environment 에서의 상태값, 혹은 agent 행동에 대한 보상이 주어짐 (보통 시간이 지남에 따라 받는 양을 감소 시킴)
environment : 주변차와의거리, 풍향, 풍속, 지면상태, 목적지까지의거리 등 (설정하기 나름)
policy : 특정 상태 혹은 행동 결과에 대한 다음 행동 지침
앞의 차가 가까우면 속도를 줄여라, 목적지에 가기 위해 곧 우회전이 필요하니 차선을 변경해라.
===========