본문 바로가기

Programming/Artificial Intelligence (AI)

강화학습 MDP 기본 개념2, Reinforcement Learning, Markov Decision Process, AI, Artificial Intelligence, agent, state, action, reward, Statistics

2020/09/06 - [Programming/Artificial Intelligence (AI)] - 강화학습 MDP 기본 개념1, Reinforcement Learning, Markov Decision Process, AI, Artificial Intelligence, agent, state, action, reward, Statistics

 

 

1. Policy

 

- state 에서 가능한 action 들의 선택 확률에 대한 분포() 이다.

따라서, agent state 에서 어떤 action 확률, 규칙 이라 있음

 

- 강화학습의 method 경험을 통해서 agent policy 어떻게 바뀔지를 정하는 것이라 있다.

- State, Model, Action, Reward 문제(Problem) 보고,

Policy 해결책(Solution) 으로 있음

 

- 특정 시점 혹은 마지막의 Reward 장기적인 관점(long term) 에서 최대화 있도록 최적화 하는

 

- 각각의 모든 State 대한 행동강령

 

 

2. Value function (state-value, action-value 공통)

 

- 시간이 흐르며 깎인 reward (discounted rewards) 들의 최종 합에 대한 기대값 (expectation)

 agent 다음으로   있는 state들의 가치를 보고 높은 가치의 state 이동하게 되는데 다음으로   있는 state들의 가치를 판단하는 value function 상당히 중요하고 어떻게 효율적이고 정확한 value function 구할 지가 중요한 문제가 

 

- 대부분 강화학습의 알고리즘에서는 value function 얼마나  계산하는지가 중요한 역할임.

여기서 "" 이라는 의미에는 bias (편향) 되지 않고 variance (분산)  낮으며 true 값에 가까우며 효율적으로 빠른 시간 (time) 안에 수렴하는 것을 의미함.

 

 

3. State-value function

  

- 주어진 state agent 에게 얼마나 좋은지를 측정하는 함수

여기서 얼마나 좋은지 라는 것은 agent 기대할 있는 미래의 rewards 이다.

 

- policy 따라 state 변화시켰을 때의 기대값.

 

 

 

4. Action-value function

 

- 주어진 state 에서 주어진 action 수행하는 것이 얼마나 좋은지를 측정하는 함수

 

- 여기서 얼마나 좋은지 라는 것은 agent 기대할 있는 미래의 rewards 이다.

 

- 따라서, policy 하는 acting 특정 방법에 관해 정의된다.

 

- 위에서 정의를 내린 state-value function 대해서 생각을 해보면 사실 state 가치라는 것은 state에서 어떤 action 했는지에 따라 달라지는 reward들에 대한 정보를 포함하고 있음. 또한 agent입장에서 다음 행동을 다음으로 가능한 state들의 value function으로 판단하는데 그러려면 다음 state들에 대한 정보를 알아야하고 state 가려면 어떻게 해야하는 (예를 들면 화살을 바람이 부니까 조금 오른쪽으로 쏴야함) 알아야함. 따라서 state 대한 value function말고 action 대한 value function 구할 있는데 그것이 action value function. Action value function 사용하면 value function과는 달리 단지 어떤 행동을 할지 action value function 값을 보고 판단하면 되기 때문에 다음 state-value function 알고 어떤 행동을 했을 거기에 가게 확률도 알아야하는 일이 사라짐.

 

- 어떤 state에서 action 취할 경우의 받을 return 대한 기대값으로서 어떤 행동을 했을 얼마나 좋을 것인가에 대한 .

 

- Action-value function 다른 말로 Q-value로서 q-learning이나 deep q-network같은 곳에 사용되는 q 의미함.