1. Policy
- state 에서 가능한 action 들의 선택 확률에 대한 분포(맵) 이다.
따라서, agent 가 state 에서 어떤 action 을 할 확률, 규칙 이라 할 수 있음
- 강화학습의 method 는 경험을 통해서 agent 의 policy 가 어떻게 바뀔지를 정하는 것이라 볼 수 있다.
- State, Model, Action, Reward 는 문제(Problem) 라 보고,
Policy 는 해결책(Solution) 으로 볼 수 있음
- 특정 시점 혹은 마지막의 Reward 를 장기적인 관점(long term) 에서 최대화 할 수 있도록 최적화 하는 것
- 각각의 모든 State 에 대한 행동강령
2. Value function (state-value, action-value 공통)
- 시간이 흐르며 깎인 reward (discounted rewards) 들의 최종 합에 대한 기대값 (expectation)
agent가 다음으로 갈 수 있는 state들의 가치를 보고 높은 가치의 state로 이동하게 되는데 다음으로 갈 수 있는 state들의 가치를 판단하는 value function이 상당히 중요하고 어떻게 효율적이고 정확한 value function을 구할 지가 중요한 문제가 됨
- 대부분 강화학습의 알고리즘에서는 value function을 얼마나 잘 계산하는지가 중요한 역할임.
여기서 "잘" 이라는 의미에는 bias (편향) 되지 않고 variance (분산) 가 낮으며 true 값에 가까우며 효율적으로 빠른 시간 (time) 안에 수렴하는 것을 의미함.
3. State-value function
- 주어진 state 가 agent 에게 얼마나 좋은지를 측정하는 함수
여기서 얼마나 좋은지 라는 것은 agent 가 기대할 수 있는 미래의 rewards 이다.
- policy 를 따라 state 를 변화시켰을 때의 기대값.
4. Action-value function
- 주어진 state 에서 주어진 action 을 수행하는 것이 얼마나 좋은지를 측정하는 함수
- 여기서 얼마나 좋은지 라는 것은 agent 가 기대할 수 있는 미래의 rewards 이다.
- 따라서, policy 라 하는 acting 의 특정 방법에 관해 정의된다.
- 위에서 정의를 내린 state-value function에 대해서 생각을 해보면 사실 그 state의 가치라는 것은 그 state에서 어떤 action을 했는지에 따라 달라지는 reward들에 대한 정보를 포함하고 있음. 또한 agent입장에서 다음 행동을 다음으로 가능한 state들의 value function으로 판단하는데 그러려면 다음 state들에 대한 정보를 다 알아야하고 그 state로 가려면 어떻게 해야하는 지(예를 들면 화살을 쏠 때 바람이 부니까 조금 오른쪽으로 쏴야함) 도 알아야함. 따라서 state에 대한 value function말고 action에 대한 value function을 구할 수 있는데 그것이 action value function. Action value function을 사용하면 value function과는 달리 단지 어떤 행동을 할지 action value function의 값을 보고 판단하면 되기 때문에 다음 state-value function을 알고 어떤 행동을 했을 때 거기에 가게 될 확률도 알아야하는 일이 사라짐.
- 어떤 state에서 action를 취할 경우의 받을 return에 대한 기대값으로서 어떤 행동을 했을 때 얼마나 좋을 것인가에 대한 값.
- Action-value function은 다른 말로 Q-value로서 q-learning이나 deep q-network같은 곳에 사용되는 q 를 의미함.