강화학습 심화 1: Gridworld & Neural network approximation

근사 함수

SARSA
- $Q(S_t, A_t) \leftarrow Q(S_t, A_t) + \alpha(R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t) )$
위의 수식을 구하는데, $q(s,a)$를 NN을 사용해서 근사시켜보자!
- 모든 action에 대해서 q(s,a)가 뽑힌다.
  전체 구조
노란색이 현 step, 초록색이 다음 step을 의미한다.

여태까지 배운 알고리즘은 Value-based RL.
- 가치를 배우는 것이고, 가치 기반으로 행동을 선택
PG는 Policy-based RL
- 정책을 바로 학습시킴
$J(\theta) = v_{\pi_\theta}(s_0)$ 를 maximize
- 처음 상태 $s_0$에서의 Value func.를 최대화시키는 policy
$\begin{matrix} \nabla_\theta J(\theta) & = & \nabla_\theta v_{\pi_\theta}(s_0) \\ & = & \sum_s d_{\pi_\theta}(s)\sum_a\nabla_\theta \pi_\theta(a \vert s) \cdot q_\pi(s, a) \\ & = & \sum_s d_{\pi_\theta}(s)\sum_a \pi_\theta(a \vert s) \cdot \frac{\nabla_\theta \pi_\theta(a \vert s) }{\pi_\theta(a \vert s)} \cdot q_\pi(s, a) \\ & = & \sum_s d_{\pi_\theta}(s)\sum_a \pi_\theta(a \vert s) \cdot \nabla_\theta[ log\pi_\theta(a \vert s)] \cdot q_\pi(s, a) \\ & = & E_{\pi_\theta}[\nabla_\theta[ log\pi_\theta(a \vert s)] \cdot q_\pi(s, a)]\end{matrix}$
- 보상이 마이너스면, 해당 정책을 낼 확률이 줄어들고,
- 보상이 플러스면 늘어남