价值函数近似—下

现在DRL的一个大致情况：

Deep Q-Networks(DQN):

DQN通过神经网络拟合了action-value function(q函数)，同时在Atari游戏上表现出色。

之前Q-Learning学习中很难克服两个问题：

那么DQN是如何解决上面这两个问题的呢？

Experience replay这种方法用了一个容器replay memory $D$来存储$(st,a_t,r_t.s{t+1})$.

然后在对$D$进行采样，利用采样得到的来构建TD target，进一步就可以得到所拟合的Q函数的梯度。

因此这种方法把不同轨迹的数据集合在一起，抽样训练，降低了相关性。

解决的方法是通过一个$w^-$ 来替代TD target中的$w^-$。这个$w^-$是几轮迭代前的$w$,这样我们就可以求梯度时忽略原来TD Target第二项w不求导造成的问题。

更新方法如下：

这里周博磊老师给出了一个直观的解释：

老鼠相当于我们的target function，老鼠每动几步，猫才会行动一步，这样就可以更好的看准target来优化。原来TD Target每次都会变化，这会导致目标一致变化导致拟合困难。

DQN近些年的一些进步工作:

强化学习

本博客所有文章除特别声明外，均采用 CC BY-SA 4.0 协议，转载请注明出处！

强化学习纲要Ch7-价值函数近似-下