强化学习纲要Ch8-策略优化基础-上 策略优化基础——上Value-based RL vs. Policy-based RLValue-based RL vs. Policy-based RL: Value-based RL Value-based Policy是默认策略是determinsitic的,也就是说我们的策略选择并且只选择能使得$Q(a,s_t)$价值函数最大的那个action. Policy-based RL 2021-05-22 强化学习
强化学习纲要Ch7-价值函数近似-下 价值函数近似—下 线性组合的前提是需要我们设计出很好的feature 我们可以用非线性的函数拟合,常用的方法就是:DNN(Deep Neural Network) 现在DRL的一个大致情况: DNN用来拟合价值函数,策略函数和环境模型 Loss function可以通过SGD来做梯度下降 目前的挑战:1.效率问题,参数太多 2.deadly triad Deep Q-Network 2021-05-20 强化学习
强化学习纲要Ch6-价值函数近似-上 价值函数近似—上Plan: 前面提到的状态量都很小,而许多实际环境得状态量是很多的: 比如围棋局面高达:$10^{170}$, 那么这么多的状态必然是不能有概率转移矩阵的,因此状态很多的强化学习任务一般也都是model-free的。 回想之前在model-free中我们是怎么进行policy evaluation的? 是通过填写Q-Table。 而在状态数过多时,填写Q-table根本不可能 2021-05-20 强化学习
强化学习纲要Ch5-无模型价值函数估计和控制-下 无模型的价值函数估计和控制—下上一节讲了预测(prediction)问题,这一节我们来解决控制(control)问题。 我们之前再policy evaluation中用的方法是动态规划迭代,而上一节提到了一种新的做法也就是通过MC方法来做在特定策略$\pi$下计算状态的价值函数。 model-free时control问题的解决方法: 在model-free中,我们首先要用MC方法来填一个表格Q 2021-05-20 强化学习
强化学习纲要Ch4-无模型价值函数估计和控制-上 无模型的价值函数估计和控制—上 这一次讲的是model-free的value function的预策(prediction)和控制(control)。 model-free就是指无模型,MDP不是已知的。也就是说我们不知道$R(Reward)$和状态转移矩阵$P$ 下面是上一次课的concise review: 对于Model-free的RL,我们没有了R和P, 因此我们需要从交互过程中来学习: 2021-05-20 强化学习
强化学习纲要Ch3-马尔可夫决策过程(MDP)—下 马尔可夫决策过程(MDP)—下马尔可夫决策过程有两个核心问题:分别是预策(prediction)和控制(control) 预测: 预策问题就是给定马尔可夫决策过程和策略$\pi$, 或者给出马尔科夫奖励过程。然后去做预策每个状态的价值函数$v^{\pi}$ 控制: 控制是指给出一个马尔可夫过程,需要最优化得到价值函数和策略。 这两个问题都可以通过动态规划来解决。 首先是预测问题: 通 2021-05-20 强化学习
强化学习纲要Ch2-马尔可夫决策过程(MDP)—上 马尔可夫决策过程(MDP)—下本次课的plan list: 环境和agent交互的过程可以通过马尔科夫决策过程来表示。 马尔可夫决策过程可以解决许多实际问题,因此这是RL种的一个基本框架。 一般来说MDP的环境是fully observable的,但其实partically observable也是可以通过MDP来解决的。 如果一个状态转移是符合马尔可夫的,那么说明当前的状态只与上一时刻有关 2021-05-20 强化学习
强化学习纲要Ch1-Overview Intro to Reinforcement learning-Overview强化学习可以做什么? 强化学习成为近几年来的热点,强化学习这种方法再许多领域上都取得了成功,比如,强化学习可以教计算机在虚拟环境中控制机器人,控制机器手等… (图:机器手按照规则旋转立方体) 对于一些策略游戏来说,强化学习在近几年同样有很大的突破:比如王者荣耀的觉悟AI(AAAI2020,Mastering 2021-05-20 强化学习
CS231n-CH8-循环神经网络 循环神经网络后面补一个专题梳理一下这一节:to do.. 原来的CNN是1对1的模型,即输入是固定的大小,输出也是固定的大小。 而RNN可以是: 1对多:输入一张图片,输出对图片的理解。 多对1:输入一段文字,输出情感。或者输入一段视频,输出视频中所作的决策。 多对多:翻译中输入可变,输出可变。 RNN主要用于处理大小可变的有序数据。 但实际上RNN也可以处理一些输入大小固定,输出大小固定的问题 2021-04-19 计算机视觉CV
CS231n-CH7-CNN框架 CNN框架 AlexNetAlexNet结构如下: 网络结构: 第一层有96个卷积核,每个卷积核的大小是11*11*3,所以第一层输出的大小是: 55*55*96。 那么第一层的参数有:(11*11*3)*96 = 35K. 第二层,即POOL1,这层在做Max pooling输出的结果大小是27*27*96。 这一层没有参数,因为是在做Max Pooling,取最大值即可。 AlexNe 2021-04-17 计算机视觉CV