强化学习纲要Ch4-无模型价值函数估计和控制-上 无模型的价值函数估计和控制—上 这一次讲的是model-free的value function的预策(prediction)和控制(control)。 model-free就是指无模型,MDP不是已知的。也就是说我们不知道$R(Reward)$和状态转移矩阵$P$ 下面是上一次课的concise review: 对于Model-free的RL,我们没有了R和P, 因此我们需要从交互过程中来学习: 2021-05-20 强化学习
强化学习纲要Ch3-马尔可夫决策过程(MDP)—下 马尔可夫决策过程(MDP)—下马尔可夫决策过程有两个核心问题:分别是预策(prediction)和控制(control) 预测: 预策问题就是给定马尔可夫决策过程和策略$\pi$, 或者给出马尔科夫奖励过程。然后去做预策每个状态的价值函数$v^{\pi}$ 控制: 控制是指给出一个马尔可夫过程,需要最优化得到价值函数和策略。 这两个问题都可以通过动态规划来解决。 首先是预测问题: 通 2021-05-20 强化学习
强化学习纲要Ch2-马尔可夫决策过程(MDP)—上 马尔可夫决策过程(MDP)—下本次课的plan list: 环境和agent交互的过程可以通过马尔科夫决策过程来表示。 马尔可夫决策过程可以解决许多实际问题,因此这是RL种的一个基本框架。 一般来说MDP的环境是fully observable的,但其实partically observable也是可以通过MDP来解决的。 如果一个状态转移是符合马尔可夫的,那么说明当前的状态只与上一时刻有关 2021-05-20 强化学习
强化学习纲要Ch1-Overview Intro to Reinforcement learning-Overview强化学习可以做什么? 强化学习成为近几年来的热点,强化学习这种方法再许多领域上都取得了成功,比如,强化学习可以教计算机在虚拟环境中控制机器人,控制机器手等… (图:机器手按照规则旋转立方体) 对于一些策略游戏来说,强化学习在近几年同样有很大的突破:比如王者荣耀的觉悟AI(AAAI2020,Mastering 2021-05-20 强化学习
CS231n-CH8-循环神经网络 循环神经网络后面补一个专题梳理一下这一节:to do.. 原来的CNN是1对1的模型,即输入是固定的大小,输出也是固定的大小。 而RNN可以是: 1对多:输入一张图片,输出对图片的理解。 多对1:输入一段文字,输出情感。或者输入一段视频,输出视频中所作的决策。 多对多:翻译中输入可变,输出可变。 RNN主要用于处理大小可变的有序数据。 但实际上RNN也可以处理一些输入大小固定,输出大小固定的问题 2021-04-19 计算机视觉CV
CS231n-CH7-CNN框架 CNN框架 AlexNetAlexNet结构如下: 网络结构: 第一层有96个卷积核,每个卷积核的大小是11*11*3,所以第一层输出的大小是: 55*55*96。 那么第一层的参数有:(11*11*3)*96 = 35K. 第二层,即POOL1,这层在做Max pooling输出的结果大小是27*27*96。 这一层没有参数,因为是在做Max Pooling,取最大值即可。 AlexNe 2021-04-17 计算机视觉CV
CS231n-CH6-训练神经网络-下 训练神经网络(下)更好的优化SGD的缺点: SGD在某些情况下效果并不会很好,比如loss在竖直方向上下降的很快,在另两个维度上loss下降的很慢,这就会导致得到上下剧烈波动的线。在三维空间如此,在高维空间上更容易出现这个问题。最优化过程会变得很慢。 SGD还有一个缺点就是无法处理鞍点: 即梯度=0,但是却不是极大值/极小值。 梯度到这个地方时由于梯度变为了0,会导致停止迭代。 在这个一维的情况 2021-04-13 计算机视觉CV
CS231n-CH5-训练神经网络(上) 训练神经网络(上)激活函数 问题: 当x是一个很大/很小的区域时,梯度是一个十分接近0的数值,这会导致upstream如果是0,那么返回值就会十分小。这会使得梯度逐渐消失。 比如这个方程的对$x$的梯度是一堆$w$,我们假设数据的x要么都是大于0/要么都是小于0的,那么$\Sigma w_ix_i+b$这个式子对$w$求梯度是一堆$x$,我们上面假设了这里都是大于0,那么这个梯度也都大于 2021-04-12 计算机视觉CV
CS231n-CH4-卷积神经网络 卷积神经网络卷积全连接层: 卷积层(convolution Layer): 卷积网络就是一系列的卷积层的叠加,并加上各种各样的激活函数。 随着层数的增加,所包含的信息越来越多。 卷积计算过程: 我们可以一步一步的来走,那么得到的就是 5*5的结果 但是步长调整到2时: 那么得到的就是一个3*3的结果。 步长为3时:(7-3)/3+1 = 2.33 所以这样会导致不平衡的结果,所以步长 2021-04-09 计算机视觉CV
CS231n-CH3-介绍神经网络 介绍神经网络反向传播(backpropagation)梯度的计算是通过计算图 : 链式法则告诉我们,我们只需要把计算图上的每一段相邻的梯度算出来,我们连乘上他们就是最后一个变量对最前面一个变量的梯度。 backpropagation的运行方式: 一个比较复杂的例子: 对于add门,求对两边梯度都是1,因此直接传过去梯度upstream gradient即可: 对于max门,local 2021-04-08 计算机视觉CV