PSD: Principled Synthetic-to-Real Dehazing Guided by Physical Priors介绍 PSD: Principled Synthetic-to-Real Dehazing Guided by Physical PriorsIntroduction首先介绍一下雾霾模型: I(x) = J(x)t(x) + A(1-t(x))其中$J(x)$是原图,$I(x)$是观测的雾霾图像,$t(x)$是透射率,$A$是全局大气光。 早期模型是基于物理先验的方法,然而这些方法鲁棒性很 2021-07-22 计算机视觉CV
MTCNN(Multi-task Cascaded Convolutional Networks)介绍 MTCNN-Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks创新点 MTCNN框架利用级联架构,通过精心设计的深度卷积网络的三个阶段,以从粗略到细致的方式预测人脸和landmark位置。 提出 a new online hard sample mining strategy,即一种 2021-07-19 计算机视觉CV
RPN(Region Proposal Network)介绍 RPN(Region Proposal Network)RPN简单来说就是输入一张图片可以得到很多待选框的一个网络,再详细一点就是: RPN的本质是对所有候选框进行判定,前景概率为多少,如果是前景那么其候选框所需要的修正因子应该是多少。 首先经过backbone提取特征: 首先拿到一张原图时,我们要先利用backbone获得feature map,可以看到上图中右部从feat 2021-07-18 计算机视觉CV
强化学习纲要Ch10-策略优化进阶 策略优化进阶——上本次的内容: 首先还是先回顾一下Value-based RL和Policy-based RL区别: 策略目标和策略梯度: 策略梯度(Policy gradient)有下面几种常见的算法: 这里要说一下这四个优化方法的关系: 首先是REINFORCE使用的是$G_t$,是由MC方法获得的,他其实就是Q Actor-Critic方法中$Q^w$的采样。Advantage Ac 2021-06-07 强化学习
强化学习纲要Ch9-策略优化基础-下 策略优化基础——下Score Function Gradient Estimator我们考虑写一个更广义的策略函数: 上面那个推导过程不太详细,下面给出具体的推导步骤: 这个梯度可以理解为: p(x)为采样得到的值,他们梯度就是上图蓝色箭头,而f(x)代表给这些梯度一个权重。 比如当权重分布如下时: 此时这个p(x)分布会向权值大的哪个方向平移,最后移动至下图: 可以看到概率函数p(x) 2021-06-07 强化学习
机器学习中的KernelModel/LinearModel总结 机器学习中的KernelModel/LinearModel总结 对学到的一些KernelModel/LinearModel做了一下梳理,便于以后忘记时能知道他们提出的动机和与其他模型的联系. PDF文件链接:谷歌云盘 2021-05-25 机器学习
强化学习纲要Ch8-策略优化基础-上 策略优化基础——上Value-based RL vs. Policy-based RLValue-based RL vs. Policy-based RL: Value-based RL Value-based Policy是默认策略是determinsitic的,也就是说我们的策略选择并且只选择能使得$Q(a,s_t)$价值函数最大的那个action. Policy-based RL 2021-05-22 强化学习
强化学习纲要Ch7-价值函数近似-下 价值函数近似—下 线性组合的前提是需要我们设计出很好的feature 我们可以用非线性的函数拟合,常用的方法就是:DNN(Deep Neural Network) 现在DRL的一个大致情况: DNN用来拟合价值函数,策略函数和环境模型 Loss function可以通过SGD来做梯度下降 目前的挑战:1.效率问题,参数太多 2.deadly triad Deep Q-Network 2021-05-20 强化学习
强化学习纲要Ch6-价值函数近似-上 价值函数近似—上Plan: 前面提到的状态量都很小,而许多实际环境得状态量是很多的: 比如围棋局面高达:$10^{170}$, 那么这么多的状态必然是不能有概率转移矩阵的,因此状态很多的强化学习任务一般也都是model-free的。 回想之前在model-free中我们是怎么进行policy evaluation的? 是通过填写Q-Table。 而在状态数过多时,填写Q-table根本不可能 2021-05-20 强化学习
强化学习纲要Ch5-无模型价值函数估计和控制-下 无模型的价值函数估计和控制—下上一节讲了预测(prediction)问题,这一节我们来解决控制(control)问题。 我们之前再policy evaluation中用的方法是动态规划迭代,而上一节提到了一种新的做法也就是通过MC方法来做在特定策略$\pi$下计算状态的价值函数。 model-free时control问题的解决方法: 在model-free中,我们首先要用MC方法来填一个表格Q 2021-05-20 强化学习