机器学习技法CH7:Blending and Bagging CH7:Blending and BaggingMotivation of Aggregation现在有这样一个问题:有15个人来指导我买股票,我怎么选则是否买呢? 首先是最直观的 :选择一个以前买股票表现最好的的,也就是在做validation时最好的那一个: 让他们投票说明股票是否会涨,每个人一票: 由于一些人水平会高一些,每个人的票数不应该一样: 这里面是包含了以上两种的选择方式 2021-02-20 机器学习
机器学习技法CH6:Support Vector Regression CH6:Support Vector RegressionKernel Ridge Regression 如上一节所说,我们可以把最优解的$w_*$看作$z_n$的线性组合 因此我们可以解最优的$\beta$即可求出$w_*$. 这部分我们怎么求来的呢? 首先第一部分: 我们可以化为矩阵的形式来表达这个式子:$\beta K\beta$, 其中$\beta$是一个$1N$矩阵,$K$是一个$ 2021-02-18 机器学习
机器学习技法CH5:Kernel Logistic Regression CH5:Kernel Logistic RegressionSoft-Margin SVM as Regularzied 当$(x_n,y_n)$越过边界时,错误就是$1-y_n(w^Tz_n+b)$,当$(x_n,y_n)$没有越过边界时,说明他是正确的没有错误,即$\xi=0$,那么我们综上所述:可以把$\xi$换成另一种写法:$max(1-y_n(w^Tz_n+b),0)$ 此时我们的SVM 2021-02-17 机器学习
机器学习技法Quiz1(homework+code) QUIZ 1:Q1 Q2 12345678910111213141516171819202122from cvxopt import solvers, matriximport numpy as npimport matplotlib.pyplot as pltdef z1(x1,x2): return x2**2 - 2*x1 + 3def z2(x1,x2): return x1* 2021-02-10 机器学习
机器学习技法CH4:Soft-Margin Support Vector Machine CH4:Soft-Margin Support Vector MachineMotivation and Primal 我们不能一直追求全部正确,数据也不一定可分。 在pocket中我们选择容忍一些错误: 因此我们让SVM上min的目标不仅包含$\frac{1}{2}w^Tw$ ,也包括错误的数量,这个C代表着这两者的权衡,如果你不在意多错一点,想要使得$\frac{1}{2}w^T 2021-02-07 机器学习
机器学习技法CH3:Kernel-Support-Vector-Machine CH3:Kernel Support Vector MachineKernel Trick回顾上节的内容: 我们看似Dual SVM已经与$\tilde{d}$无关了,可是在计算时我们会发现$q_{n,m}=y_my_mz_n^Tz_m$这个式子中的$z$却包含了$\tilde{d}$, 如果这个$\tilde{d}$非常大,我们算的还是非常慢。 我们想做的是这一步,做得快一点: $\phi$ 2021-02-05 机器学习
机器学习技法CH2:Dual Support Vector Machine CH2:Dual Support Vector MachineMotivation of Dual SVM我们上节提到过,如果想让SVM来做非线性的分类,那么我们是需要feature transform的,此时的问题变为了: 这个$\phi(x_n)$就是对原来的$x_n$做了feature transform。 我们的二次规划问题也变为了: 为什么想到用SVM来做这件事情呢,因为在 2021-02-05 机器学习
机器学习技法CH1:Linear SVM CH1:Linear SVMLarge-Margin separating Hyperplane 这三种线都可以把这些点分开。 PLA算法不一定会得出哪儿一种线 从我们的VC Bound来看,$E{in}=0$都一样,$d{VC}$=也一样,那么 VC Bound所带来的保证$E_{out}$都相同。 但其实我们的直觉告诉我们第三种好一点,因为他如果有一些数据有误差,那么也不会 2021-02-03 机器学习
机器学习基石CH16:Three Learning Principle(完结) CH16:Three Learning PrincipleOccam’s Razor(奥卡姆剃刀) 对数据最简单的解释也是最有说服力的解释。 我们肯定认为左边的好一些。 什么叫做simple model,hypothesis很简单的model,hypothesis set里的hypothesis不是很多。 如果我们的资料很乱随机给出,毫无规律可循,那么我们可以完美的分开这些资料的概率是: 2021-01-27 机器学习
机器学习基石CH15:Validation CH15:ValidationModel Select Problem选择的依据: 第一种:只做$E_{in}$ 做低一些,这样选模型肯定不是很好 第二种:选择在最终测试集上的一部分数据,然后对每个模型进行测试,然后选取准确率最高的。 由hoeffding不等式来看,这样的结果还不错: 但是现实中我们几乎不能拿到最终测试集的,这是一个自欺欺人的做法。 以上两种方法都不是很好,或许我 2021-01-27 机器学习