CH13：Hazard of Overfitting

What is overfitting

比如我们现在的数据是通过一个二次曲线+noise 造出来的数据，然后我们用这个数据进行机器学习，假如你用了5次曲线（即一定可以经过上述的五个点），那么我们就会画出图中红色的曲线(且$E_{in}=0$)

但是她和我们的target function蓝色线差距很大。

一个overfitting的例子：

overfitting出现的原因：

我们以出车祸为例子。

我们发现10次多项式还是发生了over fitting，在$E_{out}$表现很差。

我们会经常发现，有时候即使如果target function是10次的，我们用十次模型的效果竟然没有二次模型表现好，这是为什么呢？

我们看右面的图，会发现在灰色部分 $E_{out}$表现非常差，这是一种聪明反被聪明误的特点，因为hypothesis太多了，在数据较少时很难寻出来一个好的模型。

我们给出的数据y由两部分合成：target function+noise。这里noise符合高斯分布来看。

我们想研究影响overfit的因素，首先要确定overfit的measure方法

这里我们想到，如果overfit的越厉害，那么反映在$E_{out}$上来看就是差距很大：

下面我们来看不同不同影响因素造成的overift情况：

注：$Q_f$代表用的target function是几次的函数。

我们先看noise 和数据量带来的影响

我们看一下 target function的次数($Q_f$) 和数据量带来的影响

从上面两个图，我们总结一下overfit的情况：

数据太少，
stochastic noise太多，
deterministic noise 太多
excessive power造成的overfit，因为target function的复杂度很小时，我们用一个10次的多项式去拟合，因为他的能力太强了，肯定会把noise也拟合出来，这样就造成overfit

当我们的hypothesis(红线)的复杂度小于target function(蓝线)时，他们之间肯定会有差距，即灰色的部分，我们一般称这个差距就是deterministic noise
其实所有的 stochastic noise都是电脑伪随机出来的，其实本质上也是deterministic noise。