评估模型

Note: ml regression week3

Posted by Borg on April 10, 2016

如何评估一个回归模型

loss function

首先定义loss function,即预测错误带来的损失,通常使用y-yhat的绝对值或者平方。但不绝对,比如在预测放假时如果估值过高,则可能完全卖不出去,带来的损失更大,因此可以定义loss function使估值过高带来的loss比估值过低带来的loss更大。 loss function

然后看到一句很有意思的话: quote

training error, generalization error, test error

training error

training error的计算方式: quote

以下是以suare error为例(再次强调是loss function,不一定是error的平方): quote

随着模型复杂度增加,traing error会不断减少 quote

generalization error

generalization error的定义,注意对于每一对(x,y)要乘上相应的概率。就是说,generlization error是对于每一个可能的(x,y)求loss,即整体population的loss的期望值。举例来说,现实生活中的房屋面积分布,离均值越远,概率越小,所以对loss的期望值影响也应当越小。 quote

那么实际上由于现实生活中的房屋不能全部调查,所以generalization error是没法计算的。不过理论上,随着模型复杂度增加,首先呈减小趋势,随后由于overfitting,generlization error又增加。 quote

test error

test error就不用说了,跟training error一样,只是用test data计算。由于generalization error无法计算,所以可以用test error估计。由于是估计,所以会有偏差,于是就是沿着generalization error上下波动了。 quote

3 source of error

error有三个来源:noise, bias, variance quote

noise

由于模型不可能完全反应客观世界,比如预测房价时不可能把邻居,卫生间数,车库等所有因素考虑进来,所以noise是必然存在的。 quote

bias

选择一个模型复杂度,如果使用的traing data不同,那么得到的模型也会有所不同。把所有可能的training data训练的到的模型取平均,并与理想的真实能反应客观的模型对比。 quote
quote
当模型复杂度低的时候bias高,模型复杂度高的时候bias低(虽然overfitting,但是由于取了平均,所以bias还是降低的) quote
quote

variance

如bias部分所述,固定复杂度,当得到的training data不同时训练得到的模型也有所不同。这些模型之间的差异就是variance。 quote

当模型复杂度增加,由于overfitting,只要改变一两个样本点就会对模型产生很大的影响,于是variance就增加。 quote
quote
quote

Again,bias和variance不能实际计算出来,而用MSE(Mean Square Error,即square error的期望值)来衡量总的error。 quote

下图是随获得的数据集越大,training error和true error(即generalization error)的变化。注意在固定的模型复杂度下,数据集较少时traing error是较低的,但随着数据集越大,模型渐渐不能反应traing data,于是training error增大。随着数据集越来越大,training data实际是趋于与实际的population相等,于是两条曲线有共同的极限,该极限值是由于bias和noise造成的。 quote