平方误差函数（square error function)与平方损失函数(square loss function)

平方误差函数（square error function)与平方损失函数(square loss function)
06 Nov 2013

看《PRML》一段时间后，消除了很多统计疑惑。误差函数和损失函数就是其中之一。这两个家伙，形式蛮像的，都是平方和的形式，而且都是求极小值点。那么，它们的区别在哪呢？

误差函数用于参数估计，损失函数用于预测

从功能上说，误差函数和损失函数就不一样。误差函数是用来做估计的，属于估计理论范畴。误差函数的最小化常常又称为最小二乘法，是一种参数估计方法。最初的最小二乘法并没有统计理论基础，只是一种数值计算方法。一般只求使\(\sum (t_i-y(x_i,\theta))^2\)最小的\(\hat{\theta}\),也不考虑t的具体模型假设是什么。当我们学习最小二乘的时候，我们总是会问，问什么我们取差的平方和，而不取差的绝对值，或者四次方的和呢？很多老师回答，是因为数学上操作简便！我以为，这种回答是不负责任的！难道为了图简便，我们就乐此不疲的使用一种没有任何科学依据的方法吗？答案是否定的。最小二乘法为人们所熟知所运用，最根本的原因是，它与高斯模型下的极大似然估计的结果是一致的！因此，我们使用最小二乘而不使用最小一乘或四乘是有道理的。

损失函数是用来做预测的，属于决策理论的范畴。在一个估计好的模型\(t=f(x,\hat{\theta})+\epsilon\)下，我们如何对一个预测变量\(x'\)的输出\(t'\)进行预测呢？用\(\hat{t}'=f(x')\)作预测呗。有没有想过其原因呢？其实，这时\(t'\)是一个随机变量，这个随机变量可能会取各种各样的值，用\(f(x')\)作为\(t'\)的预测值，在\(\epsilon\)服从0均值正态分布假设下，意味着用一个随机变量的均值对一个随机变量做预测。显然，预测不可能准确，也就是说\(t'-\hat{t}'\)不可能为0。但是，在使\(（t'-\hat{t}')^2\)最小的情况下，用均值做预测是最好的选择。而\(（t'-\hat{t}')^2\)就是平方损失函数，即预测可能发生的损失。在其他损失函数下，比如\(\|t'-f(x')\|\),这时用均值做预测，就不会让这个损失函数最小，反而用中位数会更好。

上篇： CTEX,你好！（图解CTEX入门）下篇： bibtex生成参考文献