对统计学习的浅显理解

对统计学习的浅显理解
23 Aug 2013

“统计学习”这个概念渐渐为统计er所熟知，这主要归功于Trevor Hastie、Robert Tibshirani和Jerome Friedman的大作《The Elements of Statistical Learning:Data Mining, Inference, and Prediction》，这本“秘笈”可以看做是数据分析界的“九阴真经”了。虽然知道这本书，但还没有来得及拜读，不过已被它的气场跟震撼了，看其他文献，但有谈及统计学习的，就多看两眼，也好积累积累，都说只有内功强大才可学习“九阴真经”练就绝世武功。

数据中包含有用的信息，大数据时代，数据被看做是金矿银矿，金矿银矿只有开采出来才有用。数据中的信息也可以称为知识，现实中人们通过学习来获得自然科学以及社会科学知识，那么数据中的知识是怎么获得呢？我们是通过使用统计方法与模型对数据进行分析来获得知识的。因此，这个过程就称为”统计学习”，很多统计模型又可称为学习模型（Learner)。统计学习包括数据挖掘、推断以及预测，三个方面缺一不可。

统计学习包括两类，其一是监督学习（Supervised Learning)，其二是无监督学习（Unsupervied Learning）。Supervised有“监督、指导”的意思，所以监督学习顾名思义是在一定的引导下进行的统计分析。监督学习背景下的数据集变量有两种：目标变量（target variable)和预测变量（predictors),目标变量和预测变量的关系可以表述为：\(Y=f(X_{1},X_{2}, \ldots, X_{p},noise,parameters)\),监督学习的任务就是在某些标准下（例如最小预测误差）估计该函数关系的参数。如果目标变量为连续型变量，则该问题为回归问题（regression);如果目标变量为离散变量，则该问题属于分类问题（classification）。一旦在训练数据集（training set）基础上，我们得到了目标变量与预测变量之间的关系，那么如果给出新的预测变量观测，就可以利用f对目标变量进行预测。

如果说监督学习是“名师出高徒”的话，那么无监督学习就有点“自学成才”的意思了。无监督学习的目的并不是直接去寻求目标变量和预测变量的关系，甚至都没有目标变量和预测变量之分。无监督学习的困难程度相较于监督学习更大。无监督学习又可以成为描述性数据挖掘，方法有“聚类分析”“异常值检测”“关联分析”等。总之，无监督学习的具有非常强的探索性，可能得不到什么结果，但是一旦得到结果，这些结果往往给人以耳目一新原来如此的感觉。

监督学习和非监督学习的界限并不是严格的，还有处于二者之间的“半监督学习”，可以说是结合了二者的精华。

上篇：关于啤酒和尿布的那些事下篇：虚假交易识别(1)

对统计学习的浅显理解
23 Aug 2013

站内搜索

分类

相关链接

对统计学习的浅显理解 23 Aug 2013

站内搜索

分 类

相关链接

对统计学习的浅显理解
23 Aug 2013

分类