“统计学习”这个概念渐渐为统计er所熟知,这主要归功于Trevor Hastie、Robert Tibshirani和Jerome Friedman的大作《The Elements of Statistical Learning:Data Mining, Inference, and Prediction》,这本“秘笈”可以看做是数据分析界的“九阴真经”了。虽然知道这本书,但还没有来得及拜读,不过已被它的气场跟震撼了,看其他文献,但有谈及统计学习的,就多看两眼,也好积累积累,都说只有内功强大才可学习“九阴真经”练就绝世武功。
数据中包含有用的信息,大数据时代,数据被看做是金矿银矿,金矿银矿只有开采出来才有用。数据中的信息也可以称为知识,现实中人们通过学习来获得自然科学以及社会科学知识,那么数据中的知识是怎么获得呢?我们是通过使用统计方法与模型对数据进行分析来获得知识的。因此,这个过程就称为”统计学习”,很多统计模型又可称为学习模型(Learner)。统计学习包括数据挖掘、推断以及预测,三个方面缺一不可。
统计学习包括两类,其一是监督学习(Supervised Learning),其二是无监督学习(Unsupervied Learning)。Supervised有“监督、指导”的意思,所以监督学习顾名思义是在一定的引导下进行的统计分析。监督学习背景下的数据集变量有两种:目标变量(target variable)和预测变量(predictors),目标变量和预测变量的关系可以表述为:\(Y=f(X_{1},X_{2}, \ldots, X_{p},noise,parameters)\),监督学习的任务就是在某些标准下(例如最小预测误差)估计该函数关系的参数。如果目标变量为连续型变量,则该问题为回归问题(regression);如果目标变量为离散变量,则该问题属于分类问题(classification)。一旦在训练数据集(training set)基础上,我们得到了目标变量与预测变量之间的关系,那么如果给出新的预测变量观测,就可以利用f对目标变量进行预测。
如果说监督学习是“名师出高徒”的话,那么无监督学习就有点“自学成才”的意思了。无监督学习的目的并不是直接去寻求目标变量和预测变量的关系,甚至都没有目标变量和预测变量之分。无监督学习的困难程度相较于监督学习更大。无监督学习又可以成为描述性数据挖掘,方法有“聚类分析”“异常值检测”“关联分析”等。总之,无监督学习的具有非常强的探索性,可能得不到什么结果,但是一旦得到结果,这些结果往往给人以耳目一新原来如此的感觉。
监督学习和非监督学习的界限并不是严格的,还有处于二者之间的“半监督学习”,可以说是结合了二者的精华。