品牌汽车保值效果哪家强?-基于回归模型的分析


最近几年,中国二手车市场非常活跃。中国汽车流通协会发布的数据显示,截至2016年8月,全国二手车累计交易649.9万辆,同比增长6.53%,按此增势,2016年二手车交易总规模突破1000万辆的目标有望实现。二手车市场的迅速发展悄然改变了汽车消费者的购车行为,买车一族在进行汽车品牌选择时,常常会考虑其保值率。他们通常希望选择保值率较高的品牌,这样若干年后就可以较高的价格出售,并在此基础上再购买新车。那么,哪种品牌的汽车保值效果较好,保值率较高呢?处于大数据时代的我们,能否借助于数据分析回答消费者关心的问题呢?事实上,许多二手车交易是在线上交易平台(如瓜子、人人车等)实现的,这些平台一般会积累非常全面的二手车交易数据,这些数据或许能帮助我们找到答案。

“大”数据准备

北京大学光华管理学院商务统计系的公众微信号“狗熊会”为数据分析爱好者提供了一家二手车交易平台近期的交易数据,这批数据共包含2096条二手车交易记录,每条交易记录包括品牌、款式、车型、排量、手动/自动、版型、上牌时间、行车里程、现价、原价等信息,我们将对这批数据进行分析。在分析之前,我们首先检查数据的完整性,在去除含有缺失值和失真值的记录后,最终样本共包含2024条二手汽车交易记录。 传统的保值比率定义为汽车现价与原价的比值,而本文保值比率的定义方式为

\[保值比率=log(\frac{现价}{原价-现价})\]

传统的定义方式下,保值比率的取值限定在0到1之间,而按照本文的定义,保值比率可正可负,没有限制范围。保值比率为正,表明汽车现价超过原价一半,保值比率为负,表明汽车现价不足原价二分之一。2024辆汽车保值比率的直方图如图1所示,可以看出,保值比率的分布大致左右对称,呈钟型,近似正态分布。一般来说,线性回归分析要求因变量为正态分布,所以本文的定义方式有利于将保值比率作为因变量进行回归分析。

方法1:分组比较不同汽车品牌的保值效果

在考虑不同汽车品牌的保值效果时,首先想到的方法是分组计算各汽车品牌保值比率的均值,并进行比较。经整理,共有65个品牌,汽车品牌种类较多。其中一些汽车品牌交易数目较多,比如大众汽车有365条交易数据,宝马汽车有161条数据,本田有76条交易数据;也有一些品牌交易数目过少,比如奔腾、传祺、海马、开瑞四种汽车品牌各仅有一条交易数据。交易数据过少,计算的可信度也较低。所以,我们仅对交易数目较多的13种汽车品牌着重进行分析,交易数目较少的品牌统一归为“其他”类型,各汽车品牌交易数目及保值比率均值计算如下表。

交易数目较多的13种汽车品牌共含有1407条交易数据,占样本总数的70%。计算各品牌保值比率均值发现,保值效果最好的汽车品牌是奥迪,其保值比率为0.293;本田汽车保值效果居中游,其保值比率为0.192;保值效果最差的汽车品牌为雪铁龙,其保值比率为-0.217。其余各汽车品牌保值比率从低到高排序如下图所示。

然而,仅通过比较各汽车品牌保值比率均值就得出相关结论并不妥当,这是因为以上的分析完全忽视了其他的影响因素,比如汽车行驶里程和上牌时间。众所周知,汽车行驶里程和上牌时间对汽车保值率有重要影响,一般来说,行驶里程越长,上牌时间越久,汽车的保值率越低。奥迪和本田这两个汽车品牌行驶里程和上牌时间箱线图见图3。从箱线图可以看出,奥迪汽车的行驶里程和上牌时间的均值均低于本田汽车,而这可能是造成奥迪汽车保值比率显著高于本田的主要原因,而并非由于品牌的不同。

方法2:建立回归模型比较汽车品牌对保值比率的影响

由本田和奥迪汽车的行驶里程和上牌时间比较得到启发:若要分析汽车品牌对保值比率的影响差异,必须控制住其他因素的影响,这些因素可能包括排量、手动/自动、上牌时间、行车里程、汽车购买原价等。由此我们建立包含汽车品牌和其他因素的保值比率回归模型,该回归模型的因变量和自变量信息如下表2。

利用R软件的lm()函数进行回归方程估计。结果显示,回归方程的调整 值为0.80,表示该回归方程中自变量可以解释因变量80%的信息,拟合优度较高。方程整体显著性F检验统计量为426.5,显著性p值为 $2.2\times 10^{-6}$ ,远小于0.05,表明回归方程整体显著。多重共线性检验显示,各自变量系数的方差膨胀因子(Variance Inflation Factor,VIF)均小于2,表明自变量之间不存在多重共线性。汽车排量、汽车档型、行驶里程、上牌时间、购买原价等控制变量的系数估计见下表3。系数估计与实际情况相符,如上牌时间的系数估计为负值,表明上牌时间越长汽车保值比率越低。各变量系数为0的显著性检验P值均小于0.01,意味着这些变量对汽车保值比率的影响不可忽视。因此,在分析汽车品牌对保值比率的影响时,必须对这些变量进行控制,这也正是我们建立回归模型的原因。

13个汽车品牌的系数估计如下图所示,图中每个立柱的高度表示系数值的大小,其中深色表示该系数显著,浅色表示该系数非显著(显著性水平$\alpha = 0.05$ )。系数的大小可以表示品牌对保值比率的影响,系数越大,品牌对保值比率越有正向影响,系数越小,品牌对保值比率越有反向影响。按照系数从小到大对各汽车品牌进行了排序,结果见图4。从图中可以看出,本田汽车系数最大,保值效果最好;标致汽车系数最小,保值效果较差。具体而言,本田、丰田和日产等日系车,以及大众、奔驰等德系车,其系数均较大,保值效果较好;现代、奥迪、别克、宝马以及福特等汽车品牌,系数处于中等水平,其保值效果一般;雪佛兰,以及雪铁龙、标致等法系汽车品牌,系数较低,甚至为负,其保值效果较差。

小结

在比较不同汽车品牌对保值比率的影响时,回归方法消除了品牌以外其他因素的影响,因此相对于按品牌分组并求保值比率均值的方法,回归方法更为合理。回归方法得到的结论是,日系车“两田”(本田和丰田)、“日产”以及德系车“大众”和“奔驰”汽车保值比率一般较高,是注重二手车保值效果的汽车消费者的较好选择。回归方法还显示,汽车的其他指标,比如行车里程、购车时间等也对保值比率有显著影响,消费者对此也应加以关注。值得注意的是,汽车的保值比率影响因素除上述指标外还有很多,比如汽车车况,但车况难以量化,所以本文没有对此进行分析。

参考资料:

  1. 微信公众号“狗熊会”文章《二手车保值比率影响因素分析》
  2. 吴喜之. 统计学: 从数据到结论 (第四版)[J]. 中国统计出版社, 2013, 6: 001.
  3. Wickham H. ggplot2: elegant graphics for data analysis[M]. Springer Science & Business Media, 2009.

上篇: 在华师学习的一些总结