虚假交易识别(1)

虚假交易识别(1)
31 Aug 2013

识别经济活动中的虚假行为，很重要！比如偷税漏税，如果通过分析缴税数据能够识别出偷税漏税税单的话，就可以减少很多损失，同时打击了经济犯罪，规范了市场秩序。如何找到这些偷税漏税税单呢？单靠专业税收人员的专业知识似乎不够，需要统计分析方法的介入。

我们举一个例子，用来展示怎么用统计方法来识别经济活动中的虚假行为。

案例背景介绍

假设有一个大型的超市，旗下有一些列的连锁超市。这种情况非常普遍，比如说沃尔玛、大润发几乎每个城市都会有。每个连锁超市都会定期向公司总部汇报固定一段时间内，各种产品的销量以及相应的收入。总部得到的数据是这样的：


  ID Prod Quant   Val Insp    Uprice
1 v1   p1   182  1665 unkn  9.148352
2 v2   p1  3072  8780 unkn  2.858073
3 v3   p1 20393 76990 unkn  3.775315
4 v4   p1   112  1100 unkn  9.821429
5 v3   p1  6164 20260 unkn  3.286827
6 v5   p2   104  1155 unkn 11.105769
...

ID是各个连锁超市的编码，而Prod是产品名称，Quant是该种产品的销售数量，Val是该种产品的销售收入，Uprice是该产品的单价。这样每一行就代表一笔交易记录，其含义是某个零售商某种产品的销售数量、销售金额和销售单价。一种产品不只有一个零售商销售，同时一个零售商也在销售多种的产品。

这些数据有没有可能存在虚假记录呢？如果这些汇报数据作为某项评比指标的话，那么各地的连锁超市为了争夺利益，就会存在制造虚假记录的动机。

集团公司的经验是，在每年的销售数据里，总有一些零售商铤而走险，制造一些虚假数据，以此来非法获利。以下是往年那些经过审核的部分记录，记录里有真实的，也有虚假的：



      ID Prod  Quant    Val  Insp      Uprice
241  v70  p33  21777  91360    ok   4.1952519
391  v68  p59    111  23000 fraud 207.2072072
392  v68  p59    107   1015    ok   9.4859813
560 v100 p108 192866 384780    ok   1.9950639
564 v108 p109  34611  12485 fraud   0.3607235
633 v113 p122  74396 195375    ok   2.6261493
715  v92 p146   1263   4160    ok   3.2937451
...

对于今年的数据，因为记录实在是太多了，公司没有那么多的财力对每一行交易记录都进行审核，以此来判断哪些是真实的，哪些是虚假的。这时候就需要数据分析人员提出辅助建议了，数据分析人员通过对数据的分析，可以找出那些更有可能是虚假交易的记录来，让公司的财务人员首先对这些交易进行审核。这样就避免了公司把大量的人力物力投入到哪些根本不会是虚假记录的审核上来，节约里资源，提高了效率。

分析人员不是直接去判断某项记录是否虚假，而只是给出一种度量。具体做法是，按照某种方法，会为每一项纪录计算一个虚假度量值，这就像一个变量一样，用来衡量一条记录是虚假记录的可能性的大小。比如某条记录的值为0.8，而另一条记录的度量值为0.7，就是在说，前者比后者更有可能是虚假记录。把所有记录都按照这个度量值从大到小排序，越在前面，虚假几率可能性越高，越在后面，虚假几率可能性越低。

如果考虑公司的物力人力，公司只能审查5000条记录，那么公司只需按照前边的排序从前往后对记录进行审查。这种情况下，相对于随机抽取交易记录进行审查，这种审查到虚假记录的可能性才会大。

Method1,修正的盒形图规则（Modified Box Plot Rule)

在分析之前，分析人员会对数据做一些合理的假设。这里假设是一种商品的单价服从正态分布。什么意思呢？比如说洗衣机这种商品，有的超市可能为了促销，价格定位800，而有的超市可能面临着抢购，就把价格定位在了1000，更多的超市可能仍然维持价格不变，把价格定位在900附近。一种商品的单价总是在一个集中趋势附近上下波动，从而形成了一个钟形分布，这个钟形分布在统计上可以用正态分布来近似。

fraud

上图的含义是，大多数的单价都会集中在中间灰色区域，而单价过低、过高的可能性都是比较小的（绿色区域）。随便拿到一个商品单价，对比该种商品的其他单价，如果它落在了绿色区域之内，就有理由怀疑这个商品单价是不可靠的，对应的商品交易记录就存在作假的嫌疑。

以上是判断虚假记录的基本思想，具体该如何分析呢？盒形图（Box plot)是不错的选择：

fraud

这里作出了两种商品（P560,P3689)的单价的盒形图。关于盒形图有关键的五条线，中间的较粗的实线是中位数（\(Q_2\)), 中位数以上是75%分位数（\(Q_3\)),中位数以下是25%分位数（\(Q_1\)),\(Q_2\)是集中趋势度量，表示单价应该集中在其附近，而\(IQR=Q_{3}-Q_{1}\)这个区间长度内应该涵盖了50%的样本单价。盒形图最外两条线为\(Q_{3}+1.5\times IQR\),\(Q_{1}-1.5\times IQR\),在正态分布假设下，样本单价落在这个区间之内的概率为99.65%。如果某交易记录的单价落在了这两条线之外，就认为它是异常值（outlier)。

以上是盒形图判断的基本思路，然而我们这里不是直接判断某项纪录是不是虚假的，而是给出一个度量值，用来度量一项纪录是在多大程度上是虚假的。这里该给出一个什么样的度量呢？从盒形图的基本思路可以看到，如果一个单价纪录离盒形图的中心的距离越远，那么其为虚假的可能性就比较大，我们就拿这个距离（NDTP，normalized distance to typical price,对典型价格的归一化距离)作为虚假程度的度量。具体为：

\[NDTP_{p}(u)=\frac{|u-Q_2|}{IQR}\]

也就是说，在计算上述指标之前，我们首先把每种商品的中位数、上四分位数、下四分位数求出来。对于每一条交易记录，运用上述公式时，首先确保商品是对应的，也就是说，这条记录中商品单价减去的是总体中这种商品的中位数，分母是总体中这种商品的上、下四分位数之差。其中用\(IQR\)做除法是用来消除不同商品单价量纲的影响。比如说有的商品本来就很昂贵，价格的变动的绝对数量肯定比便宜的商品变动数量要大，但是为了在同一个水平上进行比较，我们进行正规化处理，即消除量纲影响。

每一条记录都会计算出NDTP，试问哪些记录更有可能是虚假记录，当然NDTP越大的那些！如果公司打算只抽查5000条记录（设共有50000条记录），公司只需按照NDTP从大到小将记录排序，检查前5000条记录就行。

想这样一个问题，这5000条记录里都是虚假记录吗？肯定不是的，假设其中虚假记录只有3200条，我们称\(3200/5000=64\%\)为“查准率”，当然查准率越高越好。再思考另一个问题，3200条记录就是总体中全部的虚假记录吗？同样也不是的，可能50000条记录里共有4000条是虚假的，我们称\(3200/4000=80\%\)为“查全率”。

想像一下，给定一个审查长度（比如5000、4000或3000）就有相对应的查准率和查全率。当审查长度从1开始直至50000时，想象查全率肯定会趋近到1，如果你全部审查，你肯定能把所有的虚假记录都找出来；而查准率则直线下降，因为你对越来越多的真实交易记录进行了审查，做了许多无用功。如下图所示：

fraud

左图描述的是随着审查长度越来越长，查全率与查准率之间的关系。而右图表示如果你想找出60%的虚假记录，你需要审查\(50000 \times 20\%=10000\)条记录，而如果想找出\(5000 \times 80\% = 4000\)条虚假记录，你需要审查\(50000 \times 30\% = 15000\) 条记录。

以上就是统计分析人员可以给财务审查人员提供的建议。

上篇：对统计学习的浅显理解下篇：虚假交易识别(2)--LOF方法