浅谈Concentration Statistics


前两天,一系外同学问关于“concentration statistics”方面的东西。查了些资料,算是有了些了解,记下,权当学习。

和期望、方差一样,concentration statistics(不知该怎么翻译)也是一类描述性统计量,主要用来描述数据的分化趋势。对于一个样本数据,其值有大有小,其差异越大,则两极分化趋势就越严重。基尼系数(Gini Index)就是一种常见的concentration statistics,基尼系数用来表示一个社会中贫富差异是否显著。基尼系数越大,说明社会贫富两极分化趋势越明显;基尼系数越小,说明社会贫富两极分化趋势越微弱。其他的Concentration statistics 如Exponetial Index和Herfindahl Measure与Gini Index性质类似。

下面以一个算例来说明这几种统计量的计算方法。采用的是一个容量为5的简单数据样本:

\[X = {80, 60, 10, 20, 30)}\]

1.Gini Index 的计算过程。

Gini Index 的计算方法不止一种,这里介绍一种直观容易理解的计算方法。

\[G = 1- \sum^{n}_{i=1}\frac{1}{n}(v_{i} + v_{i-1})\]

其中,

\[v_{i} = \sum^{i}_{j=1}p_{j}=\sum^{i}_{j=1}\frac{X_{j}}{\sum^{n}_{l=1}X_{l}}, i = 1, 2, \ldots, n, v_{0} = 0\]

按照上述公式,首先将上述样本数据从小到大依次排列并求和,得

\[(10, 20, 30, 60, 80),\sum^{n}_{l=1}X_{l}= 200\]

求各个样本数据在总和中所占比例

\[(0.05, 0.1, 0.15, 0.3, 0.4)\]

将这些比例累加求和

\[(v_{0}, v_{1}, \ldots, v_{5}) = (0, 0.05, 0.15, 0.3, 0.6, 1)\]

将以上结果带入Gini Index计算公式:

\[G = 1- \frac{1}{5}[(0+0.05)+(0.05+0.15)+(0.15+0.3)+(0.3+0.6)+(0.6+1)]=0.36\]

2.Herfindahl Measure(也称Herfindall-Hirschman Index,简称HHI)的计算过程。

HHI是分析经济问题时用到的一个衡量指标,它可以用来衡量一个行业内的竞争程度,其计算公式为:

\[He = \sum^{n}_{i=1}p^{2}_{i}\]

其中,

\[p^{2}_{i} = \frac{x^{2}_{i}}{X^2}\]

以由厂商构成的产品市场为例,\(\alpha + \beta\),\(p_{i}\) 代表第i个厂商的市场份额。如果\(p_{i}=\frac{1}{n},i=1, \ldots, n\),即每个厂商的市场份额都一样,He取最小值\(\frac{1}{n}\),此时,市场竞争程度最强,接近于完全竞争;如果某个\(p_{i}=1\),其他\(p_{i}=0\),即某个厂商垄断了整个产品市场,He取最大值1,此时市场为完全垄断市场。也就是说,He越小,市场竞争程度越强,He越大,市场竞争程度越弱。

按照上述公式,对于算例中的数据而言:

\[He = 0.4^2+0.3^2 + 0.05^2 + 0.1^2+0.15^2 = 0.285\]

3.Exponential Index的计算过程。

\[e^{-H} = \prod^{n}_{i=1}p^{p_{i}}_{i}\]

其中,

\[p_{i} = \frac{X_{i}}{X}\]

Exponential Index的与HHI有类似的意义。按照上述公式,对于算例中的数据而言:

\[e^{-H}=0.4^{0.4}\times 0.3^{0.3} \times 0.5^{0.5} \times 0.1^{0.1} \times 0.15^{0.15} = 0.2485\]

Reference:



上篇: 拒绝采样(reject sampling)的简单认识 下篇: 交叉验证