从数学上理解”二八”定律
二八定律,在英语里面被称为帕累托法则,对于它比较准确的阐述,我们可以参考维基百科:
帕累托法则(英语:Pareto principle,也被称为 80/20 法则、关键少数法则、八二法则 指出,约仅有20%的变因操纵着80%的局面。也就是说:所有变量中,最重要的仅有20%,虽然剩余的80%占了多数,控制的范围却远低于“关键的少数”。 管理咨询约瑟夫·朱兰首先提出该原则。此一概念起源于意大利经济学家 帕累托 (Vilfredo Pareto) 在洛桑大学注意到了80/20的联系,于他的第一篇文章《政治经济学》中说明了该现象,例如:意大利约有80%的土地由20%的人口所有、80%的豌豆产量来自20%的植株等等。
那么,这个法则究竟只是一个社会学结论,还是有什么数学上的依据呢?
高尔顿板和正态分布
高尔顿板为一块竖直放置的板,上面有交错排列的钉子。让小球从板的上端自由下落,当其碰到钉子后会随机向左或向右落下。最终,小球会落至板底端的某一格子中。假设板上共有n排钉子,每个小球撞击钉子后向右落下的概率为p(当左、右概率相同时p为0.5),则小球落入第k个格子概率为二项分布 {\displaystyle {n \choose k}p^{k}(1-p)^{n-k}} 。根据中心极限定理,当n足够大时,该分布近似于正态分布。此时,将大量小球落至格中,格子中的小球数量即近似于正态分布的钟形曲线。
在上面对高尔顿板的描述当中,提到了中心极限定理,中心极限定理的描述是这样的:
中心极限定理是概率论中的一组定理。中心极限定理说明,在适当的条件下,大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布。这组定理是数理统计学和误差分析的理论基础,指出了大量随机变量之和近似服从正态分布的条件。
这个描述比较抽象。我们可以举一个简单的例子来说明:比如某地区男性的身高,我们知道,一个人的身高是各种复杂因素相互作用的结果,比如父母的基因,日常的饮食,运动情况,生活环境等等成千上万个因素;这些因素可以假设成独立同分布的随机变量,一个人的身高可以看做是这些因素加和作用的结果,因此,假如我们统计该地男性的身高分布,会发现这个分布正是一个正态分布。
f(x;\mu ,\sigma )={\frac {1}{\sigma {\sqrt {2\pi }}}}\,\exp \left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right)
正态分布又叫高斯分布,是统计学上误差分布的基石。为什么误差服从正态分布呢?因为单次测量的误差也是各种因素综合作用的结果:比如尺子不准,操作失误等等等等,我们无法完全列举具体都有什么因素使得测量结果产生误差,也无法预测它们会对单次测量的结果产生多大的误差,但是借助正态分布,我们可以使我们把总的误差控制在可以接受的范围内。
所以一个随机变量服从正态分布的条件可以近似归纳为无穷多个独立同分布的随机变量加和的结果:
\begin{align} X &= \sum_{i=0}^{\infty}X_i \end{align}
对数正态分布
假设一个随机变量是无穷多个独立同分布随机变量相乘的结果:
X= \prod_{i=0}^{\infty}X_i
对这个变量取对数,就变成了:
ln(X)=ln(\prod_{i=1}^{\infty}X_i)=\sum_{i=0}^{\infty}ln(X_i)
独立同分布的随机变量取完对数之后依然是独立同分布的。因此 ln(X) 服从正态分布。 X 的分布称为对数正态分布:
f(x;\mu ,\sigma )={\frac {1}{x\sigma {\sqrt {2\pi }}}}e^{-(\ln x-\mu )^{2}/2\sigma ^{2}}
可能就有人要问了,这扯完正态分布又扯到对数正态分布,和二八定律究竟有什么关系呢?
别急,我们构造一个对数正态看看它的性质:
# -*- coding:utf-8 -*-
import numpy
from matplotlib import pyplot as plt
from scipy.stats import lognorm
S = 0.8
X = numpy.linspace(lognorm.ppf(0.01, S), lognorm.ppf(0.99, S), num=200)
Y = lognorm.pdf(X, S)
cdf2 = lognorm.cdf(2, S)
plt.title('20%% CDF:%.4f' % cdf2)
plt.plot(X, Y)
plt.scatter(2, lognorm.pdf(2, S))
plt.show()
这段代码构造了一个正态分布,并统计了大约前20%的部分占整体的比例:
观察上图,发现了什么?可以看到前面大概20%的值,却占据了整体大概80%以上的概率。
这不正是二八定律吗。
回过头来看对数正态分布成立的条件。它要求各个随机变量之间通过乘法进行累计。比较好理解的例子:以复利计算的股票的长期收益率。某一支股票在某个月的收益率可以看做是随机的不确定的,当要算一个比较长的周期的平均收益率,这个收益率就可以看成是对数正态分布。
再推广一点,这种概率之间相乘的关系往往代表着完成一件事情的各个环节,它们之间是一个条件概率的关系,只有完成了上一步,才会有下一步:
P=P(X_1)\cdot P(X_2|X_1) \cdots
再举个例子:手机的销量,消费者会不会购买一款手机和很多因素有关系,外观、价格、性能...,只要有一个条件不满足,消费者就不会购买这款手机。
形而上 马尔可夫不等式
对于一个非负的随机变量 X ,马尔可夫不等式的表述为:
P(X\ge a) \le \frac{E(X)}{a}
这样可能不好理解,换个形式:
P(X\lt a) \gt \frac{E(X)}{a} \implies P(X \lt 0.2) \gt 5E(X)
对于这个不等式的一个解释可以是:不超过1/5的人口会有超过5倍于人均收入的收入。
马尔可夫不等式的证明也很简单,直接从期望的定义出发即可:
\begin{align} E(X) &= \int_{-\infty}^{\infty}xf(x)\mathrm{d}x \\ &=\int_{0}^{\infty}xf(x)\mathrm{d}x \\ &\ge \int_{a}^{\infty}xf(x)\mathrm{d}x \\ &\ge a\int_{a}^{\infty}f(x)\mathrm{d}x \\ &= aP(X\ge a) ,\quad (X\ge 0) \end{align}
从马尔可夫不等式出发,不需要对随机变量的分布作假设,即可得到与二八定律相似的结论。