首发于 1024

从数学上理解”二八”定律

二八定律，在英语里面被称为帕累托法则，对于它比较准确的阐述，我们可以参考维基百科：

帕累托法则（英语：Pareto principle，也被称为 80/20 法则、关键少数法则、八二法则指出，约仅有20%的变因操纵着80%的局面。也就是说：所有变量中，最重要的仅有20%，虽然剩余的80%占了多数，控制的范围却远低于“关键的少数”。管理咨询约瑟夫·朱兰首先提出该原则。此一概念起源于意大利经济学家帕累托 (Vilfredo Pareto) 在洛桑大学注意到了80/20的联系，于他的第一篇文章《政治经济学》中说明了该现象，例如：意大利约有80％的土地由20％的人口所有、80%的豌豆产量来自20%的植株等等。

那么，这个法则究竟只是一个社会学结论，还是有什么数学上的依据呢？

高尔顿板和正态分布

高尔顿板为一块竖直放置的板，上面有交错排列的钉子。让小球从板的上端自由下落，当其碰到钉子后会随机向左或向右落下。最终，小球会落至板底端的某一格子中。假设板上共有n排钉子，每个小球撞击钉子后向右落下的概率为p（当左、右概率相同时p为0.5），则小球落入第k个格子概率为二项分布 {\displaystyle {n \choose k}p^{k}(1-p)^{n-k}} 。根据中心极限定理，当n足够大时，该分布近似于正态分布。此时，将大量小球落至格中，格子中的小球数量即近似于正态分布的钟形曲线。

在上面对高尔顿板的描述当中，提到了中心极限定理，中心极限定理的描述是这样的：

中心极限定理是概率论中的一组定理。中心极限定理说明，在适当的条件下，大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布。这组定理是数理统计学和误差分析的理论基础，指出了大量随机变量之和近似服从正态分布的条件。

这个描述比较抽象。我们可以举一个简单的例子来说明：比如某地区男性的身高，我们知道，一个人的身高是各种复杂因素相互作用的结果，比如父母的基因，日常的饮食，运动情况，生活环境等等成千上万个因素；这些因素可以假设成独立同分布的随机变量，一个人的身高可以看做是这些因素加和作用的结果，因此，假如我们统计该地男性的身高分布，会发现这个分布正是一个正态分布。

f(x;\mu ,\sigma )={\frac {1}{\sigma {\sqrt {2\pi }}}}\,\exp \left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right)

正态分布又叫高斯分布，是统计学上误差分布的基石。为什么误差服从正态分布呢？因为单次测量的误差也是各种因素综合作用的结果：比如尺子不准，操作失误等等等等，我们无法完全列举具体都有什么因素使得测量结果产生误差，也无法预测它们会对单次测量的结果产生多大的误差，但是借助正态分布，我们可以使我们把总的误差控制在可以接受的范围内。

所以一个随机变量服从正态分布的条件可以近似归纳为无穷多个独立同分布的随机变量加和的结果：

\begin{align} X &= \sum_{i=0}^{\infty}X_i \end{align}

对数正态分布

假设一个随机变量是无穷多个独立同分布随机变量相乘的结果：

X= \prod_{i=0}^{\infty}X_i

对这个变量取对数，就变成了：

ln(X)=ln(\prod_{i=1}^{\infty}X_i)=\sum_{i=0}^{\infty}ln(X_i)

独立同分布的随机变量取完对数之后依然是独立同分布的。因此 ln(X) 服从正态分布。 X 的分布称为对数正态分布：

f(x;\mu ,\sigma )={\frac {1}{x\sigma {\sqrt {2\pi }}}}e^{-(\ln x-\mu )^{2}/2\sigma ^{2}}

可能就有人要问了，这扯完正态分布又扯到对数正态分布，和二八定律究竟有什么关系呢？

别急，我们构造一个对数正态看看它的性质：

# -*- coding:utf-8 -*-
import numpy
from matplotlib import pyplot as plt
from scipy.stats import lognorm

S = 0.8
X = numpy.linspace(lognorm.ppf(0.01, S), lognorm.ppf(0.99, S), num=200)
Y = lognorm.pdf(X, S)
cdf2 = lognorm.cdf(2, S)
plt.title('20%% CDF:%.4f' % cdf2)
plt.plot(X, Y)
plt.scatter(2, lognorm.pdf(2, S))
plt.show()