首发于 1024

从数学上理解”二八”定律

二八定律,在英语里面被称为帕累托法则,对于它比较准确的阐述,我们可以参考维基百科:

帕累托法则(英语:Pareto principle,也被称为 80/20 法则、关键少数法则、八二法则 指出,约仅有20%的变因操纵着80%的局面。也就是说:所有变量中,最重要的仅有20%,虽然剩余的80%占了多数,控制的范围却远低于“关键的少数”。 管理咨询约瑟夫·朱兰首先提出该原则。此一概念起源于意大利经济学家 帕累托 (Vilfredo Pareto) 在洛桑大学注意到了80/20的联系,于他的第一篇文章《政治经济学》中说明了该现象,例如:意大利约有80%的土地由20%的人口所有、80%的豌豆产量来自20%的植株等等。

那么,这个法则究竟只是一个社会学结论,还是有什么数学上的依据呢?


高尔顿板和正态分布

高尔顿板为一块竖直放置的板,上面有交错排列的钉子。让小球从板的上端自由下落,当其碰到钉子后会随机向左或向右落下。最终,小球会落至板底端的某一格子中。假设板上共有n排钉子,每个小球撞击钉子后向右落下的概率为p(当左、右概率相同时p为0.5),则小球落入第k个格子概率为二项分布 {\displaystyle {n \choose k}p^{k}(1-p)^{n-k}} 。根据中心极限定理,当n足够大时,该分布近似于正态分布。此时,将大量小球落至格中,格子中的小球数量即近似于正态分布的钟形曲线。
高尔顿板

在上面对高尔顿板的描述当中,提到了中心极限定理,中心极限定理的描述是这样的:

中心极限定理是概率论中的一组定理。中心极限定理说明,在适当的条件下,大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布。这组定理是数理统计学和误差分析的理论基础,指出了大量随机变量之和近似服从正态分布的条件。

这个描述比较抽象。我们可以举一个简单的例子来说明:比如某地区男性的身高,我们知道,一个人的身高是各种复杂因素相互作用的结果,比如父母的基因,日常的饮食,运动情况,生活环境等等成千上万个因素;这些因素可以假设成独立同分布的随机变量,一个人的身高可以看做是这些因素加和作用的结果,因此,假如我们统计该地男性的身高分布,会发现这个分布正是一个正态分布

f(x;\mu ,\sigma )={\frac {1}{\sigma {\sqrt {2\pi }}}}\,\exp \left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right)

正态分布曲线

正态分布又叫高斯分布,是统计学上误差分布的基石。为什么误差服从正态分布呢?因为单次测量的误差也是各种因素综合作用的结果:比如尺子不准,操作失误等等等等,我们无法完全列举具体都有什么因素使得测量结果产生误差,也无法预测它们会对单次测量的结果产生多大的误差,但是借助正态分布,我们可以使我们把总的误差控制在可以接受的范围内。

所以一个随机变量服从正态分布的条件可以近似归纳为无穷多个独立同分布的随机变量加和的结果:

\begin{align} X &= \sum_{i=0}^{\infty}X_i \end{align}


对数正态分布

假设一个随机变量是无穷多个独立同分布随机变量相乘的结果:

X= \prod_{i=0}^{\infty}X_i

对这个变量取对数,就变成了:

ln(X)=ln(\prod_{i=1}^{\infty}X_i)=\sum_{i=0}^{\infty}ln(X_i)

独立同分布的随机变量取完对数之后依然是独立同分布的。因此 ln(X) 服从正态分布。 X 的分布称为对数正态分布:

f(x;\mu ,\sigma )={\frac {1}{x\sigma {\sqrt {2\pi }}}}e^{-(\ln x-\mu )^{2}/2\sigma ^{2}}

对数正态分布曲线

可能就有人要问了,这扯完正态分布又扯到对数正态分布,和二八定律究竟有什么关系呢?

别急,我们构造一个对数正态看看它的性质:


这段代码构造了一个正态分布,并统计了大约前20%的部分占整体的比例:

观察上图,发现了什么?可以看到前面大概20%的值,却占据了整体大概80%以上的概率

这不正是二八定律吗。

回过头来看对数正态分布成立的条件。它要求各个随机变量之间通过乘法进行累计。比较好理解的例子:以复利计算的股票的长期收益率。某一支股票在某个月的收益率可以看做是随机的不确定的,当要算一个比较长的周期的平均收益率,这个收益率就可以看成是对数正态分布。

再推广一点,这种概率之间相乘的关系往往代表着完成一件事情的各个环节,它们之间是一个条件概率的关系,只有完成了上一步,才会有下一步:

P=P(X_1)\cdot P(X_2|X_1) \cdots

再举个例子:手机的销量,消费者会不会购买一款手机和很多因素有关系,外观、价格、性能...,只要有一个条件不满足,消费者就不会购买这款手机。


形而上 马尔可夫不等式

对于一个非负的随机变量 X ,马尔可夫不等式的表述为:

P(X\ge a) \le \frac{E(X)}{a}

这样可能不好理解,换个形式:

P(X\lt a) \gt \frac{E(X)}{a} \implies P(X \lt 0.2) \gt 5E(X)

对于这个不等式的一个解释可以是:不超过1/5的人口会有超过5倍于人均收入的收入

马尔可夫不等式的证明也很简单,直接从期望的定义出发即可:

\begin{align} E(X) &= \int_{-\infty}^{\infty}xf(x)\mathrm{d}x \\ &=\int_{0}^{\infty}xf(x)\mathrm{d}x \\ &\ge \int_{a}^{\infty}xf(x)\mathrm{d}x \\ &\ge a\int_{a}^{\infty}f(x)\mathrm{d}x \\ &= aP(X\ge a) ,\quad (X\ge 0) \end{align}

从马尔可夫不等式出发,不需要对随机变量的分布作假设,即可得到与二八定律相似的结论。

聚圣源低头不见抬头见建筑工程公司起名大全参考程 姓 女孩起名空间装扮素材免费起名网公司名夜蒲好看的百合小说男孩起名大全刘姓免费起名字有什么网站生肖鼠的人怎样起名大全泽起名字女孩名字魔兽版本转换器1.24e西红柿什么时候传入中国诗经起名女孩湖人五连胜起名网免费取名如何登陆facebook景言乾坤剑神免费阅读满清十大酷刑在线观看寄生兽2tubeum起名带睿字的名字起名姓杜女孩winkawaks游戏包贸易公司如何起名普希金骑马与砍杀战团秘籍洛克王国外挂向起名笔画我想长大淀粉肠小王子日销售额涨超10倍罗斯否认插足凯特王妃婚姻让美丽中国“从细节出发”清明节放假3天调休1天男孩疑遭霸凌 家长讨说法被踢出群国产伟哥去年销售近13亿网友建议重庆地铁不准乘客携带菜筐雅江山火三名扑火人员牺牲系谣言代拍被何赛飞拿着魔杖追着打月嫂回应掌掴婴儿是在赶虫子山西高速一大巴发生事故 已致13死高中生被打伤下体休学 邯郸通报李梦为奥运任务婉拒WNBA邀请19岁小伙救下5人后溺亡 多方发声王树国3次鞠躬告别西交大师生单亲妈妈陷入热恋 14岁儿子报警315晚会后胖东来又人满为患了倪萍分享减重40斤方法王楚钦登顶三项第一今日春分两大学生合买彩票中奖一人不认账张家界的山上“长”满了韩国人?周杰伦一审败诉网易房客欠租失踪 房东直发愁男子持台球杆殴打2名女店员被抓男子被猫抓伤后确诊“猫抓病”“重生之我在北大当嫡校长”槽头肉企业被曝光前生意红火男孩8年未见母亲被告知被遗忘恒大被罚41.75亿到底怎么缴网友洛杉矶偶遇贾玲杨倩无缘巴黎奥运张立群任西安交通大学校长黑马情侣提车了西双版纳热带植物园回应蜉蝣大爆发妈妈回应孩子在校撞护栏坠楼考生莫言也上北大硕士复试名单了韩国首次吊销离岗医生执照奥巴马现身唐宁街 黑色着装引猜测沈阳一轿车冲入人行道致3死2伤阿根廷将发行1万与2万面值的纸币外国人感慨凌晨的中国很安全男子被流浪猫绊倒 投喂者赔24万手机成瘾是影响睡眠质量重要因素春分“立蛋”成功率更高?胖东来员工每周单休无小长假“开封王婆”爆火:促成四五十对专家建议不必谈骨泥色变浙江一高校内汽车冲撞行人 多人受伤许家印被限制高消费

聚圣源 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化