学习概率论带给我的认知提升
(1)首先我重温了概率论的主要内容:随机性、概率、独立;概率的几种计算方法(定义法、频率法、迭代法);概率分布(正态分布、泊松分布、幂律分布、二项分布等);贝叶斯定理
(2)让我影响最深的是:大数定理(伯努利弱大数定理、切比雪夫强大数定理)、中心极限定理以及概率的公理化定义(如何一步步的从粗略变为精确)、概率 = 先验概率 * 调整因子
《刘嘉概率论22讲》大纲
概率论解决问题的本质:就是把局部的随机性转化为整体上的确定性。
某一次结果的随机,是低层次的事;而概率论,是高层次,确定性的认知。
随机:随机性不等于不确定性
概率论研究的是随机性,而不是不可确定性。不确定性包含随机性,随机性是不确定性的一种类型。
什么是随机性:不可预测,灰犀牛事件
什么是不确定性:结果不可预知(总体空间不可知,或者说总体空间大得出奇)黑天鹅事件
区分三种随机:
真随机:“测不准原理”:允许空无一物的空间产生少许能量,这个能量的诞生是完全随机的。
效果随机:掷骰子、投篮等,如果把所有的因子全部计算清楚是可以得到精确结果的;只是太难了,所以从最终效果来看,结果很“随机”
伪随机:看似无规律,但其实是潜在规律的,只是你窥探规律的成本足够大而已。例如计算机random函数就是伪随机,如果被黑客GET到随机数种子,是完全可以“预测“未来的。有限状态机是不可能产生真随机的。如果计算机要想得到效果随机,需要将随机算法与特定的物理实体建立联系。
随机是世界的决定性力量。
概率:对世界可能性的度量
概率是随机事件发生可能性的度量。
只要按照下面三个设定表达,任何事情都可以变成随机事件:
(1)限定一个条件
(2)从可能性的视角出发
(3)对某个发生结果进行陈述
概率的定量:随机事件子集 / 样本空间
概率空间的完备性:
黑天鹅事件的本质:这个事件之前是不在我们的样本空间中的
我们对世界的认知,就是对样本空间完备性的认知。原子衰变到底能放出多少粒子?决定恒星运动的里到底有多少种?每一种突破性的进展,其实都在完善我们的样本空间。
独立性:独立事件的相互关系
赌徒谬误:抛硬币,已经连续5次正面了,第6次出现正面的概率肯定更小,大概率出现反面。
热手谬误:抛硬币,已经连续5次正面了,第6次肯定还会大概率出现正面。
独立事件:这是我们描述某些随机事件的数学模型罢了。很多看似独立的事件,其实都是相互有联系、相互影响的;我们在计算概率时,需要格外注意。
概率计算:定义问题比计算更重要
三大法则:
(1)组合排列法则
(2)乘法法则(同时发生,但需要独立事件。如果非独立呢?)
(3)加法法则(互斥)
真正困难的是:定义问题
飞机失事两次的概率 VS 飞机再次失事的概率
正确翻译现实问题,是概率计算最复杂的地方。概率思维的核心就在于准确的把现实问题转换成对的概率问题。
概率度量:建立整体确定性的三种方式
(1)定义法是一种等概率的设定,来源于自然界对称性的假设,是一种宏观尺度下的合理简化。
但是并不是所以的事件都是等概率的,例如一个人坏癌症的概率是多少。于是有了方法(2)
(2)频率法是通过随机事件发生的频率来估算概率,要求实验或者数据尽可能的多。
但是我们有时候并不具备做多次试验的条件,例如登月成功的概率。于是有了方法(3)
(3)迭代法强调不断通过迭代,可以在小规模数据下,针对事件的变化和个体的差异来度量概率。
先利用手头少量的数据做推测,甚至主管猜测一下,然后再通过收集新的证据不断调整概率。贝叶斯(最初的概率可能源于前两种)
频率法:概率是对发生频率的计算
频率法的前提假设:一个实际事件的发生,是存在一个真实的、客观的的概率的。
频率法在试验上得到了验证,但是没有用,直到努利给出了初步证明:大数定律
切比雪夫版本大数定律:随机变量X的均值,方差
在相同环境、重复试验的条件下,用历史数据预测未来是可行的,也是合理的。
足够多:置信区间、精度误差
大数定律:局部频率不是整体概率
弱大数定律:试验数量越多,频率接近概率的可能性(注意:并不是100%)就越大。
强大数定律:一定会接近真实概率
现实中的频率都是局部频率。
整体不需要对局部进行补偿
整体通过概率对局部实施约束作用,具体如何作用呢?
(1)错误的补偿思维:整体不需补偿来对局部产生作用,大数定律并不通过补偿来实现。大数定律不会对已经发生的情况进行补偿,而是利用大量的正常数据,削弱那部分异常数据的影响。
(2)整体通过均值回归对局部起作用
如果一个数据和他的正常状态偏差很大,那么他向正常状态回归的概率就会变大。产生作用的对象是:特殊的、异常的、极端的数据。
数学期望:对随机事件长期价值的衡量
个体的数学期望并不一样
方差:围绕数学期望波动程度的度量
方差的本质:对风险(波动性)的度量
对抗方差:增大数据量,增大本钱
概率分布:认识现实世界的数学模型
随机变量 与 概率分布
用模型去不短逼近世界的真相
股市:正态分布、柯西分布…未来更多
正态分布:最简单、却最重要的概率分布
三个特性:
(1)均值就是期望
(2)极端值很少
(3)标准差决定胖瘦
不同的正态曲线的比较:
(1)只有均值不同(方差相同),能比较好坏
(2)只有方差不同(均值相同),能比较波动(越矮胖,波动越大)
(3)标准差与均值都不同,能比较专业与业余(专业:均值越大,方差越小;而业务则相反)
中心极限定理:正态分布是概率分布的神
无论样本源自什么分布,这些样本的均值,最终一定满足正态分布。
https://www.zhihu.com/question/22913867
合法性:中心极限定理
正统性:正态分布是所有分布的参照系
主宰性:正态分布是世界的宿命
(1)正态分布普遍存在
(2)所有分布最终都会变成正态分布
(3)正态分布是信息熵最大的一种分布
幂律分布
幂律分布:随机变量越小,出现概率越大;越大数字,则出现概率越小;
无标度:在任何观测尺度下,幂律分布都呈现同样的分布特征。
(一般分布都有一个尺度范围,在这个范围内服从这个分布,超过这个尺度就不服从了;而幂律分布没有尺度的限制)
例如:图书销量服从幂律分布;最畅销/前10销量 = 前10/前100 = 前100 / 前1000
幂律分布让平均值、方差失去意识
幂律分布让原本不会发生的极端事件发生:长尾效应
幂律分布完全不可预测
沙堆模型:砂崩规模与发生频率,服从幂律分布。
幂律分布,有可能是对坑熵增的工具;水(无序)=》冰(有序),熵减
在水变冰的临街状态,所有指标呈现出幂律分布。
泊松分布:打开统计推断的大门
泊松分布解决的问题:已知一个随机事件发生的整体概率,并且该概率服从正态分布;那么在某一段时间或者空间间隔内,这个随机事件发生次数的概率分布是多少呢?
泊松分布,是正态分布的一种微观视角。(如果把时间尽可能的放长,泊松分布越来越接近于正态分布)
泊松分布的间隔是无记忆性的(独立性)
泊松分布连接了概率与统计。
假设检验:基于概率反证法的统计推断
H0:零假设(如果这个假设成立,我们计算概率会特别方便)
H1:备选假设
P值:在H0假设下,当前现象以及更极端现象出现的概率。
显著性水平:
假设检验的弊端
(1)忽略小概率事件(小概率事件真的有可能会发生)
(2)导致系统性偏差(P值影响最终结论,但是P值大小由样本决定的,不通的样本就会得到不通的P值;也就是说,如果我不断改变样本,总能找到比较小的P值,推翻原假设) 邮件骗局-人人都是股神;你这一成功的一例,只是成千上万中的一组而已。他幸存了下来
(3)显著性水平设置不好导致错误;水平应该依据问题以及领域而定
(4)用错分不导致错误结论
概率分布是假设检验的基础:利用概率分布来计算P值
条件概率:贝叶斯公式的基础
P(A|B) = P(AB) / P(B)
一切概率都是条件概率
很多看似没有条件的概率,只是把某些条件给忽略了。
操纵条件,改变概率
(1)辛普森案(家暴后发生杀妻的概率 VS 丈夫家暴妻子,并妻子已经死于谋杀的双重条件下,杀人凶手是丈夫的概率)
(2)高频交易:尽量缩短事件片段,简化条件,把我关键因素
条件概率量化了条件对随机事件的影响,但他只是表示统计意义上的相关性,并不代表因果关系。
贝叶斯推理:概率是信心的度量
概率问题:正概率问题(根据原因推结果)、逆概率问题(根据结果推原因)
贝叶斯世界中:概率本质上对信心的度量,是我们对某个结果相信成都的一种定量化表达)
贝叶斯推理的优势:
(1)起点不重要,迭代很重要(经过足够多的迭代,无穷趋近于真理)
(2)信息越充分,结果越可靠(生活里,我们总是在追寻更多的信息,把信息搞完备,就是为了运用尽可能多的信息,提高自己做判断的准确性)
贝叶斯计算:定量解决逆概率问题
P(A|B) = P(B|A) * P(A) / P(B)
P(A|B)酒驾发生交通事故的概率
P(A) 发生交通事故的概率,先验概率,先于经验,就是说在看到新现象、重新计算之前,基于经验甚至主观猜测的概率。如何使先验概率更准:分析历史数据、参考专家意见、平均设置概率
P(B|A) / P(B) 调整因子,必须客观
P(B|A) 发生交通事故的人当中,有多少是酒驾的(这个容易获取)
P(B) 人们酒驾的概率(管中窥豹,利用样本数据来合理估计总体数据, 某一次检查中,酒驾人数 / 总检察数)
主观与客观:不同的概率学派在争什么?
一些原则
(1)对抗直觉,能算就算
(2)寻找条件,增大概率
(3)相信系统,长期主义
《刘嘉概率论22讲》下载地址
扫码关注公众号,回复“概率论”获取下载地址。