通识系列-概率论

学习概率论带给我的认知提升

（1）首先我重温了概率论的主要内容：随机性、概率、独立；概率的几种计算方法（定义法、频率法、迭代法）；概率分布（正态分布、泊松分布、幂律分布、二项分布等）；贝叶斯定理
（2）让我影响最深的是：大数定理（伯努利弱大数定理、切比雪夫强大数定理）、中心极限定理以及概率的公理化定义（如何一步步的从粗略变为精确）、概率 = 先验概率 * 调整因子

《刘嘉概率论22讲》大纲

概率论解决问题的本质：就是把局部的随机性转化为整体上的确定性。
某一次结果的随机，是低层次的事；而概率论，是高层次，确定性的认知。

随机：随机性不等于不确定性

概率论研究的是随机性，而不是不可确定性。不确定性包含随机性，随机性是不确定性的一种类型。
什么是随机性：不可预测，灰犀牛事件
什么是不确定性：结果不可预知（总体空间不可知，或者说总体空间大得出奇）黑天鹅事件

区分三种随机：
真随机：“测不准原理”：允许空无一物的空间产生少许能量，这个能量的诞生是完全随机的。
效果随机：掷骰子、投篮等，如果把所有的因子全部计算清楚是可以得到精确结果的；只是太难了，所以从最终效果来看，结果很“随机”
伪随机：看似无规律，但其实是潜在规律的，只是你窥探规律的成本足够大而已。例如计算机random函数就是伪随机，如果被黑客GET到随机数种子，是完全可以“预测“未来的。有限状态机是不可能产生真随机的。如果计算机要想得到效果随机，需要将随机算法与特定的物理实体建立联系。

随机是世界的决定性力量。

概率：对世界可能性的度量

概率是随机事件发生可能性的度量。

只要按照下面三个设定表达，任何事情都可以变成随机事件：
（1）限定一个条件
（2）从可能性的视角出发
（3）对某个发生结果进行陈述

概率的定量：随机事件子集 / 样本空间

概率空间的完备性：
黑天鹅事件的本质：这个事件之前是不在我们的样本空间中的

我们对世界的认知，就是对样本空间完备性的认知。原子衰变到底能放出多少粒子？决定恒星运动的里到底有多少种？每一种突破性的进展，其实都在完善我们的样本空间。

独立性：独立事件的相互关系

赌徒谬误：抛硬币，已经连续5次正面了，第6次出现正面的概率肯定更小，大概率出现反面。

热手谬误：抛硬币，已经连续5次正面了，第6次肯定还会大概率出现正面。

独立事件：这是我们描述某些随机事件的数学模型罢了。很多看似独立的事件，其实都是相互有联系、相互影响的；我们在计算概率时，需要格外注意。

概率计算：定义问题比计算更重要

三大法则：
（1）组合排列法则
（2）乘法法则（同时发生，但需要独立事件。如果非独立呢？）
（3）加法法则（互斥）

真正困难的是：定义问题
飞机失事两次的概率 VS 飞机再次失事的概率

正确翻译现实问题，是概率计算最复杂的地方。概率思维的核心就在于准确的把现实问题转换成对的概率问题。

概率度量：建立整体确定性的三种方式

（1）定义法是一种等概率的设定，来源于自然界对称性的假设，是一种宏观尺度下的合理简化。
但是并不是所以的事件都是等概率的，例如一个人坏癌症的概率是多少。于是有了方法（2）
（2）频率法是通过随机事件发生的频率来估算概率，要求实验或者数据尽可能的多。
但是我们有时候并不具备做多次试验的条件，例如登月成功的概率。于是有了方法（3）
（3）迭代法强调不断通过迭代，可以在小规模数据下，针对事件的变化和个体的差异来度量概率。
先利用手头少量的数据做推测，甚至主管猜测一下，然后再通过收集新的证据不断调整概率。贝叶斯（最初的概率可能源于前两种）

频率法：概率是对发生频率的计算

频率法的前提假设：一个实际事件的发生，是存在一个真实的、客观的的概率的。

频率法在试验上得到了验证，但是没有用，直到努利给出了初步证明：大数定律
切比雪夫版本大数定律：随机变量X的均值，方差

在相同环境、重复试验的条件下，用历史数据预测未来是可行的，也是合理的。

足够多：置信区间、精度误差

大数定律：局部频率不是整体概率

弱大数定律：试验数量越多，频率接近概率的可能性（注意：并不是100%）就越大。

强大数定律：一定会接近真实概率

现实中的频率都是局部频率。

整体不需要对局部进行补偿

整体通过概率对局部实施约束作用，具体如何作用呢？
（1）错误的补偿思维：整体不需补偿来对局部产生作用，大数定律并不通过补偿来实现。大数定律不会对已经发生的情况进行补偿，而是利用大量的正常数据，削弱那部分异常数据的影响。
（2）整体通过均值回归对局部起作用
如果一个数据和他的正常状态偏差很大，那么他向正常状态回归的概率就会变大。产生作用的对象是：特殊的、异常的、极端的数据。

数学期望：对随机事件长期价值的衡量

个体的数学期望并不一样

方差：围绕数学期望波动程度的度量

方差的本质：对风险（波动性）的度量
对抗方差：增大数据量，增大本钱

概率分布：认识现实世界的数学模型

随机变量与概率分布

用模型去不短逼近世界的真相
股市：正态分布、柯西分布…未来更多

正态分布：最简单、却最重要的概率分布

三个特性：
（1）均值就是期望
（2）极端值很少
（3）标准差决定胖瘦

不同的正态曲线的比较：
（1）只有均值不同（方差相同），能比较好坏
（2）只有方差不同（均值相同），能比较波动（越矮胖，波动越大）
（3）标准差与均值都不同，能比较专业与业余（专业：均值越大，方差越小；而业务则相反）

中心极限定理：正态分布是概率分布的神

无论样本源自什么分布，这些样本的均值，最终一定满足正态分布。
https://www.zhihu.com/question/22913867

合法性：中心极限定理
正统性：正态分布是所有分布的参照系
主宰性：正态分布是世界的宿命
（1）正态分布普遍存在
（2）所有分布最终都会变成正态分布
（3）正态分布是信息熵最大的一种分布

幂律分布

幂律分布：随机变量越小，出现概率越大；越大数字，则出现概率越小；

无标度：在任何观测尺度下，幂律分布都呈现同样的分布特征。
（一般分布都有一个尺度范围，在这个范围内服从这个分布，超过这个尺度就不服从了；而幂律分布没有尺度的限制）

例如：图书销量服从幂律分布；最畅销/前10销量 = 前10/前100 = 前100 / 前1000

幂律分布让平均值、方差失去意识
幂律分布让原本不会发生的极端事件发生：长尾效应
幂律分布完全不可预测
沙堆模型：砂崩规模与发生频率，服从幂律分布。

幂律分布，有可能是对坑熵增的工具；水（无序）=》冰（有序），熵减
在水变冰的临街状态，所有指标呈现出幂律分布。

泊松分布：打开统计推断的大门

泊松分布解决的问题：已知一个随机事件发生的整体概率，并且该概率服从正态分布；那么在某一段时间或者空间间隔内，这个随机事件发生次数的概率分布是多少呢？

泊松分布，是正态分布的一种微观视角。（如果把时间尽可能的放长，泊松分布越来越接近于正态分布）

泊松分布的间隔是无记忆性的（独立性）

泊松分布连接了概率与统计。

假设检验：基于概率反证法的统计推断

H0:零假设（如果这个假设成立，我们计算概率会特别方便）
H1:备选假设

P值：在H0假设下，当前现象以及更极端现象出现的概率。

显著性水平：

假设检验的弊端
（1）忽略小概率事件（小概率事件真的有可能会发生）
（2）导致系统性偏差（P值影响最终结论，但是P值大小由样本决定的，不通的样本就会得到不通的P值；也就是说，如果我不断改变样本，总能找到比较小的P值，推翻原假设）邮件骗局-人人都是股神；你这一成功的一例，只是成千上万中的一组而已。他幸存了下来
（3）显著性水平设置不好导致错误；水平应该依据问题以及领域而定
（4）用错分不导致错误结论

概率分布是假设检验的基础：利用概率分布来计算P值

条件概率：贝叶斯公式的基础

P(A|B) = P(AB) / P(B)

一切概率都是条件概率
很多看似没有条件的概率，只是把某些条件给忽略了。

操纵条件，改变概率
（1）辛普森案（家暴后发生杀妻的概率 VS 丈夫家暴妻子，并妻子已经死于谋杀的双重条件下，杀人凶手是丈夫的概率）
（2）高频交易：尽量缩短事件片段，简化条件，把我关键因素

条件概率量化了条件对随机事件的影响，但他只是表示统计意义上的相关性，并不代表因果关系。

贝叶斯推理：概率是信心的度量

概率问题：正概率问题（根据原因推结果）、逆概率问题（根据结果推原因）

贝叶斯世界中：概率本质上对信心的度量，是我们对某个结果相信成都的一种定量化表达）

贝叶斯推理的优势：
（1）起点不重要，迭代很重要（经过足够多的迭代，无穷趋近于真理）
（2）信息越充分，结果越可靠（生活里，我们总是在追寻更多的信息，把信息搞完备，就是为了运用尽可能多的信息，提高自己做判断的准确性）

贝叶斯计算：定量解决逆概率问题

P(A|B) = P(B|A) * P(A) / P(B)

P(A|B)酒驾发生交通事故的概率

P(A) 发生交通事故的概率，先验概率，先于经验，就是说在看到新现象、重新计算之前，基于经验甚至主观猜测的概率。如何使先验概率更准：分析历史数据、参考专家意见、平均设置概率

P(B|A) / P(B) 调整因子，必须客观
P(B|A) 发生交通事故的人当中，有多少是酒驾的（这个容易获取）
P(B) 人们酒驾的概率（管中窥豹，利用样本数据来合理估计总体数据，某一次检查中，酒驾人数 / 总检察数）

主观与客观：不同的概率学派在争什么？

一些原则

（1）对抗直觉，能算就算
（2）寻找条件，增大概率
（3）相信系统，长期主义

《刘嘉概率论22讲》下载地址

扫码关注公众号，回复“概率论”获取下载地址。

Neo's Blog