0. 背景介绍,把人吸引过来
积分中值定理、微分中值定理
泰勒公式
出发点:
用简单的熟悉的多项式来近似代替复杂的函数
易计算函数值,导数与积分仍是多项式
多项式由它的系数完全确定,其系数又由它在一点的函数值及其导数所确定。
阶数
阶乘:削弱高阶项的作用,让他晚一些起作用!
拉格朗日乘子法
求极值,并且带条件
矩阵
矩阵不满足交换律
矩阵的秩: 矩阵中最大不相关向量的个数
行秩 = 列秩
二维 在秩为1的矩阵的作用下,会转换为一条线。
二维,在秩为1的矩阵的作用下,还是保持为二维。
矩阵 做 旋转、拉伸
特征值 特征向量 特征空间
一个矩阵有很多的特征向量,特征提取就是取$\lambda$更大的特征向量
SVD矩阵分解
100W X 10W 稀疏矩阵 = 100W X 10 的矩阵 * 10 X 10W的矩阵
基变换:旋转、伸缩坐标轴
特征值分解
$A = UAU^{-1}$
U 特征向量
A 是对角阵,取最大的几个,他们就是代表。
限制: N*N方阵
$MN = MKKKKN$,其中K << N, 取10%的特征,占据的样本可能会超过99%(因为比较稀疏)
概率函数(概率质量函数)
$p(x) = Prob(X = x)$
概率分布,就是一个表格,表中罗列了随机变量X的所有取值以及其对应的概率。
概率密度函数
频率分布直方图,当分组越来越多,轮廓会变为一条曲线。
简单随机抽样,
抽取的样本满足两点:
(1)样本X1,2…Xn是相互独立的随机变量。
(2)样本X1,X2.Xn与总体X同分布。
概率表达了在给定参数日时X=的可能性;而似然表示的是在给定样本X=时,参数的可能性!
二维随机变量
联合概率分布,2 * 2表格
二维随机变量(X,Y)的分布函数
边缘概率分布
$F_X(x) = P(X \le x) $
中心极限定理
样本的平均值约等于总体的平均值。不管总体是什么分布,任意一个总体
的样本平均值都会围绕在总体的整体平均值周围,并且呈正态分布。
正态分布
二项式分布
做N次实验,成功概率是p, 则成功k次的概率服从以上分布。
泊松分布
泊松分布中使用了这些符号:
·$\lambda$是事件发生的速率;
·t是时间间隔的长度;
·X是该时间间隔内的事件数,其中,X称为泊松随机变量,X的概率分布称为泊松分布。
·令$\mu$表示长度为的间隔中的平均事件数。那么,$\mu=\lambda*t$。
例如说一个医院中,每个病人来看病都是随机并独立的概率,则该医院一天(或者其他特定时间段,一小时,一周等等)接纳的病人总数可以看做是一个服从poisson分布的随机变量。但是为什么可以这样处理呢?通俗定义:假定一个事件在一段时间内随机发生,且符合以下条件:
·(1)将该时间段无限分隔成若干个小的时间段,在这个接近于零的小时间段里,该事件发生一次的概率与这个极小时间段的长度成正比。
·(2)在每一个极小时间段内,该事件发生两次及以上的概率恒等于零。
·(3)该事件在不同的小时间段里,发生与否相互独立。
则该事件称为poisson process。这个第二定义就更加利于大家理解了,回到医院的例子之中,如果我们把一天分成24个小时,或者24x60分钟,或者24x3600
秒。时间分的越短,这个时间段里来病人的概率就越小(比如说医院在正午12点到正午12点又一毫秒之间来病人的概率是不是很接近于零?)。条件一符合。另
外如果我们把时间分的很细很细,是不是同时来两个病人(或者两个以上的病人)就是不可能的事件?即使两个病人同时来,也总有一个人先迈步子跨进医院大
门吧。条件二也符合。倒是条件三的要求比较苛刻。应用到实际例子中就是说病人们来医院的概率必须是相互独立的,如果不是,则不能看作是poisso分布。
均匀分布 uniform distribution
卡方分布
正态分布随机变量Xi的平方和服从卡方分布,有一个自由度参数$\lambda$
beta分布
可以看作一个概率的概率分布, 当你不知道一个东西的具体概率是多少时, 它可以给出了所有概率出现的可能性大小
$\alpha$ 跟 $\beta$ 分别为先验的成功次数与失败次数;概率密度函数的输入是X(是一个概率值), 输出也是一个概率,表示的是该事件成功率 = X的概率。
核函数
为什么:
如果我的数据有足够多的可利用的信息,那么我可以直接做我喜欢的事了,但是现在如果没有那么多的信息,我可不可以在数学上进行一些投机呢?
低维(比如我只知道一个人的年龄,性别,那我能对她多了解吗?)
高维(比如我知道他从出生开始,做过哪些事,赚过哪些钱等)
如果我们对数据更好的了解(是机器去了解他们,我们不需要认识啦)得到的结果不也会更好嘛。
低维度 =》 高维度
低维不可分
linear 核函数
特征已经比较丰富了,样本数据量巨大, 需要进行实时得出结果的问题。
一种计算向量内积的数学技巧
多项式核函数
高斯核函数
一维高斯核函数(正态分布)、二维高斯核函数
信息熵
log的作用是把一个很小的概率p变为一个绝对值很大的数!
对于分类任务,结果的熵越下,说明效果越好。