1. 指数分布族
指数族分布是一大类分布,基本形式为:
分布函数框架中的h(x),η(θ),T(x)和A(θ)并不是任意定义的,每一部分都有其特殊的意义。
θ是自然参数(natural parameter),通常是一个实数;
h(x)是底层观测值(underlying measure);
T(x)是充分统计量(sufficient statistic);
A(θ)被称为对数规则化(log normalizer)。
在高吞吐、大连接数、热点请求、异常流量、复杂计算逻辑、弹性伸缩这些真实场景下保持稳定的低延时,是 Tair 能够在低延时场景被选择的关键因素。
假设你有一个数组prices,长度为n,其中prices[i]是某只股票在第i天的价格,请根据这个价格数组,返回买卖股票能获得的最大收益
之前总有一些年轻人问我,我应该了解哪些知识才能像某某某那么牛B。
这句话的意思其实就是:他们特别困惑,想知道一个后端程序员的知识体系,想知道从哪开始学起。
关于这个问题,琢磨了好久,我不想简单的一句话就敷衍过去了,这个问题我要深思熟虑去回答。
因为如果 10 年前有人告诉我这个问题的答案,现在的我将少走很多的弯路,技术水平也会更上一层楼。
简单说一下全文的结构,全文一共分为四大部分。第一部分,主要从硬件、操作系统、网络、数据结构&算法等几个方面跟大家聊一下计算机科学相关的基础知识。第二部分,讲一下设计一款高性能的服务框架,应该从哪些方面着手;第三部分,讲一下平常工作中使用最频繁的知识-数据库、缓存以及一些相关的经典问题;最后第四部分,讲述的侧重点从第二部分的微观转到相对宏观的内容,跟大家聊一下分布式系统、大型架构设计等相关知识。
引用古人的一句话,来开始我们的征程!
“路漫漫其修远兮,吾将上下而求索!”
之前总有一些年轻人问我,我应该了解哪些知识才能像某某某那么牛B。
这句话的意思其实就是:他们特别困惑,想知道一个后端程序员的知识体系,想知道从哪开始学起。
关于这个问题,琢磨了好久,我不想简单的一句话就敷衍过去了,这个问题我要深思熟虑去回答。
因为如果 10 年前有人告诉我这个问题的答案,现在的我将少走很多的弯路,技术水平也会更上一层楼。
简单说一下全文的结构,全文一共分为四大部分。第一部分,主要从硬件、操作系统、网络、数据结构&算法等几个方面跟大家聊一下计算机科学相关的基础知识。第二部分,讲一下设计一款高性能的服务框架,应该从哪些方面着手;第三部分,讲一下平常工作中使用最频繁的知识-数据库、缓存以及一些相关的经典问题;最后第四部分,讲述的侧重点从第二部分的微观转到相对宏观的内容,跟大家聊一下分布式系统、大型架构设计等相关知识。
引用古人的一句话,来开始我们的征程!
“路漫漫其修远兮,吾将上下而求索!”
$Y = \theta * X + \epsilon $
我们现在的目标是找到一组$\theta$可以让它乘以X之后尽可能的匹配Y
$\epsilon$为误差,服从均值为0,方差为$\mu^2$的正态分布
预测值与真实值之间有误差
学习的关键在于:确定什么样的参数最符合于你的目标
我们的目标是什么? 让误差项尽可能的小,接近于0,loss函数等于0
条件概率: 也服从正态分布。
对于某一个样本,要找到一个theta, 跟x组合之后,成为真实值y的可能性最大
sk learn的六大功能:
分类
回归
聚类
预处理
模型选择
降维
8:2
cross validation
Training 切成N份(例如10)
选前9份,进行交叉验证,对结果进行平均(准确率一般平均)。
Validation 验证数据
Testing 比较宝贵
confusion matrix 混淆矩阵,relative with 召回率,准确率
TruePostive FalsePostive
FalseNegative TrueNegative
True 做到了;
Postive 正类
评价指标有几个:
recall 召回率
precision 准确率
F1 score (调和平均数) = 2 / (1 + precision) + 1 (1 + recall) 给予低值更高的权重
various thresholds(阈值就是要求,越高越严格!) 跟 score比较
predict = score > thresholds : True : False
随着thresholds从低到高,精确率上升,召回率降低;
准确率-召回率曲线
ROC curves (ROC曲线)
AUC 测量曲线下面积(综合评估),最好是1,最差是0.5