Neo's Blog

不抽象就无法深入思考
不还原就看不到本来面目!

0%

1. 指数分布族

指数族分布是一大类分布,基本形式为:

指数族分布

分布函数框架中的h(x),η(θ),T(x)和A(θ)并不是任意定义的,每一部分都有其特殊的意义。

θ是自然参数(natural parameter),通常是一个实数;

h(x)是底层观测值(underlying measure);

T(x)是充分统计量(sufficient statistic);

A(θ)被称为对数规则化(log normalizer)。

Read more »

0. 背景介绍,把人吸引过来

特征预处理:

  • 非线性化:多项式、sin
  • 标准化:
Read more »

0. 背景介绍,把人吸引过来

针对样本的不足,我们通常采用:交叉验证

模型评估:

  • 混淆矩阵
  • 准确率、召回率
  • F1 score
  • RAC曲线
Read more »

在高吞吐、大连接数、热点请求、异常流量、复杂计算逻辑、弹性伸缩这些真实场景下保持稳定的低延时,是 Tair 能够在低延时场景被选择的关键因素。

Read more »

假设你有一个数组prices,长度为n,其中prices[i]是某只股票在第i天的价格,请根据这个价格数组,返回买卖股票能获得的最大收益

  1. 你最多可以对该股票有两笔交易操作,一笔交易代表着一次买入与一次卖出,但是再次购买前必须卖出之前的股票
  2. 如果不能获取收益,请返回0
  3. 假设买入卖出均无手续费
Read more »

0. 背景介绍,把人吸引过来

之前总有一些年轻人问我,我应该了解哪些知识才能像某某某那么牛B。
这句话的意思其实就是:他们特别困惑,想知道一个后端程序员的知识体系,想知道从哪开始学起。

关于这个问题,琢磨了好久,我不想简单的一句话就敷衍过去了,这个问题我要深思熟虑去回答。
因为如果 10 年前有人告诉我这个问题的答案,现在的我将少走很多的弯路,技术水平也会更上一层楼。

简单说一下全文的结构,全文一共分为四大部分。第一部分,主要从硬件、操作系统、网络、数据结构&算法等几个方面跟大家聊一下计算机科学相关的基础知识。第二部分,讲一下设计一款高性能的服务框架,应该从哪些方面着手;第三部分,讲一下平常工作中使用最频繁的知识-数据库、缓存以及一些相关的经典问题;最后第四部分,讲述的侧重点从第二部分的微观转到相对宏观的内容,跟大家聊一下分布式系统、大型架构设计等相关知识。

引用古人的一句话,来开始我们的征程!

“路漫漫其修远兮,吾将上下而求索!”

Read more »

0. 背景介绍,把人吸引过来

之前总有一些年轻人问我,我应该了解哪些知识才能像某某某那么牛B。
这句话的意思其实就是:他们特别困惑,想知道一个后端程序员的知识体系,想知道从哪开始学起。

关于这个问题,琢磨了好久,我不想简单的一句话就敷衍过去了,这个问题我要深思熟虑去回答。
因为如果 10 年前有人告诉我这个问题的答案,现在的我将少走很多的弯路,技术水平也会更上一层楼。

简单说一下全文的结构,全文一共分为四大部分。第一部分,主要从硬件、操作系统、网络、数据结构&算法等几个方面跟大家聊一下计算机科学相关的基础知识。第二部分,讲一下设计一款高性能的服务框架,应该从哪些方面着手;第三部分,讲一下平常工作中使用最频繁的知识-数据库、缓存以及一些相关的经典问题;最后第四部分,讲述的侧重点从第二部分的微观转到相对宏观的内容,跟大家聊一下分布式系统、大型架构设计等相关知识。

引用古人的一句话,来开始我们的征程!

“路漫漫其修远兮,吾将上下而求索!”

Read more »

$Y = \theta * X + \epsilon $

我们现在的目标是找到一组$\theta$可以让它乘以X之后尽可能的匹配Y

$\epsilon$为误差,服从均值为0,方差为$\mu^2$的正态分布

预测值与真实值之间有误差

学习的关键在于:确定什么样的参数最符合于你的目标

我们的目标是什么? 让误差项尽可能的小,接近于0,loss函数等于0

条件概率: 也服从正态分布。

对于某一个样本,要找到一个theta, 跟x组合之后,成为真实值y的可能性最大

Read more »

sk learn的六大功能:

分类

回归

聚类

预处理

模型选择

降维

8:2
cross validation

Training 切成N份(例如10)

选前9份,进行交叉验证,对结果进行平均(准确率一般平均)。
Validation 验证数据

Testing 比较宝贵

confusion matrix 混淆矩阵,relative with 召回率,准确率

TruePostive FalsePostive
FalseNegative TrueNegative

True 做到了;
Postive 正类

评价指标有几个:

recall 召回率

precision 准确率

F1 score (调和平均数) = 2 / (1 + precision) + 1 (1 + recall) 给予低值更高的权重

various thresholds(阈值就是要求,越高越严格!) 跟 score比较

predict = score > thresholds : True : False

随着thresholds从低到高,精确率上升,召回率降低;

准确率-召回率曲线

ROC curves (ROC曲线)

AUC 测量曲线下面积(综合评估),最好是1,最差是0.5