发刊词:理解他人表达自己是一张王牌
吴军老师告诉我们的有如下几点:
第一,阅读与写作对他个人大有帮助。
第二,相比美国,阅读与写作在中国不太熟重视(或者教学方法不对)。
第三,阅读与写作是有方法论的,吴军老师会在本课程中给我们一一道来。
第四,阅读与写作能力的提升,除了方法论以外,还需要大量的时间。
理论课
2019年版
使命:让哲科思维点亮创新者!
用第一性原理,跨越非连续性,实现第二曲线式增长。
第一部分
创新的三个模型:第一曲线、第二曲线、非连续性
三个模型的逻辑关系:第一曲线 + 非连续性 = 第二曲线
生物进化论:遗传变异,自然选择
创新与进化的完美类比
遗传 (第一曲线)
变异+选择 (分形创新)
新物种 (第二曲线)
网盘下载链接: https://pan.baidu.com/s/1QLhbBIfMH6iiwxAFXV-zsQ
密码:在文末。
商业毫不关心你的方向,而你,必须关心商业的方向。
商业进化的方向,到底是什么? 就是网络密度越来越高,交易成本越来越低。
黑产从业人员已达数十万余人,每年给互联网公司造成的经济损失超过百亿元
黑色产业链结构
附图
反欺诈词典
手机卡商 =》 接码平台 =》 短信验证码代收服务 (产业链上游)
关键词:手机rom后门、猫池、流量卡和物联网卡、空号注册、接码平台、短信验证码
IP怎么来的? 控制更多的肉鸡程序
改机工具、多开工具、Root/越狱工具、Xposed、Cydia、Frida、硬改、脱机挂、备份/抹机恢复、模拟器、定制浏览器、自动化脚本
“终端风险识别+云端风险决策+AI”的一体化反欺诈解决方案
设备ID 可以用于统计业务运营数据(如DAU、MAU、广告激活),也可以用于用户画像、广告精准营销、Bug 上报等。
在互联网反欺诈对抗中,设备ID 类规则是防刷单、防薅羊毛、虚假设备识别、反爬虫、账号安全等场景的核心规则。
好的设备指纹产品特性:
准确性-准确率高,不同设备生成的设备指纹保证不会重复,确保设备指纹生成的唯一性。个人的常用设备总是有限的,一段时间内一般不会超过5个以上。
稳定性-设备系统升级或少量参数变更,设备指纹码不会发生变更。
生成率-即设备覆盖率,确保各种设备载体都能生成设备指纹唯一码。
安全性-不会再网络传输中杯篡改、注入导致生成设备伪码。
https://zhuanlan.zhihu.com/p/68852244
无感认证的基础:
自然人、机器人的操作行为存在差异。
每个人都有自己不可复制的行为习惯。
通过这些差异即可识别用户的身份。
对抗生成网络方法的出现基本宣告了字符验证码退出历史舞台
打码平台
所有的规则描述都是基于自然语言的,易于风控运营人员理解和维护。
作用域:针对事件类型、针对事件标志
Lamba架构:
我们把一个时间跨度较长的实时指标计算转化为一个“较短时间窗口的实时指标”加上一个“历史数据的离线指标”的聚合结果
原因:专家水平差异性、黑产攻击手法多样性、运营人员操作风险、产品和系统bug
方法:基于统计分析的方法、基于半监督、无监督算法的聚类方法和基于业务情报的方法
前提:
正常业务具有连续性和稳定性,异常事件具有波动性。
正常用户总是表现出分布离散性,而黑产总是表现出聚集性
两类核心统计数据:
PSI 群体稳定性指标 SUM[(AC - EX) * ln(AC / EX)]
调用量、拒绝率、拒绝变化率、人审率、人审变化率
决策结构PSI、规则命中PSI
字段获取率
预警业务风险态势需要的数据包括IP 段分布、收货地址分布、商品类目分布及店铺分布等
无监督学习方法的步骤一般包括特征抽取、建立连通图、群组聚类等
通过无监督学习方法发现风险后,可以和实时决策的结果进行比对。
如果无监督学习方法比实时决策的增益率高,则需要关注当天的数据,业务有被攻击的可能。
通过语义分析可以准确提取情报主体(客户名)、类型(薅羊毛)、手法(新用户抽奖)等信息,及时预警给风控运营人员进行针对性防控。
首先需要明确哪些数据可以用于建立名单,确定名单数据的主键。
在互联网反欺诈业务中,常见的几种名单主键是:手机号、身份证、银行卡、IP 和各类设备标识
其次,需要明确标签的类别。
标签可以指向一种明确的风险,如可以建立一个“刷单”的手机号黑名单,或者一个爬虫的IP 黑名单,这样的标签都直接指向了一种特定风险
对一次欺诈事件来说,需要综合各方面进行分析,梳理清楚其来龙去脉:
黑产团伙为什么这么做?
黑产团伙是具体如何操作的?
黑产团伙如何绕过已有的一些风控策略?
黑产团伙是否使用了比较特殊的欺诈技术或欺诈手段?其原理是什么?
黑产团伙使用了哪些资源?这些资源是从哪里获取的?
预计有多少黑产团伙参与这次欺诈事件?
落地机器算法的工作主要包括:特征工程、模型选择、模型训练、工程化和业务落地。
案例一:黑产设备群控网络挖掘
总体思路:
案例二:黑产用户行为聚类分析
借用文本的向量空间模型刻画一个用户的动作集合:
每一个用户的动作集合可以看作是一篇文章,用户的每个动作(包含动作、场景和源场景,这里我们把动作ID、场景、源场景连接构成一个行为特征串)可以看作一个单词,有些动作可能会重复多次,因而可以看作一个单词的多次出现