Neo's Blog

不抽象就无法深入思考
不还原就看不到本来面目!

0%

发刊词:理解他人表达自己是一张王牌

吴军老师告诉我们的有如下几点:
第一,阅读与写作对他个人大有帮助。
第二,相比美国,阅读与写作在中国不太熟重视(或者教学方法不对)。
第三,阅读与写作是有方法论的,吴军老师会在本课程中给我们一一道来。
第四,阅读与写作能力的提升,除了方法论以外,还需要大量的时间。

Read more »

本文分为两部分。第一部分讲数据,包括数据是如何收集、衍生的。我们需要格外关注数据

数据

原始数据
GaiaEvent
GaiaReport

衍生数据

监控

离线打击概览

第一点:呈现出该场景以及该场景下每一条规则的打击情况
总打击人数,hit_uv
总人数, total_uv
总打击次数,hit_pv
总次数,total_pv

UV整体打击率 total_hit_radio_uv = hit_uv / total_uv
PV整体打击率 total_hit_radio_pv = hit_pv / total_pv

分规则:对于以上各打击指标,分别按找规则统计一次

Read more »

有赞风控系统

20201021161520

  1. 借助规则评估系统,去评估规则的准确率、召回率。
  2. 引入模型作为业务打击规则的补充,去找回既定规则难以覆盖的case。

理论课

2019年版

使命:让哲科思维点亮创新者!

用第一性原理,跨越非连续性,实现第二曲线式增长。

第一部分

创新的三个模型:第一曲线、第二曲线、非连续性

三个模型的逻辑关系:第一曲线 + 非连续性 = 第二曲线

生物进化论:遗传变异,自然选择
创新与进化的完美类比
遗传 (第一曲线)
变异+选择 (分形创新)
新物种 (第二曲线)

Read more »

核心

提供价值
被动引流

方法论

微信读书

豆瓣

Read more »

如何向大家展示自己的工作成果-风控引擎

风控引擎是什么?

风控引擎需要有哪些功能?

如何评估一款引擎的优劣?

Read more »

20201029201557

亚当斯密《国富论》

创作背景:

工业革命初期,蒸汽机的出现与炼钢技艺的提升,导致英国大量工厂出现。

主要洞察:

  1. 整个经济活动通常由劳动土地资本组成
  2. 看不见的手:每一个人的自私 VS 利他主义
    关于人的善恶,东方主张性善论,“人之初,性本善”;而西方主张性恶论,人一生下来就有原罪,需要用一生去信奉上帝、去赎罪。
  3. 分工导致工厂效率的提升
Read more »

背景 业务安全正在崛起

  • 注册和登录场景的风控:
    如何对抗黑产注册虚假账号、养号的行为,
    如何对抗黑产暴力破解账户密码,
    如何对抗“撞库”攻击。
    黑产手中掌握了大量的手机号卡、公民信息和数以亿计的已泄露的互联网账号密码,这对任何一个互联网平台都是致命的威胁。
  • 营销活动风控保护:
    营销活动发放的红包、游戏点券或其他奖励如何才能够不被黑产团伙“薅羊毛”。
  • APP渠道推广保护:
    推广APP 装机量投入巨额费用后,如何衡量真实效果。
    用户每安装激活一个APP,平台需要支付10元甚至20元,黑产通过“手机农场”虚假安装已经是广告行业顽疾。
  • 交易和支付场景风控:
    盗号支付如何解决、
    非法聚合支付如何解决、
    洗钱如何解决,这些合规性问题关乎支付平台和相关业务的生死。
  • 接口安全保护:
    短信发送接口被坏人用于制作“短信炸弹”是大家都遇到过的场
  • 内容安全:
    内容安全既包括“入”也包括“出”,
    “入”是检测用户发布到平台的内容是否包含“色情、反动、赌博和暴恐”等违规信息,
    “出”则是对抗专业爬虫大量获取网站内容信息

洞察黑产

黑产从业人员已达数十万余人,每年给互联网公司造成的经济损失超过百亿元

黑产组织结构

黑色产业链结构
附图

反欺诈词典

  • 垃圾注册(产生大规模账号)
  • 薅羊毛
  • 刷单/黄牛
  • 众包
  • 炒信(刷好评、刷热门词等)
  • 套利(黑产与商家的勾结)
  • 空包(代发快递)

黑产武器库

  • 虚假号码

手机卡商 =》 接码平台 =》 短信验证码代收服务 (产业链上游)
关键词:手机rom后门、猫池、流量卡和物联网卡、空号注册、接码平台、短信验证码

  • 代理IP

IP怎么来的? 控制更多的肉鸡程序

  • 设备伪造工具

改机工具、多开工具、Root/越狱工具、Xposed、Cydia、Frida、硬改、脱机挂、备份/抹机恢复、模拟器、定制浏览器、自动化脚本

  • 其他
    群控设备、位置伪造、工具箱

黑产打击体系构建

“终端风险识别+云端风险决策+AI”的一体化反欺诈解决方案

设备指纹

设备ID 可以用于统计业务运营数据(如DAU、MAU、广告激活),也可以用于用户画像、广告精准营销、Bug 上报等。
在互联网反欺诈对抗中,设备ID 类规则是防刷单、防薅羊毛、虚假设备识别、反爬虫、账号安全等场景的核心规则。

好的设备指纹产品特性:

准确性-准确率高,不同设备生成的设备指纹保证不会重复,确保设备指纹生成的唯一性。个人的常用设备总是有限的,一段时间内一般不会超过5个以上。
稳定性-设备系统升级或少量参数变更,设备指纹码不会发生变更。
生成率-即设备覆盖率,确保各种设备载体都能生成设备指纹唯一码。
安全性-不会再网络传输中杯篡改、注入导致生成设备伪码。

https://zhuanlan.zhihu.com/p/68852244

基于用户行为的生物探针

无感认证的基础:
自然人、机器人的操作行为存在差异。
每个人都有自己不可复制的行为习惯。
通过这些差异即可识别用户的身份。

智能验证码

对抗生成网络方法的出现基本宣告了字符验证码退出历史舞台
打码平台

风控引擎

所有的规则描述都是基于自然语言的,易于风控运营人员理解和维护。

实时指标计算

作用域:针对事件类型、针对事件标志

Lamba架构:
我们把一个时间跨度较长的实时指标计算转化为一个“较短时间窗口的实时指标”加上一个“历史数据的离线指标”的聚合结果

风险态势感知系统

原因:专家水平差异性、黑产攻击手法多样性、运营人员操作风险、产品和系统bug

方法:基于统计分析的方法、基于半监督、无监督算法的聚类方法和基于业务情报的方法

前提:
正常业务具有连续性和稳定性,异常事件具有波动性。
正常用户总是表现出分布离散性,而黑产总是表现出聚集性

基于统计分析的方法

两类核心统计数据:

  1. 核心风险事件数据:主要指风控系统中产生的数据,包括实时决策系统的入参、出参、中间计算结果、决策结果等。

PSI 群体稳定性指标 SUM[(AC - EX) * ln(AC / EX)]
调用量、拒绝率、拒绝变化率、人审率、人审变化率
决策结构PSI、规则命中PSI
字段获取率

  1. 核心业务数据:主要指业务自身的核心数据指标,和具体业务场景相关,如电商、O2O、直播等各不相同。

预警业务风险态势需要的数据包括IP 段分布、收货地址分布、商品类目分布及店铺分布等

基于无监督学习的方法

无监督学习方法的步骤一般包括特征抽取、建立连通图、群组聚类等
通过无监督学习方法发现风险后,可以和实时决策的结果进行比对。
如果无监督学习方法比实时决策的增益率高,则需要关注当天的数据,业务有被攻击的可能。

基于业务情报的方法

通过语义分析可以准确提取情报主体(客户名)、类型(薅羊毛)、手法(新用户抽奖)等信息,及时预警给风控运营人员进行针对性防控。

名单系统

首先需要明确哪些数据可以用于建立名单,确定名单数据的主键。
在互联网反欺诈业务中,常见的几种名单主键是:手机号、身份证、银行卡、IP 和各类设备标识

其次,需要明确标签的类别。
标签可以指向一种明确的风险,如可以建立一个“刷单”的手机号黑名单,或者一个爬虫的IP 黑名单,这样的标签都直接指向了一种特定风险

欺诈情报体系

对一次欺诈事件来说,需要综合各方面进行分析,梳理清楚其来龙去脉:
黑产团伙为什么这么做?
黑产团伙是具体如何操作的?
黑产团伙如何绕过已有的一些风控策略?
黑产团伙是否使用了比较特殊的欺诈技术或欺诈手段?其原理是什么?
黑产团伙使用了哪些资源?这些资源是从哪里获取的?
预计有多少黑产团伙参与这次欺诈事件?

实战教程

落地机器算法的工作主要包括:特征工程、模型选择、模型训练、工程化和业务落地。

案例一:黑产设备群控网络挖掘
总体思路:

  1. 对于所有特征,计算两台设备的相似度,如果相似度超过某一阈值,则将两个顶点相连。
  2. 剪枝,连通图算法,进行图划分

案例二:黑产用户行为聚类分析

借用文本的向量空间模型刻画一个用户的动作集合:
每一个用户的动作集合可以看作是一篇文章,用户的每个动作(包含动作、场景和源场景,这里我们把动作ID、场景、源场景连接构成一个行为特征串)可以看作一个单词,有些动作可能会重复多次,因而可以看作一个单词的多次出现