背景 业务安全正在崛起
- 注册和登录场景的风控:
如何对抗黑产注册虚假账号、养号的行为,
如何对抗黑产暴力破解账户密码,
如何对抗“撞库”攻击。
黑产手中掌握了大量的手机号卡、公民信息和数以亿计的已泄露的互联网账号密码,这对任何一个互联网平台都是致命的威胁。 - 营销活动风控保护:
营销活动发放的红包、游戏点券或其他奖励如何才能够不被黑产团伙“薅羊毛”。 - APP渠道推广保护:
推广APP 装机量投入巨额费用后,如何衡量真实效果。
用户每安装激活一个APP,平台需要支付10元甚至20元,黑产通过“手机农场”虚假安装已经是广告行业顽疾。 - 交易和支付场景风控:
盗号支付如何解决、
非法聚合支付如何解决、
洗钱如何解决,这些合规性问题关乎支付平台和相关业务的生死。 - 接口安全保护:
短信发送接口被坏人用于制作“短信炸弹”是大家都遇到过的场 - 内容安全:
内容安全既包括“入”也包括“出”,
“入”是检测用户发布到平台的内容是否包含“色情、反动、赌博和暴恐”等违规信息,
“出”则是对抗专业爬虫大量获取网站内容信息
洞察黑产
黑产从业人员已达数十万余人,每年给互联网公司造成的经济损失超过百亿元
黑产组织结构
黑色产业链结构
附图
反欺诈词典
- 垃圾注册(产生大规模账号)
- 薅羊毛
- 刷单/黄牛
- 众包
- 炒信(刷好评、刷热门词等)
- 套利(黑产与商家的勾结)
- 空包(代发快递)
黑产武器库
- 虚假号码
手机卡商 =》 接码平台 =》 短信验证码代收服务 (产业链上游)
关键词:手机rom后门、猫池、流量卡和物联网卡、空号注册、接码平台、短信验证码
- 代理IP
IP怎么来的? 控制更多的肉鸡程序
- 设备伪造工具
改机工具、多开工具、Root/越狱工具、Xposed、Cydia、Frida、硬改、脱机挂、备份/抹机恢复、模拟器、定制浏览器、自动化脚本
- 其他
群控设备、位置伪造、工具箱
黑产打击体系构建
“终端风险识别+云端风险决策+AI”的一体化反欺诈解决方案
设备指纹
设备ID 可以用于统计业务运营数据(如DAU、MAU、广告激活),也可以用于用户画像、广告精准营销、Bug 上报等。
在互联网反欺诈对抗中,设备ID 类规则是防刷单、防薅羊毛、虚假设备识别、反爬虫、账号安全等场景的核心规则。
好的设备指纹产品特性:
准确性-准确率高,不同设备生成的设备指纹保证不会重复,确保设备指纹生成的唯一性。个人的常用设备总是有限的,一段时间内一般不会超过5个以上。
稳定性-设备系统升级或少量参数变更,设备指纹码不会发生变更。
生成率-即设备覆盖率,确保各种设备载体都能生成设备指纹唯一码。
安全性-不会再网络传输中杯篡改、注入导致生成设备伪码。
https://zhuanlan.zhihu.com/p/68852244
基于用户行为的生物探针
无感认证的基础:
自然人、机器人的操作行为存在差异。
每个人都有自己不可复制的行为习惯。
通过这些差异即可识别用户的身份。
智能验证码
对抗生成网络方法的出现基本宣告了字符验证码退出历史舞台
打码平台
风控引擎
所有的规则描述都是基于自然语言的,易于风控运营人员理解和维护。
实时指标计算
作用域:针对事件类型、针对事件标志
Lamba架构:
我们把一个时间跨度较长的实时指标计算转化为一个“较短时间窗口的实时指标”加上一个“历史数据的离线指标”的聚合结果
风险态势感知系统
原因:专家水平差异性、黑产攻击手法多样性、运营人员操作风险、产品和系统bug
方法:基于统计分析的方法、基于半监督、无监督算法的聚类方法和基于业务情报的方法
前提:
正常业务具有连续性和稳定性,异常事件具有波动性。
正常用户总是表现出分布离散性,而黑产总是表现出聚集性
基于统计分析的方法
两类核心统计数据:
- 核心风险事件数据:主要指风控系统中产生的数据,包括实时决策系统的入参、出参、中间计算结果、决策结果等。
PSI 群体稳定性指标 SUM[(AC - EX) * ln(AC / EX)]
调用量、拒绝率、拒绝变化率、人审率、人审变化率
决策结构PSI、规则命中PSI
字段获取率
- 核心业务数据:主要指业务自身的核心数据指标,和具体业务场景相关,如电商、O2O、直播等各不相同。
预警业务风险态势需要的数据包括IP 段分布、收货地址分布、商品类目分布及店铺分布等
基于无监督学习的方法
无监督学习方法的步骤一般包括特征抽取、建立连通图、群组聚类等
通过无监督学习方法发现风险后,可以和实时决策的结果进行比对。
如果无监督学习方法比实时决策的增益率高,则需要关注当天的数据,业务有被攻击的可能。
基于业务情报的方法
通过语义分析可以准确提取情报主体(客户名)、类型(薅羊毛)、手法(新用户抽奖)等信息,及时预警给风控运营人员进行针对性防控。
名单系统
首先需要明确哪些数据可以用于建立名单,确定名单数据的主键。
在互联网反欺诈业务中,常见的几种名单主键是:手机号、身份证、银行卡、IP 和各类设备标识
其次,需要明确标签的类别。
标签可以指向一种明确的风险,如可以建立一个“刷单”的手机号黑名单,或者一个爬虫的IP 黑名单,这样的标签都直接指向了一种特定风险
欺诈情报体系
对一次欺诈事件来说,需要综合各方面进行分析,梳理清楚其来龙去脉:
黑产团伙为什么这么做?
黑产团伙是具体如何操作的?
黑产团伙如何绕过已有的一些风控策略?
黑产团伙是否使用了比较特殊的欺诈技术或欺诈手段?其原理是什么?
黑产团伙使用了哪些资源?这些资源是从哪里获取的?
预计有多少黑产团伙参与这次欺诈事件?
实战教程
落地机器算法的工作主要包括:特征工程、模型选择、模型训练、工程化和业务落地。
案例一:黑产设备群控网络挖掘
总体思路:
- 对于所有特征,计算两台设备的相似度,如果相似度超过某一阈值,则将两个顶点相连。
- 剪枝,连通图算法,进行图划分
案例二:黑产用户行为聚类分析
借用文本的向量空间模型刻画一个用户的动作集合:
每一个用户的动作集合可以看作是一篇文章,用户的每个动作(包含动作、场景和源场景,这里我们把动作ID、场景、源场景连接构成一个行为特征串)可以看作一个单词,有些动作可能会重复多次,因而可以看作一个单词的多次出现