Neo's Blog

不抽象就无法深入思考
不还原就看不到本来面目!

0%

风控要略-互联网业务反欺诈之路

背景 业务安全正在崛起

  • 注册和登录场景的风控:
    如何对抗黑产注册虚假账号、养号的行为,
    如何对抗黑产暴力破解账户密码,
    如何对抗“撞库”攻击。
    黑产手中掌握了大量的手机号卡、公民信息和数以亿计的已泄露的互联网账号密码,这对任何一个互联网平台都是致命的威胁。
  • 营销活动风控保护:
    营销活动发放的红包、游戏点券或其他奖励如何才能够不被黑产团伙“薅羊毛”。
  • APP渠道推广保护:
    推广APP 装机量投入巨额费用后,如何衡量真实效果。
    用户每安装激活一个APP,平台需要支付10元甚至20元,黑产通过“手机农场”虚假安装已经是广告行业顽疾。
  • 交易和支付场景风控:
    盗号支付如何解决、
    非法聚合支付如何解决、
    洗钱如何解决,这些合规性问题关乎支付平台和相关业务的生死。
  • 接口安全保护:
    短信发送接口被坏人用于制作“短信炸弹”是大家都遇到过的场
  • 内容安全:
    内容安全既包括“入”也包括“出”,
    “入”是检测用户发布到平台的内容是否包含“色情、反动、赌博和暴恐”等违规信息,
    “出”则是对抗专业爬虫大量获取网站内容信息

洞察黑产

黑产从业人员已达数十万余人,每年给互联网公司造成的经济损失超过百亿元

黑产组织结构

黑色产业链结构
附图

反欺诈词典

  • 垃圾注册(产生大规模账号)
  • 薅羊毛
  • 刷单/黄牛
  • 众包
  • 炒信(刷好评、刷热门词等)
  • 套利(黑产与商家的勾结)
  • 空包(代发快递)

黑产武器库

  • 虚假号码

手机卡商 =》 接码平台 =》 短信验证码代收服务 (产业链上游)
关键词:手机rom后门、猫池、流量卡和物联网卡、空号注册、接码平台、短信验证码

  • 代理IP

IP怎么来的? 控制更多的肉鸡程序

  • 设备伪造工具

改机工具、多开工具、Root/越狱工具、Xposed、Cydia、Frida、硬改、脱机挂、备份/抹机恢复、模拟器、定制浏览器、自动化脚本

  • 其他
    群控设备、位置伪造、工具箱

黑产打击体系构建

“终端风险识别+云端风险决策+AI”的一体化反欺诈解决方案

设备指纹

设备ID 可以用于统计业务运营数据(如DAU、MAU、广告激活),也可以用于用户画像、广告精准营销、Bug 上报等。
在互联网反欺诈对抗中,设备ID 类规则是防刷单、防薅羊毛、虚假设备识别、反爬虫、账号安全等场景的核心规则。

好的设备指纹产品特性:

准确性-准确率高,不同设备生成的设备指纹保证不会重复,确保设备指纹生成的唯一性。个人的常用设备总是有限的,一段时间内一般不会超过5个以上。
稳定性-设备系统升级或少量参数变更,设备指纹码不会发生变更。
生成率-即设备覆盖率,确保各种设备载体都能生成设备指纹唯一码。
安全性-不会再网络传输中杯篡改、注入导致生成设备伪码。

https://zhuanlan.zhihu.com/p/68852244

基于用户行为的生物探针

无感认证的基础:
自然人、机器人的操作行为存在差异。
每个人都有自己不可复制的行为习惯。
通过这些差异即可识别用户的身份。

智能验证码

对抗生成网络方法的出现基本宣告了字符验证码退出历史舞台
打码平台

风控引擎

所有的规则描述都是基于自然语言的,易于风控运营人员理解和维护。

实时指标计算

作用域:针对事件类型、针对事件标志

Lamba架构:
我们把一个时间跨度较长的实时指标计算转化为一个“较短时间窗口的实时指标”加上一个“历史数据的离线指标”的聚合结果

风险态势感知系统

原因:专家水平差异性、黑产攻击手法多样性、运营人员操作风险、产品和系统bug

方法:基于统计分析的方法、基于半监督、无监督算法的聚类方法和基于业务情报的方法

前提:
正常业务具有连续性和稳定性,异常事件具有波动性。
正常用户总是表现出分布离散性,而黑产总是表现出聚集性

基于统计分析的方法

两类核心统计数据:

  1. 核心风险事件数据:主要指风控系统中产生的数据,包括实时决策系统的入参、出参、中间计算结果、决策结果等。

PSI 群体稳定性指标 SUM[(AC - EX) * ln(AC / EX)]
调用量、拒绝率、拒绝变化率、人审率、人审变化率
决策结构PSI、规则命中PSI
字段获取率

  1. 核心业务数据:主要指业务自身的核心数据指标,和具体业务场景相关,如电商、O2O、直播等各不相同。

预警业务风险态势需要的数据包括IP 段分布、收货地址分布、商品类目分布及店铺分布等

基于无监督学习的方法

无监督学习方法的步骤一般包括特征抽取、建立连通图、群组聚类等
通过无监督学习方法发现风险后,可以和实时决策的结果进行比对。
如果无监督学习方法比实时决策的增益率高,则需要关注当天的数据,业务有被攻击的可能。

基于业务情报的方法

通过语义分析可以准确提取情报主体(客户名)、类型(薅羊毛)、手法(新用户抽奖)等信息,及时预警给风控运营人员进行针对性防控。

名单系统

首先需要明确哪些数据可以用于建立名单,确定名单数据的主键。
在互联网反欺诈业务中,常见的几种名单主键是:手机号、身份证、银行卡、IP 和各类设备标识

其次,需要明确标签的类别。
标签可以指向一种明确的风险,如可以建立一个“刷单”的手机号黑名单,或者一个爬虫的IP 黑名单,这样的标签都直接指向了一种特定风险

欺诈情报体系

对一次欺诈事件来说,需要综合各方面进行分析,梳理清楚其来龙去脉:
黑产团伙为什么这么做?
黑产团伙是具体如何操作的?
黑产团伙如何绕过已有的一些风控策略?
黑产团伙是否使用了比较特殊的欺诈技术或欺诈手段?其原理是什么?
黑产团伙使用了哪些资源?这些资源是从哪里获取的?
预计有多少黑产团伙参与这次欺诈事件?

实战教程

落地机器算法的工作主要包括:特征工程、模型选择、模型训练、工程化和业务落地。

案例一:黑产设备群控网络挖掘
总体思路:

  1. 对于所有特征,计算两台设备的相似度,如果相似度超过某一阈值,则将两个顶点相连。
  2. 剪枝,连通图算法,进行图划分

案例二:黑产用户行为聚类分析

借用文本的向量空间模型刻画一个用户的动作集合:
每一个用户的动作集合可以看作是一篇文章,用户的每个动作(包含动作、场景和源场景,这里我们把动作ID、场景、源场景连接构成一个行为特征串)可以看作一个单词,有些动作可能会重复多次,因而可以看作一个单词的多次出现

你的支持是我坚持的最大动力!