大数据安全治理与防范：流量反欺诈实战最新章节_张凯著

第1章
绪论

本章主要介绍流量反欺诈的相关基础知识，包括互联网流量的发展历程、大数据时代的流量欺诈问题、流量反欺诈挑战和系统架构4个方面，为后面章节阐述流量反欺诈的详细对抗方案作铺垫。

1.1 互联网流量的发展历程

互联网诞生于20世纪60年代，其雏形是由美国国防部构建的一个小型网络——阿帕网（Advanced Research Projects Agency Network，ARPANET），刚开始网络中的节点比较少，主要包含加利福尼亚大学洛杉矶分校、斯坦福研究院、犹他大学等节点，通过网络中节点之间的数据交换和共享，实现军方、科研机构等之间的信息互通。

由于最初的互联网是小型网络，用户量很有限，因此流量很小。但随着互联网技术的不断革新，互联网逐渐发展成为拥有巨大规模的“万物互联”的全球性共享网络，连接的终端已经不局限于PC、平板电脑和手机，甚至智能手表、智能眼镜等智能穿戴设备也可以连接上网。全球海量用户共同加入互联网，并互动和共享信息，导致互联网流量呈现爆发式增长。互联网流量爆发不是一蹴而就的，而是经历了漫长的发展历程，这里主要从中国互联网流量发展的角度进行具体阐述。根据中国互联网流量规模的不断扩大，可以将中国互联网流量的发展历程分为PC互联网时代、移动互联网时代、云计算和大数据时代3个阶段，中国互联网流量的发展历程如图1.1所示。

中国互联网流量发展的3个阶段具有不同的特点。

● PC互联网时代：流量的载体以网站、PC客户端软件为主，交互模式主要是用户搜索和浏览，整体数据量相对较小。PC互联网时代的流量欺诈问题主要集中在传统的基础安全上，如恶意软件、漏洞挖掘和钓鱼木马等。

● 移动互联网时代：流量的载体以网站、App为主，交互模式更多是用户参与互动，所以数据量呈现爆发式增长。移动互联网时代的业务形态多种多样，业务场景也非常丰富，所以流量欺诈问题层出不穷，如推广结算欺诈、“薅羊毛”欺诈、电信诈骗等。

● 云计算和大数据时代：出现了公众号和小程序等新型流量载体，更有短视频等应用的快速发展，给用户更多参与互动和创作的入口和更低的门槛，致使数据量持续快速增长。同时在流量欺诈中，也出现了更便利的云端黑产工具，如云挂机、云控等。

图1.1 中国互联网流量的发展历程

下文将详细阐述中国互联网流量发展历程中3个重要阶段的流量特点和流量安全问题。

1.1.1 PC互联网时代

互联网流量发展的第一个重要阶段是PC互联网时代。该阶段的主要流量载体是各类门户网站，如腾讯、百度、搜狐和网易等。用户主要通过搜索和浏览获取信息、进行单向互动，PC互联网时代的交互模式如图1.2所示，这种交互模式降低了信息的获取门槛，提升了信息传播的效率。但该阶段用户的互动程度还不高，用户很少能深度参与到互联网内容的创作中，产生的数据形态主要以文本数据为主，也有少量的图像数据。另外，这个阶段中国互联网的普及度不高，因此流量的整体规模也比较小。该阶段的流量欺诈问题，主要是恶意软件、漏洞挖掘等基础安全问题。

图1.2 PC互联网时代的交互模式

从高用户渗透率的变化来看，PC互联网时代的互联网产品演变主要经历了3个关键节点，如图1.3所示。搜索引擎是PC互联网时代的基础设施，连接了人与信息，所以率先达到高用户渗透率的产品是百度等搜索引擎门户网站，这类产品成为互联网流量的第一入口；然后在基础设施比较完善后，开始进入连接人与人的关键节点，微博、QQ等社交娱乐产品进入了高用户渗透率产品的行列；最后是连接人与商品的关键节点，以淘宝和京东等为代表的电子商务门户网站，开始进入高用户渗透率产品的行列。

图1.3 PC互联网时代的互联网产品演变的3个关键节点

1.1.2 移动互联网时代

随着3G（第三代移动通信技术）网络和智能手机的普及，数据高速传输有了更好的支撑，互联网流量发展迎来了第二个重要阶段——移动互联网时代。该阶段出现的重要产品，有些是从PC端迁移到了移动端，如QQ、淘宝、京东、百度等。随着时代的进步，一些具有代表性的新产品应运而生，如微信、美团、拼多多和抖音等。流量载体相比第一阶段新增了移动端App，用户不再是与平台进行单向互动，用户可以根据个人喜好，随时随地分享自己的生活和工作，与平台形成了双向互动。移动互联网时代的交互模式如图1.4所示，用户在互动中产生大量的用户生成内容（user generated content，UGC）和专业生产内容（professionally generated content，PGC），互联网流量呈现爆炸式增长。该阶段的用户产生的数据形态主要以图文数据为主，还有少量的语音和视频数据。该阶段的流量欺诈问题主要是推广结算欺诈、“薅羊毛”欺诈、电信诈骗和支付欺诈等业务欺诈问题。

图1.4 移动互联网时代的交互模式

从高用户渗透率的变化来看，移动互联网时代的互联网产品演变主要经历了3个关键节点，如图1.5所示。区别于PC互联网时代，该阶段率先达到高用户渗透率的产品是社交、长视频、音乐和游戏等社交娱乐产品，其中社交产品取代了搜索引擎，成为移动互联网时代流量的第一入口；然后，电子商务从PC端迁移到移动端，也得到了进一步发展，进入了高用户渗透率产品的行列，其中具有代表性的是淘宝、京东、拼多多等产品；最后是在社交娱乐和电子商务这两大板块之外的其他细分领域，如外卖、导航和旅行等细分领域产品，也进入了高用户渗透率产品的行列。

图1.5 移动互联网时代的互联网产品演变的3个关键节点

1.1.3 云计算和大数据时代

随着云计算等相关技术的发展，互联网业务海量数据的存储、计算和应用成为可能，互联网流量发展迎来了第三个重要阶段——云计算和大数据时代。云计算和大数据时代的互联网产品演变主要经历了3个关键节点，如图1.6所示。该阶段各关键节点主要出现了直播、短视频、线上会议、在线教育等领域的产品，流量载体相比前两个阶段新增了小程序和公众号。该阶段的用户不只是简单的互动，而是根据个人爱好或者出于盈利目的，用户通过自主创作内容，深度参与到互联网的互动中，从而产生海量数据，数据规模持续增长。该阶段产生的数据形态除了图文数据，还有语音和视频数据，而语音和视频数据规模也达到了前所未有的高度，真正迎来了互联网的大数据时代。该阶段的流量欺诈问题除了有推广结算欺诈、“薅羊毛”欺诈和电信诈骗等移动互联网时代已有的业务欺诈问题，伴随着云业务的发展，还出现了云挂机和云控等新型欺诈问题，下文详细介绍大数据时代的流量欺诈问题。

图1.6 云计算和大数据时代的互联网产品演变的3个关键节点

1.2 大数据时代的流量欺诈问题

大数据时代的互联网流量不仅规模庞大而且纷繁复杂，伴随而来的是各种类型的黑灰产欺诈问题。流量欺诈问题贯穿了App整个生命周期，大数据时代的流量欺诈问题如图1.7所示。

图1.7 大数据时代的流量欺诈问题

下文将从流量前期、中期和后期的视角，介绍流量欺诈问题。有关流量欺诈的具体手段及其危害，请读者参阅第2章。

1.流量前期的欺诈问题

流量前期主要涉及广告点击、App下载、账号注册、账号登录这4个环节。流量前期产生的流量欺诈问题主要是推广结算欺诈、下载欺诈、注册欺诈、登录欺诈等。

2.流量中期的欺诈问题

流量中期主要涉及用户进入App后的用户行为，如内容浏览、点击、评论、参与营销活动、传播引流URL等。流量中期产生的流量欺诈问题主要是引流欺诈、“薅羊毛”欺诈、刷赞刷榜欺诈、垃圾评论等。

3.流量后期的欺诈问题

流量后期主要涉及人与人之间的社交关系建立和交易转账等环节，流量后期产生的流量欺诈问题主要是“杀猪盘”、电信诈骗、交易欺诈等。

1.3 大数据时代的流量反欺诈挑战

反欺诈面临的挑战是全方位的。从高维视角分析，大数据时代的流量反欺诈主要涉及监管层面、行业层面和业务层面的多重挑战，如图1.8所示。

图1.8 大数据时代流量反欺诈的多重挑战

1.3.1 监管层面

监管层面主要是监管和数据合规性的要求。近年来，随着用户隐私数据保护和个人信息权益保护等方面的要求越来越严格，国家相继出台了《中华人民共和国数据安全法》和《中华人民共和国个人信息保护法》等法律法规。在App数据采集和数据合规越发严格的情况下，数据合规成为大数据治理的第一要务。大数据的反欺诈识别，一定是在充分保护用户隐私和合法授权的数据基础上进行建模，对流量反欺诈体系建设提出了更高标准的要求。

1.3.2 行业层面

行业层面主要面临的挑战是来自反欺诈标识体系的变革，具体可以分为设备标识体系变革和用户身份标识体系变革两方面。

1.设备标识体系变革

设备标识作为流量反欺诈的核心要素之一，原有的移动终端和操作系统主导的设备标识体系已不再适用，取而代之的是国内各大厂商构建的去中心化的开放匿名设备标识符（Open Anonymous Device Identifier，OAID）设备标识体系，而新的OAID设备标识体系无法对设备指纹进行验证校准，也无法验证真伪。

2.用户身份标识体系变革

行业常用的用户身份标识体系是国际移动用户标志（International Mobile Subscriber Identity，IMSI），而IMSI也因为操作系统的升级而被禁止获取，所以在某些流量场景下无法进行身份验证和流量欺诈检测。

1.3.3 业务层面

业务层面主要面临的挑战是攻防博弈深化，具体可以分为欺诈升级和业务防控不足两方面。

1.欺诈升级

● 欺诈手法变化多端。例如在风险设备使用层面，黑灰产从假机假用户行为开始，利用模拟器进行流量欺诈；然后为了绕过业务方的风控检测，逐渐演变为通过真机假用户行为，利用群控进行欺诈；最后又升级为真机真用户假动机行为，通过众包平台给普通用户派发兼职任务来实施流量欺诈，大幅度提高了业务方的风控难度。

● 欺诈技术专业化。黑灰产从最开始的“单兵作战”，逐渐升级为有组织、有分工的“团伙作战”，并形成了专业化的黑灰产产业链，如图1.9所示。黑灰产也早已用上了最前沿的AI技术，欺诈的效率更高、隐匿性更强。但凡业务存在未知漏洞，黑灰产团伙就会闻风而来，利用漏洞实施欺诈，在极短时间内使业务遭受严重损失，等业务方发现时，黑灰产团队早已离开。

图1.9 专业化的黑灰产产业链

● 欺诈向国外转移。随着国内开展断卡和断号等严打黑灰产欺诈的行动，黑灰产开始逐步由国内转移到国外，跨国欺诈日益发展，如跨境赌博、跨境洗钱和跨境“杀猪盘”等。

2.业务防控不足

● 防控手段单一。业务方仅依靠简单的风险名单或者人工规则进行单点对抗，缺乏从事前、事中到事后全流程的反欺诈系统架构。

● 防控滞后。由于黑灰产欺诈手法的隐匿性强、变化快，获取未知欺诈手法样本容易滞后，从而导致构建的有监督模型只能识别出已知欺诈类型，对未知欺诈类型的识别存在盲区。

● 孤身作战。黑灰产欺诈团伙为了获利，不会放过任何有利可图的机会，通常会利用有限的黑灰产资源在各业务平台连续作恶。但业务防控未能形成有效的跨行业联防联控，防控效果差。

第1章 绪论