更新时间:2024年7月20号
随着互联网的发展,虚假流量已经成为网络流量中不可忽视的一部分。如果你觉得自己的网站不存在虚假流量很可能只是尚未发现而已。互联网有人的地方就有江湖,防备永远不能松懈。虽然现在互联网环境已经与流量红利年代大不相同,但仍然有大量利益相关者依赖流量生存,催生了形形色色的作弊流量。作为广告主和数据分析人员,了解这些流量的类型与防范方法至关重要。
什么是虚假流量?
虚假流量(Fraudulent Traffic)是指最广泛的概念,指所有不真实、非自然、无效的流量。
虚假流量的危害
- 数据失真:虚假流量会干扰跳出率、在线时长、回访率等指标,导致决策失误
- 成本增加:广告预算被劣质流量消耗,有效转化下降
- 服务器压力:大量虚假流量访问会降低网站响应速度,损害真实用户体验
- 业务风险:长期存在可能影响广告投放策略和网站运营稳定性。
虚假流量存在的原因
虚假流量存在的原因主要有三方面:
- 反作弊成本高:作弊手法多样且不断演变,难以完全防止;
- 利益驱动:广告主、媒体主、代理商等都有不同诉求,,共同推动作弊行为
- 收益高风险低:虚假流量容易规模化操作
虚假流量的分类
虚假流量经常与垃圾流量和机器流量一起被讨论,其定义和关系如下:
三者的关系可以理解为:虚假流量 ≥ 垃圾流量 ≥ 机器流量,即机器流量是垃圾流量的一个子集,垃圾流量又属于虚假流量的范畴。
在实际运营中,对网站和广告效果影响最大的通常是垃圾流量。根据来源和行为特征,垃圾流量可以进一步分为两类:流量作弊和流量劫持。

流量作弊
流量作弊是指用虚假或低质流量替代真实有效流量,以影响数据或广告效果。主要包括以下三种类型:
以次充好
以次充好是将劣质流量包装成优质流量进行投放,常见形式有:
- 倒卖流量:以劣质流量冒充高质量流量出售
- 更换标签:媒体方篡改受众标签,例如将低龄用户纳入高价值人群
- 雇佣诱导:通过付费、QQ群、短信等方式诱导用户点击广告或下载应用
作弊特征:
- 时段异常:广告集中在冷门时段投放(如凌晨0-8点)
- 广告位异常:购买优质广告位但投放在低效位置
解决方法:使用私有程序化购买、固定广告位置和价格;与优质一线媒体建立长期合作关系,可以从源头上保证回传流量的高质性,更能确保优质资源的利用效果。
以假乱真
以假乱真是通过非自然用户行为实现广告点击或展示,主要形式包括:
- 机器作弊:
- 真机群:使用大量真实设备自动点击广告
- 模拟器:软件模拟用户操作,降低设备成本
- 服务API:通过服务器请求生成访问,但非真实用户行为
- 脚本刷量:用程序模拟访问页面,是最早、成本最低的作弊方式
- 肉鸡:控制用户设备执行自动点击操作,隐蔽性强
作弊特征:IP、PV、UV之间数据异常,点击率远高于正常水平
解决方法:
- 利用IP、时间段和行为分析过滤异常流量
- 第三方工具检测脚本刷量和机器人行为
暗渡陈仓
暗渡陈仓是指将广告素材隐藏或嵌入网页中,在用户不知情情况下触发展示或点击。常见方式:
- iframe隐藏:请求广告但用户不可见
- 广告重叠:广告覆盖在其他广告上
- 媒体主交换,广告出现在非目标位置
作弊特征:大量展示但无点击
解决方法:监控广告可见性,确保广告在用户可见范围内展示
流量劫持
流量劫持是指用户访问过程中被引导到非目标页面,常见方式:
- 引导到自身网站再变现
- 引导到广告主网站
- 替换广告内容,将自家广告替换到他人展示位
防护方法:升级至HTTPS,确保数据加密,减少被劫持风险
数据角度识别虚假流量
大部分虚假流量可以通过以下数据特征识别:
- 流量集中在特定时间段
- 异常机型或设备突然激增
- 用户频繁更换IP
- 站内行为缺失,跳出率高
对于没有被过滤掉的垃圾流量,我们可以通过数据的角度去分析判断:
方法1、查看主机名
在GA4探索报告中查看主机名,除了你实际的网站域名外出现的主机名通常属于垃圾流量:
原因:知道GA4测量ID后,恶意者可以在其他网站发送虚假请求,从而干扰数据。
以此类推,如果你要干扰你竞争对手的数据,可以将它的跟踪id挂在一些网站上去,这样它的GA就可以收到一些干扰数据,为什么说是可能呢?因为这些垃圾流量可以用过滤器过滤的,如果对方开启了过滤器过滤,那么就不会对其产生营销。
处理方式:过滤掉来源为 gtm-msr.appspot.com 的机器流量即可。延伸阅读:GA4上屏蔽来自gtm-msr.appspot.com的机器流量。
方法2:IP分析
通过IP识别重复访问或批量刷量行为。
特征:同一 IP在短时间内产生异常会话数,跳出率接近100%。
GA4可通过一些设置获取用户 IP(例如借助 ipinfo.io),用于分析异常访问,具体的方法去网站上看在Google Analytics 4 中获取用户的IP(基于ipinfo.io)
方法3:热力图对比
真实用户访问通常会产生密集的点击热力图,机器流量则点击稀疏甚至没有。
注意:数据量不足时无法精确判断,GA4本身不支持热力图,可结合其他工具分析。延伸阅读:网站热力图工具有哪些?
方法4:异常数据出现
电商网站出现百万级订单,或者不符合业务逻辑的交易数据,应重点关注。
方法5:异常好,无转化
来源渠道表现良好(低跳出率、高页面停留),但没有任何转化,可能是模拟真实行为的高级作弊流量。
需分析该渠道在不同设备、浏览器和时间段的分布,以及后续页面行为流。
方法6:异常集中
时段、地域或设备异常集中。例如潜在用户不会在夜间访问,但夜间流量异常高,可能是恶意刷广告点击。
该方法可辅助确认广告资源被恶意消耗。

延伸阅读:「Google Analytics 4」垃圾流量的识别与处理
方法7:新用户=用户数=会话数
指新用户在短时间内进入并立即离开,跳出率接近 100%。
通过各维度(来源、城市、设备等)检查该公式是否成立,是最直观、快速的垃圾流量定位方法。
实战案例
有个网站最近流量暴涨。
流量来自哪里?
可以进一步分析是这些流量是哪个渠道、媒介、广告系列带来的,最近暴增的那个就是Direct渠道:
流量有什么特征?
在流量获取报告中,过滤出Direct的流量:
验证是否垃圾流量的方式,一般是将一些设备维度、浏览器维度、地理信息维度拉过去分析:看集中度、访问时间分布规律和跳出率。
次级维度里添加上述维度:
Engagement rate的反面就是跳出率,跳出率=1-Engagement rate,Engagement rate很低,表示跳出率很高,进来后直接离开。
由于报表里不能再添加维度去做分析,如果你要进一步定位,转移到探索里去添加维度去分析,探索里最多可以添加5个维度。
进一步分析
还可以获取用户的IP去分析,如果你已经在自定义维度设置了IP。
如果不懂在Google Analytics中获取IP的,请看:「Google Analytics 4」垃圾流量的识别与处理
如何处理
虽然报表里也有对比项和过滤的功能,但这两个功能的作用都是包含,不能做排除。
如果要做排除,只有用探索里的细分,但这里的细分只能在探索里使用。
在探索里创建一个Session级别的细分,然后选用排除的功能,做如下设置:
看数据的时候将这个细分添加上去就可以:
数据就合理了,原来有24万,现在只有5万多。










