虚假流量全解析：分类、危害与数据识别方法

文章目录[隐藏]

更新时间：2024年7月20号

随着互联网的发展，虚假流量已经成为网络流量中不可忽视的一部分。如果你觉得自己的网站不存在虚假流量很可能只是尚未发现而已。互联网有人的地方就有江湖，防备永远不能松懈。虽然现在互联网环境已经与流量红利年代大不相同，但仍然有大量利益相关者依赖流量生存，催生了形形色色的作弊流量。作为广告主和数据分析人员，了解这些流量的类型与防范方法至关重要。

什么是虚假流量？

虚假流量（Fraudulent Traffic）是指最广泛的概念，指所有不真实、非自然、无效的流量。

虚假流量的危害

数据失真：虚假流量会干扰跳出率、在线时长、回访率等指标，导致决策失误
成本增加：广告预算被劣质流量消耗，有效转化下降
服务器压力：大量虚假流量访问会降低网站响应速度，损害真实用户体验
业务风险：长期存在可能影响广告投放策略和网站运营稳定性。

虚假流量存在的原因

虚假流量存在的原因主要有三方面：

反作弊成本高：作弊手法多样且不断演变，难以完全防止；
利益驱动：广告主、媒体主、代理商等都有不同诉求，，共同推动作弊行为
收益高风险低：虚假流量容易规模化操作

虚假流量的分类

虚假流量经常与垃圾流量和机器流量一起被讨论，其定义和关系如下：

虚假流量：最广泛的概念，指所有不真实、非自然、无效的流量。
垃圾流量：通常指对网站或广告无价值、可能干扰数据统计的流量。
机器流量：指由自动化程序（机器人、爬虫、脚本、木马）产生的流量

三者的关系可以理解为：虚假流量 ≥ 垃圾流量 ≥ 机器流量，即机器流量是垃圾流量的一个子集，垃圾流量又属于虚假流量的范畴。

在实际运营中，对网站和广告效果影响最大的通常是垃圾流量。根据来源和行为特征，垃圾流量可以进一步分为两类：流量作弊和流量劫持。

流量作弊

流量作弊是指用虚假或低质流量替代真实有效流量，以影响数据或广告效果。主要包括以下三种类型：

以次充好

以次充好是将劣质流量包装成优质流量进行投放，常见形式有：

倒卖流量：以劣质流量冒充高质量流量出售
更换标签：媒体方篡改受众标签，例如将低龄用户纳入高价值人群
雇佣诱导：通过付费、QQ群、短信等方式诱导用户点击广告或下载应用

作弊特征：

时段异常：广告集中在冷门时段投放（如凌晨0-8点）
广告位异常：购买优质广告位但投放在低效位置

解决方法：使用私有程序化购买、固定广告位置和价格；与优质一线媒体建立长期合作关系，可以从源头上保证回传流量的高质性，更能确保优质资源的利用效果。

以假乱真

以假乱真是通过非自然用户行为实现广告点击或展示，主要形式包括：

机器作弊：
- 真机群：使用大量真实设备自动点击广告
- 模拟器：软件模拟用户操作，降低设备成本
- 服务API：通过服务器请求生成访问，但非真实用户行为
脚本刷量：用程序模拟访问页面，是最早、成本最低的作弊方式
肉鸡：控制用户设备执行自动点击操作，隐蔽性强

作弊特征：IP、PV、UV之间数据异常，点击率远高于正常水平

解决方法：

利用IP、时间段和行为分析过滤异常流量
第三方工具检测脚本刷量和机器人行为

暗渡陈仓

暗渡陈仓是指将广告素材隐藏或嵌入网页中，在用户不知情情况下触发展示或点击。常见方式：

iframe隐藏：请求广告但用户不可见
广告重叠：广告覆盖在其他广告上
媒体主交换，广告出现在非目标位置

作弊特征：大量展示但无点击

解决方法：监控广告可见性，确保广告在用户可见范围内展示

流量劫持

流量劫持是指用户访问过程中被引导到非目标页面，常见方式：

引导到自身网站再变现
引导到广告主网站
替换广告内容，将自家广告替换到他人展示位

防护方法：升级至HTTPS，确保数据加密，减少被劫持风险

数据角度识别虚假流量

大部分虚假流量可以通过以下数据特征识别：

流量集中在特定时间段
异常机型或设备突然激增
用户频繁更换IP
站内行为缺失，跳出率高

对于没有被过滤掉的垃圾流量，我们可以通过数据的角度去分析判断：

方法1、查看主机名

在GA4探索报告中查看主机名，除了你实际的网站域名外出现的主机名通常属于垃圾流量：

原因：知道GA4测量ID后，恶意者可以在其他网站发送虚假请求，从而干扰数据。

以此类推，如果你要干扰你竞争对手的数据，可以将它的跟踪id挂在一些网站上去，这样它的GA就可以收到一些干扰数据，为什么说是可能呢？因为这些垃圾流量可以用过滤器过滤的，如果对方开启了过滤器过滤，那么就不会对其产生营销。

处理方式：过滤掉来源为 gtm-msr.appspot.com 的机器流量即可。延伸阅读：GA4上屏蔽来自gtm-msr.appspot.com的机器流量。

方法2：IP分析

通过IP识别重复访问或批量刷量行为。

特征：同一 IP在短时间内产生异常会话数，跳出率接近100%。

GA4可通过一些设置获取用户 IP（例如借助 ipinfo.io），用于分析异常访问，具体的方法去网站上看在Google Analytics 4 中获取用户的IP（基于ipinfo.io）

方法3：热力图对比

真实用户访问通常会产生密集的点击热力图，机器流量则点击稀疏甚至没有。

注意：数据量不足时无法精确判断，GA4本身不支持热力图，可结合其他工具分析。延伸阅读：网站热力图工具有哪些?

方法4：异常数据出现

电商网站出现百万级订单，或者不符合业务逻辑的交易数据，应重点关注。

方法5：异常好，无转化

来源渠道表现良好（低跳出率、高页面停留），但没有任何转化，可能是模拟真实行为的高级作弊流量。

需分析该渠道在不同设备、浏览器和时间段的分布，以及后续页面行为流。

方法6：异常集中

时段、地域或设备异常集中。例如潜在用户不会在夜间访问，但夜间流量异常高，可能是恶意刷广告点击。

该方法可辅助确认广告资源被恶意消耗。

虚假流量全解析：分类、危害与数据识别方法

延伸阅读：「Google Analytics 4」垃圾流量的识别与处理

方法7：新用户=用户数=会话数

指新用户在短时间内进入并立即离开，跳出率接近 100%。

通过各维度（来源、城市、设备等）检查该公式是否成立，是最直观、快速的垃圾流量定位方法。

实战案例

有个网站最近流量暴涨。

流量来自哪里？

可以进一步分析是这些流量是哪个渠道、媒介、广告系列带来的，最近暴增的那个就是Direct渠道：

流量有什么特征？

在流量获取报告中，过滤出Direct的流量：

验证是否垃圾流量的方式，一般是将一些设备维度、浏览器维度、地理信息维度拉过去分析：看集中度、访问时间分布规律和跳出率。

次级维度里添加上述维度：

Engagement rate的反面就是跳出率，跳出率=1-Engagement rate，Engagement rate很低，表示跳出率很高，进来后直接离开。

由于报表里不能再添加维度去做分析，如果你要进一步定位，转移到探索里去添加维度去分析，探索里最多可以添加5个维度。

进一步分析

还可以获取用户的IP去分析，如果你已经在自定义维度设置了IP。

如果不懂在Google Analytics中获取IP的，请看：「Google Analytics 4」垃圾流量的识别与处理

如何处理

虽然报表里也有对比项和过滤的功能，但这两个功能的作用都是包含，不能做排除。

如果要做排除，只有用探索里的细分，但这里的细分只能在探索里使用。

在探索里创建一个Session级别的细分，然后选用排除的功能，做如下设置：

看数据的时候将这个细分添加上去就可以：

数据就合理了，原来有24万，现在只有5万多。

有疑问可以在底部留言