欢迎访问我的博客,有问题可以在任意文章底部留言评论

虚假流量全解析:分类、危害与数据识别方法

Google Analytics 4 Haran 8年前 (2017-11-10) 15984次浏览 0个评论
文章目录[隐藏]

更新时间:2024年7月20号

随着互联网的发展,虚假流量已经成为网络流量中不可忽视的一部分。如果你觉得自己的网站不存在虚假流量很可能只是尚未发现而已。互联网有人的地方就有江湖,防备永远不能松懈。虽然现在互联网环境已经与流量红利年代大不相同,但仍然有大量利益相关者依赖流量生存,催生了形形色色的作弊流量。作为广告主和数据分析人员,了解这些流量的类型与防范方法至关重要。

什么是虚假流量?

虚假流量(Fraudulent Traffic)是指最广泛的概念,指所有不真实、非自然、无效的流量。

 

虚假流量的危害

  • 数据失真虚假流量会干扰跳出率、在线时长、回访率等指标,导致决策失误
  • 成本增加:广告预算被劣质流量消耗,有效转化下降
  • 服务器压力:大量虚假流量访问会降低网站响应速度,损害真实用户体验
  • 业务风险:长期存在可能影响广告投放策略和网站运营稳定性。

 

 

虚假流量存在的原因

虚假流量存在的原因主要有三方面:

  • 反作弊成本高:作弊手法多样且不断演变,难以完全防止;
  • 利益驱动:广告主、媒体主、代理商等都有不同诉求,,共同推动作弊行为
  • 收益高风险低虚假流量容易规模化操作

 

虚假流量的分类

虚假流量经常与垃圾流量和机器流量一起被讨论,其定义和关系如下:

  • 虚假流量:最广泛的概念,指所有不真实、非自然、无效的流量。
  • 垃圾流量:通常指对网站或广告无价值、可能干扰数据统计的流量。
  • 机器流量:指由自动化程序(机器人、爬虫、脚本、木马)产生的流量

三者的关系可以理解为:虚假流量 ≥ 垃圾流量 ≥ 机器流量,即机器流量是垃圾流量的一个子集,垃圾流量又属于虚假流量的范畴。

 

在实际运营中,对网站和广告效果影响最大的通常是垃圾流量。根据来源和行为特征,垃圾流量可以进一步分为两类:流量作弊流量劫持
虚假流量全解析:分类、危害与数据识别方法

 

流量作弊

流量作弊是指用虚假或低质流量替代真实有效流量,以影响数据或广告效果。主要包括以下三种类型:

以次充好

以次充好是将劣质流量包装成优质流量进行投放,常见形式有:

  • 倒卖流量:以劣质流量冒充高质量流量出售
  • 更换标签:媒体方篡改受众标签,例如将低龄用户纳入高价值人群
  • 雇佣诱导:通过付费、QQ群、短信等方式诱导用户点击广告或下载应用

作弊特征:

  • 时段异常:广告集中在冷门时段投放(如凌晨0-8点)
  • 广告位异常:购买优质广告位但投放在低效位置

解决方法:使用私有程序化购买、固定广告位置和价格;与优质一线媒体建立长期合作关系,可以从源头上保证回传流量的高质性,更能确保优质资源的利用效果。

 

以假乱真

以假乱真是通过非自然用户行为实现广告点击或展示,主要形式包括:

  • 机器作弊:
    • 真机群:使用大量真实设备自动点击广告
    • 模拟器:软件模拟用户操作,降低设备成本
    • 服务API:通过服务器请求生成访问,但非真实用户行为
  • 脚本刷量:用程序模拟访问页面,是最早、成本最低的作弊方式
  • 肉鸡:控制用户设备执行自动点击操作,隐蔽性强

作弊特征IP、PV、UV之间数据异常,点击率远高于正常水平

解决方法

  • 利用IP、时间段和行为分析过滤异常流量
  • 第三方工具检测脚本刷量和机器人行为

 

暗渡陈仓

暗渡陈仓是指将广告素材隐藏或嵌入网页中,在用户不知情情况下触发展示或点击。常见方式:

  • iframe隐藏:请求广告但用户不可见
  • 广告重叠:广告覆盖在其他广告上
  • 媒体主交换,广告出现在非目标位置

作弊特征:大量展示但无点击

解决方法:监控广告可见性,确保广告在用户可见范围内展示

 

流量劫持

流量劫持是指用户访问过程中被引导到非目标页面,常见方式:

  • 引导到自身网站再变现
  • 引导到广告主网站
  • 替换广告内容,将自家广告替换到他人展示位

防护方法:升级至HTTPS,确保数据加密,减少被劫持风险

 

 

 

数据角度识别虚假流量

大部分虚假流量可以通过以下数据特征识别:

  • 流量集中在特定时间段
  • 异常机型或设备突然激增
  • 用户频繁更换IP
  • 站内行为缺失,跳出率高

对于没有被过滤掉的垃圾流量,我们可以通过数据的角度去分析判断:

方法1、查看主机名

在GA4探索报告中查看主机名,除了你实际的网站域名外出现的主机名通常属于垃圾流量

虚假流量全解析:分类、危害与数据识别方法

原因:知道GA4测量ID后,恶意者可以在其他网站发送虚假请求,从而干扰数据。

以此类推,如果你要干扰你竞争对手的数据,可以将它的跟踪id挂在一些网站上去,这样它的GA就可以收到一些干扰数据,为什么说是可能呢?因为这些垃圾流量可以用过滤器过滤的,如果对方开启了过滤器过滤,那么就不会对其产生营销。

处理方式:过滤掉来源为 gtm-msr.appspot.com 的机器流量即可。延伸阅读:GA4上屏蔽来自gtm-msr.appspot.com的机器流量

 

 

方法2:IP分析

通过IP识别重复访问或批量刷量行为。

特征:同一 IP在短时间内产生异常会话数,跳出率接近100%。

GA4可通过一些设置获取用户 IP(例如借助 ipinfo.io),用于分析异常访问,具体的方法去网站上看在Google Analytics 4 中获取用户的IP(基于ipinfo.io)

 

方法3:热力图对比

真实用户访问通常会产生密集的点击热力图,机器流量则点击稀疏甚至没有。

注意:数据量不足时无法精确判断,GA4本身不支持热力图,可结合其他工具分析。延伸阅读:网站热力图工具有哪些?

 

 

方法4:异常数据出现

电商网站出现百万级订单,或者不符合业务逻辑的交易数据,应重点关注。

虚假流量全解析:分类、危害与数据识别方法

 

方法5:异常好,无转化

来源渠道表现良好(低跳出率、高页面停留),但没有任何转化,可能是模拟真实行为的高级作弊流量。

需分析该渠道在不同设备、浏览器和时间段的分布,以及后续页面行为流。

虚假流量全解析:分类、危害与数据识别方法

方法6:异常集中

时段、地域或设备异常集中。例如潜在用户不会在夜间访问,但夜间流量异常高,可能是恶意刷广告点击。

该方法可辅助确认广告资源被恶意消耗。

虚假流量全解析:分类、危害与数据识别方法

延伸阅读:「Google Analytics 4」垃圾流量的识别与处理

 

 

方法7:新用户=用户数=会话数

指新用户在短时间内进入并立即离开,跳出率接近 100%。

通过各维度(来源、城市、设备等)检查该公式是否成立,是最直观、快速的垃圾流量定位方法。

 

实战案例

有个网站最近流量暴涨。

 

虚假流量全解析:分类、危害与数据识别方法

流量来自哪里?

可以进一步分析是这些流量是哪个渠道、媒介、广告系列带来的,最近暴增的那个就是Direct渠道:

虚假流量全解析:分类、危害与数据识别方法

 

流量有什么特征?

在流量获取报告中,过滤出Direct的流量:

虚假流量全解析:分类、危害与数据识别方法

验证是否垃圾流量的方式,一般是将一些设备维度、浏览器维度、地理信息维度拉过去分析:看集中度、访问时间分布规律和跳出率。

次级维度里添加上述维度:

虚假流量全解析:分类、危害与数据识别方法

Engagement rate的反面就是跳出率,跳出率=1-Engagement rate,Engagement rate很低,表示跳出率很高,进来后直接离开。

由于报表里不能再添加维度去做分析,如果你要进一步定位,转移到探索里去添加维度去分析,探索里最多可以添加5个维度。

进一步分析

还可以获取用户的IP去分析,如果你已经在自定义维度设置了IP。

如果不懂在Google Analytics中获取IP的,请看:「Google Analytics 4」垃圾流量的识别与处理

 

如何处理

虽然报表里也有对比项和过滤的功能,但这两个功能的作用都是包含,不能做排除。

如果要做排除,只有用探索里的细分,但这里的细分只能在探索里使用。

在探索里创建一个Session级别的细分,然后选用排除的功能,做如下设置:

虚假流量全解析:分类、危害与数据识别方法

看数据的时候将这个细分添加上去就可以:

虚假流量全解析:分类、危害与数据识别方法

数据就合理了,原来有24万,现在只有5万多。


有疑问可以在底部留言
喜欢 (10)
发表我的评论
取消评论
表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址