很多人都知道互联网上存在大量虚假流量、垃圾流量、机器流量,但在实际沟通中,绝大多数站长和企业都会下意识认为:“虚假流量是别人的问题,不太可能出现在我们自己的网站上。”
但从行业大量第三方研究报告和真实数据来看,这恰恰是一种普遍而危险的误判。
机器流量并不是少数现象,而是“常态”
几乎所有主流的第三方研究机构,在虚假流量相关报告中给出的结论都高度一致:当前互联网环境下,整体流量中约有30%左右属于虚假或无效流量。
也就是说,在没有任何过滤和识别机制的情况下:
- 每10次访问
- 就可能有3次并非来自真实用户
而你的网站,并不会是例外。
不是所有机器流量都是“坏的”
机器流量 ≠ 恶意流量
从性质上来看,机器流量通常可以分为两大类。
善意的机器流量(Good Bots)
互联网上有大量服务,本身就是建立在自动化抓取机制之上的,例如:
- 搜索引擎爬虫:各大搜索引擎的爬虫收录,很多站点还会做很多的工作,希望快点被收录
- 内容聚合与信息流平台:如今日头条、一点资讯等聚合信息站点回去抓取
- 第三方数据与研究平台:如alexa,semrush这些
这些流量通常具有明确目的、行为稳定、遵循规范,因此被称为“善意机器流量”。
如果不希望被抓取,可以通过 robots.txt 进行限制。
恶意的机器流量(Malicious Bots)
真正需要警惕的,是恶意机器流量。
这类流量往往具备以下特征:
- 不遵守 robots.txt
- 伪造或频繁更换 User-Agent
- 模拟真实用户行为(滚动、点击、停留)
- 大量制造点击、曝光或访问
更关键的是:在很多网站中,恶意机器流量的占比,往往高于善意机器流量。
它们的主要目的包括:广告欺诈、消耗投放预算、扭曲分析数据、掩盖真实用户行为特征
一个真实的数据例子:机器流量并不“抽象”
如果你对机器流量还停留在“概念层面”,不妨看看一个真实案例。
以站点 http://www.ichdata.com 为例,通过Adobe Analytics Workspace统计20231001-20231025的机器流量数据:
不到一个月,有1万左右PV的机器流量。
Adobe Analytics这些机器流量数据是通过IAB(Interactive Advertising Bureau)的规则判断。
其中HeadlessChrome/是表示Users Agent缺失,所以判别为机器流量,它有可能是正常流量,这也说明一个现实问题,机器流量识别并不是“绝对正确”,而是基于规则和概率判断。
分析工具能解决多少问题?
一般情况下:主流分析工具可以有效识别并过滤大部分「善意机器流量」,这些流量通常不会进入核心分析报表,但恶意机器流量隐蔽性更强,仅依赖默认规则,往往无法完全识别,如GA4面临无法自动过滤的新型虚假流量(新加坡和中国)
写在最后
回到最初的问题:你的网站中的机器流量,到底有多少?
答案通常是:
- 比你想象的多
- 比你工具默认显示的还要多




