Update:2016.03.09 大约从2016.02月开始,GA 报告中已经开始自动排除大部分垃圾流量。

如果一个站点使用了多个不同的网站分析工具进行统计,通常并不推荐粗暴地将两者的数据进行比较,而是应当关注同样工具统计到的网站数据的趋势。也正是如此,使得导致不同网站分析工具数据差异的另一因素常常并不容易被我们发现,这一因素就是垃圾流量。

这里的垃圾流量,指的是对网站毫无作用且会影响网站数据报表质量的流量。以下以GA 中的垃圾流量为例进行介绍。GA 中的垃圾流量通常可以分为两大类:

一类被称为ghost referral,这些流量事实上从来没有来到你的网站,也不会出现在你网站服务器的日志中,但你可以在引荐报表中发现它们,它们影响了GA 中的数据;

另一类是爬虫流量,包括搜索引擎爬虫流量和非搜索引擎爬虫流量,这些流量会影响GA 中各渠道流量占比及会话次数、跳出率、停留时间等关键指标。

那么,下面我们就一起来看下,你的GA 报表中是不是也存在着这样的垃圾流量。

一、识别方法:

1. 查看下 受众群体 - 技术 - 广告网络 - 主机名  报表

如果看到很多与代码实际部署域名无关的主机名,那说明存在较多的第一类垃圾流量。出现这类数据的可能原因为:1)别的网站使用了和你网站相同的媒体资源ID,这种情况一般较少,除非恶意为之;2)有人使用GA 中measurement protocol 的方法做Spam,而你的媒体资源ID 不幸躺枪。一个包含垃圾流量的数据报表如下:

ga_hostname_ghost_referral

在上图中,仅有171个会话的主机名是我网站域名,即真实来到我网站的流量,也就是说超过2/3的流量实际上属于垃圾流量。除了红色框线和序号6和8以外,其他部分的流量基本出现了不同程度的数据异常,如新用户百分比为0%(我截图部分是全站所有有流量的数据时期),平均会话时长为00:00:00.

2. 查看下 流量获取 - 所有流量引荐 - 来源  报表

使用高级过滤器筛选出平均会话时长为0、跳出率为100%并且会话次数大于某个数(如10)的流量,看是否有来源为semalt.semalt.com、buttons-for-website.com等的流量。如下图所示:

advance_filter

高级细分后得到如下所示数据:

crawler

上图中这两个引荐来源的跳出率为均为100%,平均会话时长为00:00:00 ,新会话百分比为100%。使用二级维度关联可以发现其Flash 均为(not set)、Java 支持均为No。实际上这两个来源都属于爬虫,读者可以Google 搜索验证下。

 

二、防范方法:

对于第一类垃圾流量,防范方法有两种:

1. 避免使用UA-XXXXXXXX-1 的作为媒体资源ID;

对于ghost referral 这类垃圾流量,在GA 报表中其对应的主机名不是你网站主机名是因为,这些垃圾流量使用的是随机的媒体资源ID 的方法,他们也不知道某个媒体资源ID 实际上与哪一个网站主机名的对应。而且,经验表明,他们通常使用的是结尾为1(即账户的第一个媒体资源)的媒体资源ID作为Spam 的目标。所以,如果你要在一个新的网站加GA 代码,那最好在账户下至少建两个媒体资源,并使用第二个媒体资源来收数。

2. 使用过滤器仅包含部署代码相关主机名的流量;

可以在数据视图下配置过滤器,使用预定义或自定义均可,记得自定义那里应当使用正则表达式,基本配置如下所示:

使用预定义:

host_predifine_filter

使用自定义:

host_custom_filter

对于第二类垃圾流量:同样有多种方法可以防范:

1. 在服务器上配置,禁止非搜索引擎类的爬虫的来访;

这种方法最为彻底,不过需要对服务器上的此类配置有一定了解。配置后,不仅能节省带宽和减少服务器日志存量,也能使此类爬虫数据不再影响GA 账户中的网站数据;

2. 开启漫游器过滤,排除搜索引擎类爬虫对GA 数据的影响;

在每个视图下,点击查看设置 - 勾选漫游器过滤 即可,如下图所示:

filter_crawler_default

如此设置只会排除一些已知的爬虫,所以要想把第二类垃圾流量数据排除干净,还得使用方法1或3。

3. 使用过滤器排除这些引荐流量;

注意应该使用的过滤字段名是广告系列来源,不是引荐,详情见GA 帮助文档排除引荐来源 ,同样应当使用正则表达式,相关配置如下:

exlude_referrers

注意,千万不要使用引荐排除列表 来排除爬虫数据,否则原本被归在引荐的爬虫数据会被归在直接访问而更不容易被发现。关于引荐排除列表 的功能可以看下我之前的这篇文章。

===============update 2015.5.5=================

最近一个网站分析群的群友说到,GA 中出现了一个很奇葩的自然搜索词,我后来发现,这又是一个新出现的Referral Spam,我在自己经常使用的一个账户中虽然没发现这个奇葩的搜索关键词,但是在一个我启用了但并未实施其追踪代码的账户中居然发现了,该关键词很长:

vitaly rules google ☆*:.。.゚゚・*ヽ(^ᴗ^)丿*・゚゚.。.:*☆ ¯\_(ツ)_/¯(•ิ_•ิ)(ಠ益ಠ)(ಥ‿ಥ)(ʘ‿ʘ)ლ(ಠ_ಠლ)( ͡° ͜ʖ ͡°)ヽ(゚д゚)ノʕ•̫͡•ʔᶘ ᵒᴥᵒᶅ(=^. .^=)oo

使用次级维度主机名查看后,很明显地发现确实是Referral Spam(原因见上文)。P.S. 我那个账户中仅 2015.4.28-2015.4.29 这两天出现了这个关键词。截图如下:

referral-spam-keyword-vitaly-rules-google

三、扩展阅读:

1. Definitive Guide to Removing Referral Spam

2. Geek guide to removing referrer spam in Google Analytics

One Thought on “GA 中如何识别并防范垃圾流量

  1. 学到了!谢谢

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

Post Navigation