Update:2016.03.26 发现有伪装成googlebot的client,严格筛选进入爬虫信息统计的日志,增加请求类型为GET的条件&& $2~/GET/ 。

一般来说,搜索引擎爬虫不会执行页面上的JavaScript代码,而网站分析工具 大多又是基于JavaScript代码的,这也就是说,默认情况下,网站分析工具不能记录到搜索引擎爬虫这部分的流量。但搜索引擎爬虫数据对于SEO又是非常的重要,那么如何才能拿到搜索引擎爬虫对网站的爬取数据呢?方法可能有很多,比如直接从网站服务器日志中来统计爬虫信息。本文以nginx日志为例,来说明如何从中提取出爬虫信息。 Read More →

Update 2016.10.25:今天发现百度自2016年9月中下旬左右做了调整,通过这种方法可能获取不到关键词了。

上篇文章中讲到过获取移动设备上用户通过百度自然搜索来到网站的搜索关键词相关信息的问题,也给出了相应的解决办法。不过因为当时时间有些匆忙,所以草草结尾了。今天咱们来看看这部分流量是在什么情况下出现的,以及这部分流量怎么才能将之归类到Organic Search而非Referral。

先说第一个问题,m.baidu.com / referral,这部分流量是怎么来的。

一、m.baidu.com / referral 的来由

在移动设备上使用百度搜索,输入一个搜索词之后会呈现出10条搜索结果。这个时候想点击查看其中某个搜索结果,可能会有两个操作,一个就是直接点击打开,另一个就是按住新标签页打开。通过Fiddler 对这两个过程抓包,可以发现这两者的不同点。直接点击打开的大致过程为: Read More →

Update 2016.10.25:今天发现百度自2016年9月中下旬左右做了调整,通过这种方法可能获取不到关键词了。

一、缘起

大概两个星期前,在一个QQ 群里看到有个童鞋说百度移动端搜索可能做了下调整,原因是他看到GA 中开始出现较多的m.baidu.com / referral 的数据。当时和他讨论了很久,始终没有明白他说的意思。直到有一天,我在自己的GA 账户中也出现了m.baidu.com / referral 时,我终于觉得有必要探索下了。

二、发现

找到GA 账户中出现m.baidu.com / referral的地方,使用细分将其他所有无关的数据隔离,选用次级维度完整引荐来源网址,得到类似如下链接:

m.baidu.com/from=1012704v/bd_page_type=1/ssid=0/uid=0/pu=usm%400%2Csz%401320_2001%2Cta%40iphone_1_9.0_3_601/baiduid=E4ED2757B863D8BCD0606A91D5C59C05/w=0_10_%E6%B5%8B%E8%AF%95/t=iphone/l=1/tc

细心一点会发现,链接中/w那里的值中包含搜索关键词信息,即上述/t前面的encode字符即为搜索关键词"测试"。 Read More →

一、引言

使用GA的朋友们应该早就注意到GA中浏览器报表中Chrome和Internet Explorer的占比非常的高,两者占比之和几乎超过了90%,不仅如此,浏览器报表中还会出现一些明显不是浏览器名称的字符,比如出现下面这样的:

strange-browser-in-google-analytics-report

 

那么这是为何呢?要弄清楚这个,我们还得追根溯源。这篇文章中数据处理部分我们曾经提到过,浏览器实际上是根据User Agent信息解析得到的。

Read More →

经常在QQ群看到有童鞋问“怎么检查页面上GA代码是否添加正确”之类的问题,在此介绍两种较简单的方法,一种是使用插件,如Tag Assistant;另一种是直接抓包看请求的查询参数。其实两种方法的原理差不多,只不过插件的方式操作起来更加简单,结果也更加直观;而抓包的方法更加通用,不仅仅针对GA 代码,其他代码也可使用抓包的方法来检查。

一、使用插件

可用来检查GA代码的插件有很多,这里所说的插件都指的是Chrome浏览器的扩展程序,常见的有Tag Assistant、Google Analytics Debugger、Omnibug、WASP.inspector等。这里只介绍下Tag Assistant,因为就检查GA代码来说,个人感觉用它最准确,操作起来也最方便。

Tag Assistant 是Google官方出品的一个Chrome扩展,其不仅可以用来检查GA代码(包括Classic Google Analytics和Universal Analytics),GTM代码,还可用来检查其他Google营销相关代码。 Read More →

一、背景

网站分析工具基本的工作原理 这篇文章我们有讲到过,目前主流的网站分析工具都是使用页面标记法来收集网站数据的,一般使用的是JavaScript 代码的方式,我们可以称之为客户端实现。WAP 页面,在本文中特指使用WML编写的用于在功能手机和低端类手机显示的页面。对于WAP 页面,前端实现的方法显然是不可行的,这是因为:1)功能手机和其他低端类手机的网页浏览器很多不支持JavaScript;2)页面标记法代码执行时通常要伴加载一个超过10Kb的JavaScript文件,而这类手机内存非常之小,10Kb 对于它们来说太大了!

那么,如何才能跟踪这些手机上WAP 页面的数据呢?答案就是HTML 页面标记+服务端实现。

二、实现方法

Read More →