一、背景

可能Jefferson之前在互联网广告行业的缘故,所以对广告一向比较敏感,偶尔可以看到CPS渠道商劫持自然搜索流量,或是宽带运营商劫持强插广告的情况。然而最近的一些事情,让我对广告劫持及其应对方法更加感兴趣起来。

先是GA 持续报警页面加载时长过长(Jefferson设置的是当天平均6s以上报警),这个起初也没有在意,因为博客放在海外VPS上,连接时长相对较长,加之服务端也没做什么缓存优化,所以平均6s也不奇怪,毕竟之前也常有嘛。但是最近一两个月报警的频率越来越高,这个就真让我下决心有时间要好好优化下了。 Read More →

注意:除非特别说明,本博客讨论的Google Analytics(以下简称GA) 均是指GA 的最新版Universal Analytics(简称UA)。

会话的同义词及其含义

在GA 中,会话的同义词通常是访问,对应英文中的session 和visit。会话代表一段时间内用户与网站的一系列互动。sessions(注意是复数,多了个s)是GA 里的基础指标,用来度量用户与网站产生互动这类情况的多少,许多重要的计算指标都是基于sessions 得到的,如跳出率(bounce rate)。

现在举个例子来说明上述含义。

用户A 12:30点击广告来到着陆页,在试玩了着陆页的小游戏之后,于12:35结束游戏而离开了网站。那么在12:00 - 12:35这段时间里,用户A产生了一次会话,在这次会话中用户A与网站的互动可能既包括页面浏览行为同时也包括开始游戏、结束游戏等事件行为。

会话的过期机制

接着上边例子,如果用户A 傍晚又来到了着陆页,那么是否再会计算为一次新的会话呢?答案是肯定的。也就是说,用户A 中午那次会话在傍晚时不再持续,即已经过期。在GA 里,促使会话过期可能是以下原因: Read More →

Update:2016.03.26 发现有伪装成googlebot的client,严格筛选进入爬虫信息统计的日志,增加请求类型为GET的条件&& $2~/GET/ 。

一般来说,搜索引擎爬虫不会执行页面上的JavaScript代码,而网站分析工具 大多又是基于JavaScript代码的,这也就是说,默认情况下,网站分析工具不能记录到搜索引擎爬虫这部分的流量。但搜索引擎爬虫数据对于SEO又是非常的重要,那么如何才能拿到搜索引擎爬虫对网站的爬取数据呢?方法可能有很多,比如直接从网站服务器日志中来统计爬虫信息。本文以nginx日志为例,来说明如何从中提取出爬虫信息。 Read More →

之前有好几位做SEM的童鞋都问过我类似的问题,其大意是:在GA中怎么才能看到SEM渠道的用户使用的搜索词。我们知道,百度自2015年年中调整后,来自百度自然搜索部分的关键词几乎都获取不到了,但是付费搜索部分的关键词信息却依然在referrer中传递着。

对于百度SEM渠道的流量,我们习惯于将投放词信息作为投放链接中utm_term参数的值,这样的话关键词(keyword)维度的值就是投放词了,正是因为如此,百度SEM渠道的搜索词也就变得“无处安放”。既然百度这边的搜索词在GA中可以说只剩下付费搜索这根独苗,那么获取百度SEM渠道的搜索词也就变得十分必要了。

本文将从数据收集、配置、数据处理等层面介绍几个针对该问题的解决办法。您可以从中选择一个最适合您的解决方案。 Read More →

众所周知,GA是一个功能非常强大的网站分析工具,然而,相比百度统计、CNZZ等同类统计工具,其使用起来门槛较高。刚接触GA的童鞋,往往因为对其理解不到位,以致被各种“奇怪”的问题所困扰。要想尽早摆脱这种状态,真正地用好GA,理解GA中hit,session,user无疑是非常必要的。本篇就来讲讲GA中的hit。

一、通常意义上的hit

不少童鞋对hit这个概念十分模糊,这里就先引用下Wikipedia对hit的概述来说明下:

A hit is a request to a web server for a file, like a web page, image, JavaScript, or Cascading Style Sheet.

简单翻译下就是,hit是(客户端)向Web服务器发送的请求,比如请求网页、图片、JS或CSS。 Read More →

刚开始因为想要找一款日志分析的工具,想起Piwik便有此功能,于是找来看看。一阵折腾,虽然尚没用上日志分析,不过却把Piwik的环境搭建好了,也算有所收获。所以本篇就简单介绍下Piwik的安装,希望对您有用。

一、简单介绍

首先还是介绍下Piwik。GA、百度统计、CNZZ在国内都很有名,但是说起Piwik,知道的人却并不多。然而,根据W3Techs的数据,全球范围内使用Piwik的网站还是相当多的,在调查中的几十款网站分析工具中,Piwik的使用占比高居Top 10. 需要特别提到的是,Piwik免费开源,支持数据私有,也支持全平台(Web、Android、iOS等)的数据统计,另外,还支持日志分析。 Read More →

Update 2016.10.25:今天发现百度自2016年9月中下旬左右做了调整,通过这种方法可能获取不到关键词了。

上篇文章中讲到过获取移动设备上用户通过百度自然搜索来到网站的搜索关键词相关信息的问题,也给出了相应的解决办法。不过因为当时时间有些匆忙,所以草草结尾了。今天咱们来看看这部分流量是在什么情况下出现的,以及这部分流量怎么才能将之归类到Organic Search而非Referral。

先说第一个问题,m.baidu.com / referral,这部分流量是怎么来的。

一、m.baidu.com / referral 的来由

在移动设备上使用百度搜索,输入一个搜索词之后会呈现出10条搜索结果。这个时候想点击查看其中某个搜索结果,可能会有两个操作,一个就是直接点击打开,另一个就是按住新标签页打开。通过Fiddler 对这两个过程抓包,可以发现这两者的不同点。直接点击打开的大致过程为: Read More →

Update 2016.10.25:今天发现百度自2016年9月中下旬左右做了调整,通过这种方法可能获取不到关键词了。

一、缘起

大概两个星期前,在一个QQ 群里看到有个童鞋说百度移动端搜索可能做了下调整,原因是他看到GA 中开始出现较多的m.baidu.com / referral 的数据。当时和他讨论了很久,始终没有明白他说的意思。直到有一天,我在自己的GA 账户中也出现了m.baidu.com / referral 时,我终于觉得有必要探索下了。

二、发现

找到GA 账户中出现m.baidu.com / referral的地方,使用细分将其他所有无关的数据隔离,选用次级维度完整引荐来源网址,得到类似如下链接:

m.baidu.com/from=1012704v/bd_page_type=1/ssid=0/uid=0/pu=usm%400%2Csz%401320_2001%2Cta%40iphone_1_9.0_3_601/baiduid=E4ED2757B863D8BCD0606A91D5C59C05/w=0_10_%E6%B5%8B%E8%AF%95/t=iphone/l=1/tc

细心一点会发现,链接中/w那里的值中包含搜索关键词信息,即上述/t前面的encode字符即为搜索关键词"测试"。 Read More →

一、引言

使用GA的朋友们应该早就注意到GA中浏览器报表中Chrome和Internet Explorer的占比非常的高,两者占比之和几乎超过了90%,不仅如此,浏览器报表中还会出现一些明显不是浏览器名称的字符,比如出现下面这样的:

strange-browser-in-google-analytics-report

 

那么这是为何呢?要弄清楚这个,我们还得追根溯源。这篇文章中数据处理部分我们曾经提到过,浏览器实际上是根据User Agent信息解析得到的。

Read More →