一、背景

可能Jefferson之前在互联网广告行业的缘故,所以对广告一向比较敏感,偶尔可以看到CPS渠道商劫持自然搜索流量,或是宽带运营商劫持强插广告的情况。然而最近的一些事情,让我对广告劫持及其应对方法更加感兴趣起来。

先是GA 持续报警页面加载时长过长(Jefferson设置的是当天平均6s以上报警),这个起初也没有在意,因为博客放在海外VPS上,连接时长相对较长,加之服务端也没做什么缓存优化,所以平均6s也不奇怪,毕竟之前也常有嘛。但是最近一两个月报警的频率越来越高,这个就真让我下决心有时间要好好优化下了。 Read More →

注意:除非特别说明,本博客讨论的Google Analytics(以下简称GA) 均是指GA 的最新版Universal Analytics(简称UA)。

会话的同义词及其含义

在GA 中,会话的同义词通常是访问,对应英文中的session 和visit。会话代表一段时间内用户与网站的一系列互动。sessions(注意是复数,多了个s)是GA 里的基础指标,用来度量用户与网站产生互动这类情况的多少,许多重要的计算指标都是基于sessions 得到的,如跳出率(bounce rate)。

现在举个例子来说明上述含义。

用户A 12:30点击广告来到着陆页,在试玩了着陆页的小游戏之后,于12:35结束游戏而离开了网站。那么在12:00 - 12:35这段时间里,用户A产生了一次会话,在这次会话中用户A与网站的互动可能既包括页面浏览行为同时也包括开始游戏、结束游戏等事件行为。

会话的过期机制

接着上边例子,如果用户A 傍晚又来到了着陆页,那么是否再会计算为一次新的会话呢?答案是肯定的。也就是说,用户A 中午那次会话在傍晚时不再持续,即已经过期。在GA 里,促使会话过期可能是以下原因: Read More →

Update:2016.03.26 发现有伪装成googlebot的client,严格筛选进入爬虫信息统计的日志,增加请求类型为GET的条件&& $2~/GET/ 。

一般来说,搜索引擎爬虫不会执行页面上的JavaScript代码,而网站分析工具 大多又是基于JavaScript代码的,这也就是说,默认情况下,网站分析工具不能记录到搜索引擎爬虫这部分的流量。但搜索引擎爬虫数据对于SEO又是非常的重要,那么如何才能拿到搜索引擎爬虫对网站的爬取数据呢?方法可能有很多,比如直接从网站服务器日志中来统计爬虫信息。本文以nginx日志为例,来说明如何从中提取出爬虫信息。 Read More →

之前有好几位做SEM的童鞋都问过我类似的问题,其大意是:在GA中怎么才能看到SEM渠道的用户使用的搜索词。我们知道,百度自2015年年中调整后,来自百度自然搜索部分的关键词几乎都获取不到了,但是付费搜索部分的关键词信息却依然在referrer中传递着。

对于百度SEM渠道的流量,我们习惯于将投放词信息作为投放链接中utm_term参数的值,这样的话关键词(keyword)维度的值就是投放词了,正是因为如此,百度SEM渠道的搜索词也就变得“无处安放”。既然百度这边的搜索词在GA中可以说只剩下付费搜索这根独苗,那么获取百度SEM渠道的搜索词也就变得十分必要了。

本文将从数据收集、配置、数据处理等层面介绍几个针对该问题的解决办法。您可以从中选择一个最适合您的解决方案。 Read More →