理解数据采样
在这一章讨论复杂的数据采样(抽样)似乎有些奇怪。尽管如此,这一章还是涉及到这部分内容,因为,这将影响你如何看待数据。但愿这部分内容告诉你在采样数据看起来不正确的时候,你能怎样停止数据采样。
无论网站流量有多大,Google Analytics 都会收集所有的访问者数据。例如,我知道一些使用 Google Analytics 的网站每天的流量在 10 亿以上。但是,因为,大多数 Google Analytics的报告是在运行中建立的,实时查询数据时,Google Analytics 将自动为正在生成的报告抽取数据。目的是优化数据查询,尽量减少建立报告的延迟。
你的数据是否是自动取样取决于每一个报告。最终这决定于你的报告请求的数据量——取决于你在用户界面中选择的日期范围及报告类型。目前,数据采样发生在你在一个报告中使用维度下拉菜单细分数据,并且这个细分在所选定的日期范围内所包含的数据大于500000 个访问时。
为了解释这一点,假设你正在查看收到 10000 综合浏览量的单页报告。如果在相同的时间范围内,你的网站配置文件的访问总数超过了 500000,那么,所显示的数据将是从抽样数据中计算出来的。
如图 5.22 所示,Google Analytics 在屏幕上方用一个黄色的提醒框表明是一个抽样报告,并且在抽样指标的旁边显示一个置信区间——比如+/-5%。置信区间表明包含正确统计值的可能区间。请记住,所抽取的样本越大,估计越可靠,因此,置信区间越小,反之亦然。
图 5.22 有采样数据提醒的报告
报告采样发生在配置文件级别。如果你想避免自动采样,可以使用配置文件过滤器将访问者分配到更小的配置文件中,例如,美国访问者、英国访问者等等——详见第 8 章。另外一种方法是查看更小时间范围的数据,例如,一周而不是一个月,以减少所包含的数据量。
注:你能控制从你的网站收集并发送给 Google 服务器的数据量。这将在第 7 章中的"自定义 GATC"中介绍。
本书评论