Google Analytics的抽样机制

在Google Analytics情况下,很多时候数据量一大,之前和之后的数据对不上,或者两个分隔时间段的数据加和不等于整个时间段,那么就要注意了,因为你的数据被抽样了。对此我的理解是:1、免费的就别想占用太多资源了,凑合用吧;2、GA是叫谷歌分析,那么分析就不用对数字要求那么地精确,看一个准确的趋势即可;3、数据大了计算起来会比较慢,这样一来再补影响数据准确性的前提下可以提高加载速度。那么GA到底是怎么样一个抽样机制呢?我们来看一下。

访次的抽样

首先,当你所要看的报表请求包含50万visits数据的时候,GA就会对相应的结果进行抽样。区别你的数据是否抽样很简单,在报表界面的右上方会出现一个小方块,旁边还有清晰的字写明此次抽样的比例和具体的visits数,如下图:

[caption id=”attachment_212” align=”aligncenter” width=”400”]GA1 Google Analytics 抽样1[/caption]

点击右方的小方块则可以调整当前报表的采样率,如下图:

[caption id=”attachment_213” align=”aligncenter” width=”400”]Google Analytics 抽样1 Google Analytics 抽样2[/caption]

点击滑动中间的小滑块可以让取样数据在1000-50W之间变化,默认情况下是25万。如果你选择的是一个时间段内的数据,那么他抽样时会根据每天的visits比例进行抽样,确保在时间维度上能保持高度的一致性。

需要注意的是,对于访次(visits)的抽样是发生在媒体资源(Property)下而不是配置文件(Profile)下的,GA会以天位单位处理这些为抽样的数据以便生成相应的为抽样的报告。对于标准报告(直接点击面板得到的,例如流量来源等)来说,一般是不会抽样的,但是对于而外的请求比如高级细分、自定义报告、次级维度来说,GA就会先判定当前的数据是否可以直接生成报表,如果数据量过大,那么再返回抽样后的数据报表。

维度的汇总-标准

当一天内一个表格中的数据超过 75,000 行时,GA就会对数据进行汇总。换言之,如果指定表格中的值超过 75,000 个,GA会采用前面的 N 个值,并为剩下的值创建标记为“(other)”的汇总条目。

**维度的汇总-**多日期

前面所说,若当天一个表格数据超过75,000行时GA就会进行汇总,剩下的部分全部计为other,那如果你选择的时间段为N天的时候,系统每天最多能读取100W/N行,也就是说,如果我选取的是30天,那么每天最多能读取3.3W行。

多渠道路径报告

多渠道路径报告以 100 万次转化为基础。如果指定日期范围内的转化次数超过 100 万,Google Analytics(分析)会在配置文件一级选择最多 100 万次转化的样本。请注意,对于多渠道路径报告,采样在配置文件(而非网络媒体资源)一级进行。

另外,唯一身份转化路径数的上限为每天 20 万。所有其他转化路径将汇总到“(other)”类别。

临时报告的汇总

当出现现有汇总数据(如预汇总的表格)无法满足用户查询时,Google Analytics(分析)就会返回到原始会话数据计算所请求的信息。在这种情况下,Google Analytics(分析)会在查询的样本集中传回最多 100 万个唯一身份维度值。

用户流可视化报告

用户流可视化报告(包括“访问者流”和“目标流”报告)的生成基础为指定日期范围内的** 10 万次访问**。与标准报告会话采样类似,10 万次访问的采样也是在网络媒体资源一级进行。因此,应用配置文件过滤器或高级细分可以进一步减少样本集规模。

因为这个原因,用户流可视化报告(包括进入率、退出率和转化率)的结果可能会与标准的内容报告和转化报告(基于另外一个样本集)中的有所不同。所以在真正进行计算的时候,切勿直接以流可视化中的数据为准,而应采用标准报告中的数据。

总结

GA还是相当博大精深的,许多计算方式也不是面板上所表示的那么简单。但是如果能更深层次的了解,那么对许多数据的“异常”也能很快得得到合理的解释。