您好,欢迎来到二三四教育网。
搜索
您的当前位置:首页谷歌分析数据抽样问题

谷歌分析数据抽样问题

来源:二三四教育网

正文

一些网站分析工具会使用抽样数据(Sampled Data)。比如,谷歌分析(Google Analytics /GA)在报表里会展示抽样数据

文章里我会解释抽样数据会给你做分析带来的问题。

数据抽样(Data Sampling)

数据抽样会产生严重的问题。

谷歌分析(Google Analytics / GA),会将数据进行抽样,在一些情况中,GA报表中展示的数据会是抽样数据。

一般场景是当一个GA 媒体资源属性(Property)所收集的数据超过了该资源属性的上限时,GA就会在其报表中显示抽样数据。

GA数据是如何被抽样的?

在以下场景中,数据会被抽样:

  • 报告中每天有50,000行以上的预汇总数据时。
  • 报告中有500,000个访问来自非汇总数据时。

当数据被抽样时,你的数据报告就不再精确了,而且GA也会向你展示如下信息,以表示该报告是以抽样数据为基准的:

"本报告以100,000访问次数为基准(占总访问次数的10%)"

GA数据抽样会导致什么问题?

举例而言,在你所选取的日期区间内,本来有1,000,000个访问。通过数据抽样,GA选取了当中的100,000个访问(假设是总访问次数的10%),把所有的数值乘以10倍,然后生成了你需要的报告。

通过数据抽样的方式,将数据汇报到平时的GA报表中后,你的数据就面临极不精准的问题。我稍后继续说明不精准的数据会带来什么样的数据分析问题。

在GA抽样数据上,如何使数据更精准?

在GA报告中,你可以选择增加抽样的样本量以提升精准性,或者降低样本量,以提升报告的生成速度。是两者二选一。

当然我们希望增加样本量,让GA基于更大的样本基数来运算,生成你的报表。

比如,GA一开始提供的标准抽样基数会比较低:

"此报告基于50,000个访问(总访问次数的5%)来计算"

你在GA帐号里手动提升了抽样基数后:

"此报告基于200,000个访问(总访问次数的20%)来计算"

GA数据抽样问题最终解决了吗?

免费版的GA,抽样问题无法完全避免,只能降低其影响。

你是可以通过GA帐号里的一个滑块开关来增加样本量,增加样本量后,GA报告的数据精准性会增加。但是,GA本来就有精度上限,你也只能把精度提升到比如20%(为最大值),所以GA报表中的数据出现的精度问题(或),抽样数据以后带来的问题,还是不能解决。

GA中的抽样数据无法解决!

抽样数据带来的问题

因为是从GA取得的是抽样数据,所以会碰到的问题包括:

  • 如果是电商业务,有可能发生的是你GA订单数据的细节跟你业务数据库里的订单数据对不上号。
  • 你很可能希望把用户数据做成用户轨迹(User Clickstream),但在建用户轨迹模型时,你会发觉当中缺数据。

使用GA的另一个麻烦问题是:你的网站分析数据其实是存放在Google的服务器上,你并没有自己保存一份完整的原始数据。以后你要做复杂的数据细分、比较、建模,前提是需要先有完整的原始数据,但是你没有保存一份。所以就别想要做复杂的细分、比较、建模了。

解决方法是:

首先,你会需要自己保存自己的网站分析数据。

小富分析 / Folks Analytics 可以彻底解决了抽样数据问题!

我们自己研发的小富分析(Folks Analytics)解决了抽样数据的问题。

  • 小富分析提供“全部”数据 – 不管是监测你的PC网站、移动端H5网站、iOS APP还是安卓APP,都能够提供“非抽样”的全部数据。比起GA要强大!
  • 你可以通过CSV表格下载你的“全部”数据。
  • 你也可以通过编程SQL语句去生成并下载你的“全部”数据。

相关阅读

假如对数据分析技术有兴趣,推荐阅读我写的书,可以免费网上阅读数据分析技术白皮书

  • 中文版:
  • 英文版:
  • 繁体版:

我的个人微信号二维码

需要联系,就请扫二维码。

Copyright © 2019- how234.cn 版权所有 赣ICP备2023008801号-2

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务