热门标签
四大数据分析陷阱amp;如何避免它们
四大数据分析陷阱amp;如何避免他们对数据的误解,甚至会误导我们**很好的人。看看数字营销四个常见的数据分析陷阱,以及一些批判性思考和避免这些陷阱的妙招。
数字营销是值得骄傲的数据驱动领域。然而,正如SEO所说,我们经常使用不完整或有问题的数据,**终得出错误的结论,我们试图证明我们的论点或量化我们的问题和机会。
在本文中,我将概述我们行业中四个常见的数据分析陷阱以及如何避免它们。
1.下结论
今年早些时候,我对品牌知名度进行了排名因子研究,并发出以下警告:
ldquo;hellip;hellip; 域名授权(或品牌搜索量或任何其他内容)与排名正相关的事实可能表明以下任何或所有情况:
链接导致网站排名良好
排名正当理由网站获取链接
大约第三个因素(如网站的声誉或年龄)导致网站获得链接和排名在同一时间。
我~
不过,我想更深入地研究这个问题,并为您提供一个分析这些框架的框架,因为还有很多框架。以石寺**近的研究为例,你可以在前10篇或兰德微博中看到这篇很好的文章,也可以讨论SEMRush**近的直达交通研究。我并不是在批评这两项研究,但我想提请大家注意我们是如何解释它们的。
首先,我们会有一点点的确认偏差——我们都太渴望大喊ldquo;相关性和因果关系之间的差异rdquo;当我们看到successful网站的关键字时,也认同当我们看到研报时,我们认为是有效的还是做同样的事情,比如链接。
第二,我们不能批判性地分析潜在的机制。选择不仅仅是因果关系或巧合。
在根据相关性得出结论之前,您必须考虑以下可能性:
确切地
逆向因果
共同原因
线性度
广泛适用性
如果这些都说不通的话,那就很公平了——它们都是行话。举个例子
我警告你不要吃奶酪,因为你可能会死在你的床单上,我必须检查它是否有以下内容:
完全巧合-有没有可能这么多的数据集进行了比较,其中一些必然是相似的 为什么,这正是Tyler Vigen所做的!是的,有可能。
相反因果关系mdashmdash;有没有可能我们走错了方向 比如,也许你的亲人,哀悼与你床单有关的死亡,吃了很多奶酪来安慰自己 这似乎不太可能,所以让我们暂且不谈吧。不,不可能。
共同因果关系——这两个因素背后有没有第三个因素 也许增加你的财富会让你更健康(这样你就不会死于营养不良),也会让你吃得更多奶酪。这似乎是合理的。是的,有可能。
线性-我们比较两种线性趋势 线性趋势是一个稳定的增长率或下降率。随时间近似线性的任何两个统计数据都具有良好的相关性。在上图中,我们的统计数据呈直线上升趋势。如果你在不同的尺度上绘制它们,它们看起来可能完全不相关,就像这样,但是因为它们都有一个稳定的速率,它们仍然是很好的相关。是的,似乎有可能。
广泛适用性-这种关系是否可能只存在于某些利基场景中,或者至少不存在于我的利基场景中 例如,奶酪,对某些人来说,这足以产生这种关联,因为很少有床单卷入死亡 是的,似乎有可能。
所以我们有四个ldquo;是rdquo;答案和五个测试之一ldquo;否rdquo;回答。
如果你的例子没有得到五分之五的检查ldquo;否rdquo;你不能说这项研究确定了奶酪消费排名因素或致命的副作用。
类似的过程应该应用于案例研究,这是另一种形式的相关性mdashmdash;你所改变的关系,以及一些好的(或坏的)。发生。例如,询问:
我是否排除了其他因素(如外部需求、季节性、竞争对手失误)
我是通过做我想做的事情来增加流量,还是同时意外地改善了其他因素
这是由于特定客户/项目的特殊情况造成的吗
2.缺失
如果我告诉你我今天的流量是每周20%,你会怎么说 恭喜你
如果去年这个时候增长了20%呢
如果我告诉你20年来一直上涨20%,直到**近呢
有趣的是,一个小环境可以完全改变这一点。这是另一个案例研究的问题和他们邪恶的倒双胞胎,交通下降分析。
如果我们真的想知道某件事是令人惊讶的,是积极的还是消极的,我们需要将它与我们的预期进行比较,然后计算出我们的预期偏差是多少ldquo;正常rdquo;。如果这听起来像是统计数据,那是因为这是统计数据——事实上,我在2015年就写过衡量变化的统计方法。
但是,如果你想偷懒,一个好的经验法则是收缩和增加前几年。如果有人向你展示可疑的放大数据,你可能需要使用少量的盐。
3相信我们的工具
你会根据你的竞争对手操纵的数字做出数百万美元的商业决策吗 好吧,你有机会。这个数字可以在谷歌分析中找到。我在其他地方对此进行了广泛讨论,但大多数分析平台都存在一些主要问题:
他们很容易操纵外部世界
他们是如何分组谈话的
他们对AD阻滞剂有多脆弱
它们在样本中的表现,它们的明显程度
例如,谷歌ApI V3可以分析大量的样本数据,如果流量超过一定量(~500000在日期范围内),您知道吗 我也没有,直到我们遇到它,同时建造蒸馏ODN。
类似的问题在很多情况下都存在ldquo;搜索分析rdquo;在工具中。我的同事Sam Nemzer为此写了一堆报告——你知道排名**高的跟踪平台是完全不同的排名 或者关键词就是谷歌(所以像SEMRush这样的工具和统计数据也不是等价的,可能没有大量的参考资料
了解我们使用的工具的优点和缺点是很重要的,这样我们至少可以知道它们何时是准确的(例如,他们的见解引导你朝着正确的方向),如果不是完全准确的话。我在这里真正可以推荐的是,他的SEO(或任何其他数字渠道)必须意味着理解你的测量平台的机制,这就是为什么所有新的开端都学习如何在蒸馏结束时分析审计。
根问题**常见的解决方案之一是合并多个数据源,但是hellip;
4.合并数据源
将有许多平台ldquo;失败(未提供)rdquo;聚合两个或多个数据:
分析
搜索控制台
关键词广告
排名跟踪
这里的问题是,首先,这些平台没有相同的定义,第二,具有讽刺意味的是,经常打破他们。
我们先来处理定义,例如mdashmdash;让我们看看带有频道的登录页:
在搜索控制台中,这些数据以单击的形式报告,当合并多个维度(如关键字和页面)或过滤器时,它们可能会受到严重和不可见的采样的攻击。
在谷歌分析中,这些报告使用的是**后一次间接点击,这意味着你的有机流量包括一系列直接会话、加班、恢复中间会话等,而这些会话不进入暗流量、广告封杀代理等。
在AdWords中,大多数报表使用AdWords单击并转换以定义不同的报表。此外,如上所述,关键字volume是捆绑的。
排名如上所述,跟踪是特定于位置且不一致的。
好吧,虽然它可能不准确,但考虑到这些限制,你至少可以得到一些有用的数据。但是,关于ldquo(未提供)rdquohellip;
大多数登录页获得的流量不止一个关键词。其中一些关键词的翻译效果可能比其他关键词更好,尤其是当它们带有品牌时,这意味着即使是****的点击模式也帮不了你。那么你怎么知道哪个关键词是有价值的呢
**好的答案是从这些关键词AdWords数据中概括出来,但您不太可能拥有关键词和web数据的所有这些组合来进行分析。本质上,报告工具非常大胆地假设给定页面的所有关键字转换都是相同的。有些人比其他人更透明。
再次强调,并不是这些工具一文不值,而是需要仔细理解它们。唯一能够可靠地填补ldquo产生的空白的方法;不可用rdquo;将花费大量的付费搜索,以获得体面的量,转换率,跳出率是估计所有关键字,即使这样,你没有固定的不一致的定义问题。
奖励:平均评分
我看得太多了。有三个问题
您是否更关心十个非常低容量的查询(10个月或更少)的损失,而不是一个高容量的查询(百万以上) 如果答案不是ldquo;是的,我绝对更关心十个低容量查询rdquo;,所以这个指标不适合你,你应该考虑一个基于点击率估计的可见性度量。
在你开始排名100个你不知道的关键词排名之前,这会让你不安吗 如果答案不是ldquo;是的,我讨厌新的关键字排名rdquo;,所以这个指标不适合你mdashmdash;因为它会降低你的平均值排名。当然,您可以使用所有非排名关键字作为位置100,正如某些工具所允许的那样,但是在2个平均排名位置的下降真的是表明每50个登录页中就有一个已被索引的**佳方式吗 另外,使用可见性度量。
你喜欢和你的竞争对手比较你的表现吗 如果答案不是ldquo;不,当然不是rdquo;,那么这个指标不适合你mdashmdash;你的竞争对手可能有更多或更少的品牌关键词或长尾排名,这将导致比较偏见。同样,使用可见性度量。
结论是你会发现这很有用。总结的主要结论是:批判性地分析相关研究和案例研究,看看你是否能将它们解释为巧合,如反向因果关系,作为联合因果关系,通过引用第三个相关因素,或生态位适用性。
不要在没有上下文的情况下看流量变化——你会预测这段时间和误差有多大
记住,我们使用的工具有局限性,看看它们如何影响它们显示的数字ldquo;这个数字是如何产生的ldquo;这是一个重要的部分,这个数字是什么意思rdquo;ldquo;
如果**终合并了来自多个工具的数据,请记住找出它们之间的关系mdashmdash;将此信息视为方向而不是精度。
http://www.ytdns.net/jianzhanzhishi/523.html 四大数据分析陷阱amp;如何避免它们