热门标签
四个数据分析陷阱amp;如何避免它们
四个数据分析陷阱amp;如何避免他们对数据的误解,甚至会误导我们**好的人。看看数字营销四个常见的数据分析陷阱,以及一些批判性思考和避免这些陷阱的尖锐提示。
数字营销是一个引以为傲的数据驱动领域。然而,正如SEO,我们经常处理这样不完整或有问题的数据,**终得出错误的结论,我们试图证明我们的论点或量化我们的问题和机会。
在本文中,我将概述我们行业中的四个常见数据分析陷阱以及如何避免这些缺陷。
1.跳转得出结论
今年早些时候,我对品牌知名度进行了排名因子研究,并发布了以下警告:
ldquo;ldquo;(0.01)hellip);hellip; 域名管理机构(或品牌搜索卷或其他任何内容)与排名呈正相关,这一事实可能表明以下任何或全部:
链接引线至网站排名良好
排名良好原因网站获取链接
大约有第三个因素(例如网站的声誉或年龄)会导致网站同时获得链接排名。
我~
但是,我想更深入地研究这个问题,并给您一个框架来分析这些框架,因为仍然有很多。以石庙**近的研究为例,您可以在前10或兰德微博中看到这篇很好文章,或讨论SEMRush近期的直交研究。很清楚,我并不是批评这两个研究,但我想提请大家注意我们如何解读它们。
首先,我们会有点确认偏见——我们都太渴望大声喊叫ldquo;相关性与因果关系的差异rdquo;当我们看到成功网站关键字时,也同意当我们看到研究时,我们认为它是有效的,或者做同样的事情,比如链接。
其次,我们不能批判地分析其内在机制。选择不仅仅是因果关系或巧合。
在根据相关性得出结论之前,必须考虑以下可能性:
确切地
逆向因果
共同原因
线性度
广泛适用性
如果这些都没有道理,那就够公平了——他们是行话。举个例子
我警告你不要吃奶酪,因为你可能会死在床单上,我必须检查它是否有以下内容:
完全符合——是否可能将如此多的数据集进行比较,其中一些数据集必然相似 为什么,这正是Tyler Vigen所做的!是的,有可能。
相反因果关系mdashmdash;我们走错方向有可能吗 比如,也许你的爱人,哀悼与床单有关的死亡,吃很多奶酪来安慰自己 看来不太可能,让我们过去。不,不可能。
共同因果关系——这两个因素背后是否可能有第三个因素 也许增加财富会使你更健康(这样你不会死于营养不良),也会导致你吃得更多奶酪。这似乎很合理。是的,有可能。
线性-我们比较两种线性趋势 线性趋势是一个稳定的增长率或下降率。随时间近似线性的任何两个统计数据都具有良好的相关性。在上图中,我们的统计数据呈直线上升趋势。如果你在不同的尺度上绘制它们,它们看起来可能完全不相关,就像这样,但是因为它们都有一个稳定的速率,它们仍然是很好的相关。是的,似乎有可能。
广泛适用性-这种关系是否可能只存在于某些利基场景中,或者至少不存在于我的利基场景中 例如,奶酪,对某些人来说,这足以产生这种关联,因为很少有床单卷入死亡 是的,似乎有可能。
所以我们有四个ldquo;是rdquo;答案和五个测试之一ldquo;否rdquo;回答。
如果你的例子没有得到五分之五的检查ldquo;否rdquo;你不能说这项研究确定了奶酪消费排名因素或致命的副作用。
类似的过程应该应用于案例研究,这是另一种形式的相关性mdashmdash;你所改变的关系,以及一些好的(或坏的)。发生。例如,询问:
我是否排除了其他因素(如外部需求、季节性、竞争对手失误)
我是通过做我想做的事情来增加流量,还是同时意外地改善了其他因素
这是由于特定客户/项目的特殊情况造成的吗
2.缺失
如果我告诉你我今天的流量是每周20%,你会怎么说 恭喜你
如果去年这个时候增长了20%呢
如果我告诉你20年来一直上涨20%,直到**近呢
有趣的是,一个小环境可以完全改变这一点。这是另一个案例研究的问题和他们邪恶的倒双胞胎,交通下降分析。
如果我们真的想知道某件事是令人惊讶的,是积极的还是消极的,我们需要将它与我们的预期进行比较,然后计算出我们的预期偏差是多少ldquo;正常rdquo;。如果这听起来像是统计数据,那是因为这是统计数据——事实上,我在2015年就写过衡量变化的统计方法。
但是,如果你想偷懒,一个好的经验法则是收缩和增加前几年。如果有人向你展示可疑的放大数据,你可能需要使用少量的盐。
3相信我们的工具
你会根据你的竞争对手操纵的数字做出数百万美元的商业决策吗 好吧,你有机会。这个数字可以在谷歌分析中找到。我在其他地方对此进行了广泛讨论,但大多数分析平台都存在一些主要问题:
他们很容易操纵外部世界
他们是如何分组谈话的
他们对AD阻滞剂有多脆弱
它们在样本中的表现,它们的明显程度
例如,您知道谷歌ApI V3可以分析大量的样本数据,并告诉您,如果流量超过某个数量(日期范围内的~500000),则同时采样数据吗 我也没有,直到我们遇到它,同时建造蒸馏ODN。
类似的问题存在于许多ldquo;搜索分析rdquo;在工具中。我的同事Sam Nemzer为此写了一堆报告——你知道排名**高的跟踪平台是完全不同的排名 或者,关键词就是谷歌(所以像SEMRush这样的工具和统计数据是不等价的,肯定有很多参考资料
了解我们使用的工具的优点和缺点是很重要的,这样我们至少可以知道它们是什么时候准确定位的(比如他们的见解会指引你正确的方向),即使不是完全准确。我在这里真正可以推荐的是,他出现在SEO(或任何其他数字渠道)一定意味着理解你的测量平台上的机制,这就是为什么所有新员工都开始学习如何在蒸馏结束时分析审计。
根问题**常见的解决方案之一是合并多个数据源,但是hellip;
4.合并数据源
有许多平台可供选择ldquo;失败(未提供)rdquo;收集两个或多个数据:
分析
搜索控制台
关键词广告
排名跟踪
这里的问题是,**,这些平台没有相同的定义,第二,讽刺的是,它们经常被分解。
让我们看看定义,例如mdashmdash;我们来看一个带有频道的登录页:
在搜索控制台中,数据以单击方式报告,当合并多个维度(如关键字和页面)或筛选器时,可能会受到严重的、不可见的采样攻击。
在谷歌分析中,这些报告使用的是**后一次非直接点击,这意味着你的有机流量包括一系列的直接会话、超时、中间会话恢复等,这些都不是暗中流量、广告拦截器等。
在AdWords中,大多数报表使用AdWords单击并转换以定义不同的。另外,如上所述,关键字volume是捆绑的。
排名如上所述,跟踪是特定于位置且不一致的。
好吧,虽然它可能不准确,但考虑到这些限制,你至少可以得到一些对定位有用的数据。但是,关于ldquo(未提供)rdquohellip;
大多数登录页获得的流量不止一个关键词。其中一些关键字可能比其他关键字转换得更好,特别是当它们被品牌化时,这意味着即使是****的点击率模型也帮不了你。那么你怎么知道哪个关键词是有价值的呢
**好的答案是从这些关键词AdWords数据中总结出来,但您不太可能将这些关键词数据和web数据分析结合起来。基本上,报告工具给出了一个非常大胆的假设,即给定页面到所有关键字的转换是相同的。有些人比其他人更透明。
再次强调,并不是说这些工具一文不值,而是需要仔细理解它们。唯一的办法是可靠地填补空白ldquo;未提供rdquo;即使没有固定的不一致性定义问题,也要花费大量的付费搜索来获得合适的搜索量转换率和所有关键字的跳出率估计值。
奖金:一般
我经常看到它。三个问题:
您是否更关心丢失排名十个非常低的卷查询(10个月或更少的搜索)而不是高容量查询(百万以上) 如果答案不是ldquo;是的,我更关心十个低容量查询rdquo;,所以这个度量不适合你。您应该考虑基于点击率估计的可见性度量。
当你在没有排名之前开始排名100个关键词时,它会让你不开心吗 如果答案不是ldquo;是的,我讨厌排名rdquo新关键字;,那么该指示器不适合您mdashmdash;因为它会降低你的平均值排名。当然,您可以将所有非排名关键字作为位置100,正如某些工具允许的那样,但是2个平均排名位置的下降是否真的是表示您的登录页中1/50已索引的**佳方式 同样,使用可见性度量。
你想把你的表现和你的竞争对手比较吗 如果答案不是ldquo;不,当然不是rdquo;,那么该指示器不适合您mdashmdash;您的竞争对手可能有更多或更少的品牌关键词或长尾排名,这将导致比较的偏差。同样,使用可见性度量。
希望你能找到这个有用的。主要结论:通过对相关和案例研究进行批判性分析,以期通过引用第三个相关因素或生态位适用性来解释它们是否可以解释为巧合,如反向因果关系,作为联合因果关系。
不要不看上下文就看流量变化——你会预测周期,以及有多少错误
请记住,我们使用的工具有局限性,并研究它们如何影响它们显示的数字ldquo;这个数字是如何形成的ldquo;这是一个重要的部分。这个数字是什么意思rdquo;(0ldquo);
如果**终合并了来自多个工具的数据,请记住找出它们之间的关系mdashmdash;将此信息视为方向性而不是精确性。
http://www.ytdns.net/jianzhanzhishi/1241.html 四个数据分析陷阱amp;如何避免它们