购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

3.1 数据分析前的准备工作

当我们开始尝试使用一些方法进行网站分析之前,也许还需要做一些准备工作,这将让最终得出的分析结果更加有效。或许你听说过“Garbage in, garbage out”,我们不能让之前辛苦的分析过程变成一场无用功,所以分析前的准备工作至关重要。我们需要了解数据或指标的来源类型、背景信息,对数据做初步的清洗整理,同时应该清楚地看到哪些因素可能给数据的计算和分析带来偏差。

3.1.1 数据的来源类型

网站分析的布道师Avinash Kaushik先生在他的大作“Web Analytics 2.0”中介绍了网站分析中采集和使用的数据随着网站分析的迅速发展正在不断地多样化,从之前的单一使用点击流数据到目前使用定量和定性数据相结合,让我们可以从网站分析中获得更多的见解(Insights),这也是网站分析发展到2.0阶段的主要特征。这里将网站分析中可以用到的定量和定性数据做了一个整理。

点击流数据(Clickstream)

点击流数据是网站分析最常用的数据来源,几乎所有的网站分析工具都需要点击流数据的支撑。点击流数据主要通过网站日志的形式获取得到,通过解析和处理后得到点击流模型,主要通过记录网站用户的访问、浏览和点击行为,解释“What”的问题,即用户在网站中做了什么。很多网站分析的指标都是从点击流数据中计算得到的,如访问数、页面浏览数、停留时长等。

业务运营数据(Multiple Outcomes)

网站的业务运营活动会产出多样的数据,网站内容的运营情况、商品销售情况、用户信息和交易情况等,这些数据往往来源于网站的ERP或CRM系统,存放在网站的前台数据库中。因为记录的都是产出结果数据,这些数据往往是非常有价值的,可以直接衡量网站的绩效和目标。

业务运营数据主要解释“How much”的问题,从业务运营数据中可以计算得到销售额、订单量、购买用户数等指标,另外结合点击流数据可以计算网站的最终转化率,业务运营数据和点击流数据的关联分析一直是网站分析中的难点,或者说难以做到非常准确,但如果可以较好地实现关联,可以解决数据分析中的很多问题。另外业务运营数据也存放着很多维度的信息,如内容页面的信息、商品特征信息、用户信息等。

点击流数据和业务运营数据一般都是日常统计报表的基础数据来源,这些数据会及时地采集和更新,以便日常的监控和分析。

实验测试数据(Experimentation & Testing)

实验测试数据与上面的两类日常采集数据有所不同,实验测试数据一般都是临时采集的,为了某些专题的分析,比如网站改版、用户体验的优化等。网站分析中最常见的实验测试就是A/B测试,从两个方案中比较数据表现来选择更优的方案,解决Which的问题,如免费工具Google Website Optimizer就可以做这类工作,还可以进行多参数测试(Multivariate Testing, MVT)。

一些用户体验设计师们喜欢使用的一些改进用户体验的工具,这些也可以归为实验测试的数据分析,比如网站的点击热图、鼠标轨迹图、用户操作记录捕捉,甚至用户眼动测试等。

用户调研数据(Voice of Customer)

上面的这些数据都只能揭示问题的现象,无法解释问题的原因,于是我们需要一些方式去找到Why的结果,直接询问用户无疑是最有效的。

最常见的用户调研方式是问卷调查(Survey),用户直接回答问题来解释问题的原因,但某些时候可能用户自己也说不清楚他为什么选择这个或者放弃做这个操作,于是我们需要通过焦点小组、可用性实验、卡片分类等各种测试来寻找结果。这些实验和测试同样是基于某个具体专题或问题的,并非长期持续的分析,更多的是临时性的需要。

用户调研是典型的定性分析(Qualitative Analysis),可能很多时候我们更相信定量的数据分析结果,也有可能很多人认为网站分析就应该以定量分析为主,但其实定性分析有些时候能够更加一针见血地帮助我们找到原因,而定量的数据有时候却会“骗人”,所以定性分析可以弥补定量分析某些方面的不足,两者结合才是网站分析今后的发展方向。

行业发展数据(Ecosystem)

前面的4类数据几乎都来自于网站内部,如果仅局限于网站自身的数据,很容易掉入“闭门造车”的陷阱。比如你在做移动互联网的产品,根据内部的统计数据,产品的用户数每个季度递增20%,看起来是个不错的业绩,但如果观察一下近两年移动互联网的大环境,可能移动互联网整体用户数每个季度的增速是30%,你的产品甚至没有跟上移动互联网本身的发展速度。

如图3-2所示,所在的行业是外面的蓝色大圆,代表你的产品业务的红色小圆只占据了行业的一部分,如果你的发展扩张速度无法赶上行业的发展速度,相当于你的目标市场占有率在持续下降。

图3-2 与行业发展数据对比

我们在埋头苦干的时候不要忘记抬头看看周围环境的变化,行业发展数据的分析是非常重要的,但很多公司因为资源有限往往忽视这部分数据的采集,其实很多第三方咨询分析机构会定期出一些行业的数据报告,从这些报告中发掘一些有用的行业信息,与自身的业务和数据进行比较,往往可以看到自身存在的不足。

竞争对手数据(Competitors)

与行业数据一样,对竞争对手的分析也是发现自身优劣势的最好方法,如果要赶超竞争对手,你必须保证自己比他跑得更快。国内很多公司比较注重数据的保密性,其实在国外已经有一些平台在遵循相关协议的基础上可以比较自己与竞争对手的数据。或者通过Alexa、Google Trends和百度指数等同样可以观察到一些竞争对手的数据,虽然有片面性,但也是一种比较和参考。而且网站本身为了让用户了解到一些信息也会展现一些数据,而这些数据也是分析竞争对手的一种途径。

当你能够掌握行业和竞争对手的数据时,你会对目前自己所做的事情更加有信心。

3.1.2 数据的清洗与整理

对于一个完善的数据平台而言,数据必须能够保证 完整性 (Integrity)、 一致性 (Consistency)、 准确性 (Accuracy)和 及时性 (Timeliness),这4点也是数据质量(Data Quality)的基本体现,如图3-3所示。

图3-3 数据质量的四要素

这里除了及时性是与数据采集处理和任务调度的优化相关外,其他几项都是在数据的清洗和整理时需要考虑的内容。在进行数据清洗和整理前可以先用一些统计方法对数据的质量进行验证,通常叫做数据概要(Data Profiling)或者数据审核(Data Auditing),在很多的ETL工具里包含了数据质量检查的功能。

完整性

数据完整性的问题一般体现在数据存在缺失值,比如获取了一月份的一张报表,显示以天为单位的数据,一月份应该包含31天,我们可以先验证是否有缺失的日期,可以通过统计唯一日期的个数(对日期字段去重后计数),如果唯一日期个数小于31个就说明某个日期的数据缺失;之后再验证是否有某些指标的数值缺失,最简单的方法就是寻找空的单元格,在Excel里可以使用“查找和选择”里面的“定位条件”功能,选择“空值”直接可以定位到表中的空单元格,如果在数据库或日志文件里,某些空的数据可能用“NULL”等文本代替填充。

对于这些缺失值,为了之后的统计和分析的需要,我们可以通过某些方法进行填充,常用的有均值、中位数、众数,或者根据指标的变化趋势使用回归分析进行拟合后算出预测值,如果与其他的指标存在相关性,可以结合其他的指标进行估算。

表3-1 数据缺失值填充

img

表3-1显示的是1月份某几天的网站销售情况,人均消费额由总销售额除以购买用户数计算得到,1月11日的数据总销售额缺失,进而人均销售额也无法计算得到。我们对1月11日的缺失数据进行填充,可以简单地使用11日前后两天的总销售额数据取平均值计算得到61329作为11日总销售额的数据进行填充,进而可以计算得到人均消费额为37.33;或者考虑到每天的人均消费额保持相对恒定,我们使用1月份的人均消费额均值33.00来填充11日的人均消费额,进而计算得到该日总销售额为54219。当然,两种方法都是可行的,填充的值都是预估值,没有谁对谁错,但在选择时可以结合数据的实际表现尽量选择更加符合现实的方法。

一致性

数据的一致性主要体现在3个方面。

其一是两种数据源的描述不一致,比如省份的细分数据,可能一个数据源记录的是“北京”,另外一个是“北京市”,那么两个数据源的数据合并到一起时就会有问题,我们可以通过观察省份字段的所有唯一值排序的结果,这样类似的不一致的描述就会一目了然。还有一种是数据源之间的编码不一致,如果完全使用两套编码就很难合并,但如果网站的产品编码一套使用1001、1002……另外一套使用P1001、P1002……即另外一套的编码在数字前面统一加了P字母,那么我们便可以进行统一后合并,保留或者去除P都是可行的。

其二是存在重复的记录,一般是由于数据的重复录入,如果在数据库中可以使用主键约束或者唯一约束来防止类似情况的发生,如果出现重复记录,在Excel里面可以直接用“数据”标签下的“删除重复项”来删除重复记录,也可以统计去重后的记录条数,比如表中一共有100条记录,去重后只有99条,那么肯定存在1条重复记录,使用SQL语句也可以删除重复记录。

其三是不满足既定的一致性规则,比如数据的总体和细分需要保持一致,所有商品的销售额加起来应该等于网站的总销售额,如果存在违反了这类一致性规则的数据,就需要检查底层的数据模型的设计、维表的结构、与事实表的关联是否存在问题,或者某些指标的定义和计算规则是否统一了。

准确性

数据存在异常值,一种出现在字符型的数据,比如页面名称、搜索关键词等,首先可以通过排序的方法,升序和降序都试一下,因为如果是乱码只要一排序就会现出原形,另外还可以统计字符串的长度,重点查看字符长度过短和过长的记录。另外一种数据异常出现在数值型数据,数值明显过大或过小,比如网站某个页面的访问量一天一百多亿,这种异常值一方面可以通过限定指标的取值区间进行查找,另一方面可以查看指标的数值分布情况,如果99.9%的数值都分布在1~1000,那么出现的类似几万的数值就应该格外注意了。

不满足数据规则的现象,比如网站的转化率、Bounce Rate这些指标永远不会超过100%,可以通过统计这些指标的最大值的方法查看是否存在错误的数据。另外类似访问量、页面浏览量这些指标永远是整数,可以使用数据的有效性检验的方法发现是否有非整数值的存在。

3.1.3 我们的数据准确吗

上面介绍的数据清洗和整理的过程解决了数据在技术处理层面可能存在的一些问题,但数据在经过清洗和整理后,仍然可能存在偏差,引起数据不准确的原因有很多,大部分是由于数据的获取或者指标的计算规则导致的。

也许很多人会在网站同时使用多个免费的网站分析工具,然后对比各个工具统计到的数据,会发现不同工具的统计结果之间存在差异,包括PV、UV这些最基础的指标。其实这种差异是无法避免的,不同的工具在数据采集、数据的清洗处理和某些规则细节的定义上都会存在出入,即使都使用JS页面标记,但由于第三方服务器和JS代码部署的问题还是会导致有些时候JS代码加载失败,或者某些用户的浏览器禁用了JS,导致统计结果不准确。另外对访问session的过期时间定义的差别也会导致访问数和停留时间的统计差异,Google Analytics定义的是30分钟未活动session被重置,当然其他分析工具也可以定义20分钟或者40分钟。

用户的识别

用户的识别方式直接影响网站Unique Visitors的统计,一般使用Cookie的方式,但用户禁用Cookie或者删除Cookie都会影响UV的准确性,部分网站分析工具在无法取到Cookie的时候使用IP作为用户身份的识别,但IP本身的不准确性比Cookie更高,而且无论是Cookie还是IP,代表的只能是用户上网的终端而非用户本身。所以,目前网站会有几种用户识别方式,衍生出不同的用户指标名称,比如单纯的访问用户,以Cookie来识别,一般称为访客(Visitors);当用户注册登录后就变成了网站的用户(Users),可以用注册的用户名或者用户ID进行识别;在电子商务网站,当用户购买商品之后就变成了网站的顾客(Customers),同样可以通过用户名或用户ID来识别,这里访客识别的不准确性最高,用户和顾客的统计一般是比较准确的,而且统计的是真实的用户,而非用户使用的终端设备。

停留时间

准确的停留时间很难计算得到,现在网站分析工具中访问的停留时间一般都是通过计算浏览最后一个页面和浏览第一个页面之间的时间间隔得到的,没有考虑用户在最后一个页面的停留时间。通过这种方法计算页面的停留时间时,最后一个页面的停留时间同样无法计算得到,目前某些工具正在试图使用一些其他技术弥补停留时间统计上的缺陷,但无论怎样,工具里面统计到的永远是用户停留在某个页面的时长,至于这个时间内用户到底是真的在浏览网站内容,抑或是接了个电话、签收了一份快递还是跟朋友在网上小聊了一会儿,我们都无从得知。

访问来源

在网站分析中,流量细分访问来源是非常重要的工作,通常有直接流量、搜索来源、外部网站和收费Campaign流量,但其实很多的流量来源我们没法准确地细分,这些流量大部分被归到了直接流量中,如来源于IM、Flash或者某些广告,而且页面跳转和短网址(Short URL)的使用也会混淆流量来源。通常为了区分某些重要的流量来源会使用特定的Landing Page,或者在入口页面的地址上加入指定参数,比如使用Google Analytics的UTM标签来标记广告流量。

转化率

转化率的统计问题主要来源于点击流数据和网站运营数据库数据的关联问题,用户进入访问和页面浏览的记录都存放在点击流数据中,而最终的转化产出结果,如订单或者交易记录一般都存放在数据库里,不同的数据来源之间本身就会存在不一致性,所以当两者关联计算转化率时就会导致数据的不准确,一般总体层面的转化率偏差不明显,但细分到页面或者商品时就可能存在较大的偏差。

网站分析的数据虽然存在不准确性,但一般认为这种数据的偏差是相对固定的±5%~±10%,所以当我们使用趋势分析、比较分析或者细分的方法时,仍然可以认为分析的结论是有效的,因为所有的数据误差都在同一水平线上。所以,经常有朋友谈起,当更换网站分析的工具或者对网站的数据平台进行重建时,新老系统的数据会存在较大偏差,很难向业务部门的同事解释这些偏差发生的原因,其实不必为这些数据的偏差纠结,只需要统一一套网站分析的工具或者标准就行,之后所有的指标输出和数据分析都以这套标准为基础,因为数据的不准确性始终存在,你能做的就是保证分析结果的有效性。 BVwr6rpu6saqgow45bdKUxrHqoEo77COsi2419ul3PG0Fo8X31Jiy7E+7Omw2+2q

点击中间区域
呼出菜单
上一章
目录
下一章
×