数据采集的目的是获得有价值的数据。那么怎样才能避免获得混乱的、不可用的或者过于冗余的数据呢?这就必须理顺诉求者、分析者和采集者三者之间的关系。分析者应该与诉求者充分沟通,理解诉求者的分析目的,然后根据这个目的设计出合适的采集方案,并交给采集者实施。三者的关系如图3-2所示。
图3-2
那么,诉求者、分析者和采集者各自有什么特点呢?
诉求者:数据分析的发起人,也是数据结果的诉求者,可以是领导、同事,或者客户等其他诉求者,不同的诉求者可能有不同的分析要求。不管诉求者提出什么问题,分析者都可以从下面4个问题来进行思考,如表3-1所示。
表3-1
从表中可以看出,与诉求者充分进行沟通是非常必要的。沟通得越仔细,获得的信息就越多,这样就能避免各种误解与错误,降低做无用功的可能性。只要与诉求者沟通时提出上述4个问题并获得了明确的答案,那么分析的内容和框架就基本可以确定了。
有时候诉求者也是数据报告者,这时要问清楚报告的对象是谁。这个非常关键,关系到分析报告的内容,有些内容要提纲挈领,有些数据就要细致到末端。例如部长给总经理报告销售数据,数据分析可能涉及部门级、科室级、员工级3个层级,那么报告内容最多到科室级,因为太细节的数据总经理一般也不会去关注。又比如,做质量索赔分析,整车级、总成级、零部件级,一般情况下汇报前两级,但是如果零部件级某一类数据明显异常,那么需要展开分析,因为总经理可能会问到这些问题。因此,关于数据分析时的分析深度和精细度还需要在工作中慢慢领悟。
上海某数据分析公司接到一笔业务,某厂希望对过去5年的产品销售情况做一个整体的分析。由于业务量不是很大,数据公司派出了一个入行一年多的员工小A与厂方沟通。经验不足的小A对厂方的需求摸得不是很清楚,同时,厂方负责接洽的人员也并不是专业人士,提的需求也不是很具体,这就导致了分析过程一波三折。
当小A第一次交付分析结果给厂方时,厂方认为没有分析到需要的趋势,希望分析公司这边添加相应的分析结果;当第二次交付时,厂方又说既然给出了趋势预测,怎么没有相应的对策?于是小A进行第三次分析,最终这一版的分析结果才让厂方满意。
事后,小A的领导批评了他,因为小A没有准确摸清厂方需求,导致一个小小的报告竟然两次返工,希望他以后遇到不会做的就请示领导或向老员工求教。小A认识到自己的不足,也接受批评。此后,小A凡是遇到不会、不懂的问题,都虚心地向老员工请教,很快他就掌握了摸清分析需求的技巧。
分析者:分析数据的人,要对数据进行处理、分析、得出结论,并给出建议。分析者要与诉求者和采集者充分沟通,但分析者主要的工作是考虑如何正确地进行分析,并将分析结果以合适的形式进行展示,具体来说包括以下几个方面,如表3-2所示。
表3-2
这几个方面的工作占分析者工作总量的百分之七八十,是非常重要的部分,也是最具有技术含量的部分,分析者的报告是否能够得到认可,就要看这部分工作的质量如何。
采集者:为分析者提供数据的机构或人。采集者可以是信息管理系统的开发机构或使用机构,也可以是数据录入或编辑人员。采集者的主要工作是理解分析的需求,按照分析者的要求采集相应的数据。采集者在采集数据时,要考虑数据是否存在、是否完整,以及是否缺漏、是否规范等问题,具体如表3-3所示。
表3-3
站在分析者的角度,在委托采集者采集数据时,最方便的方法是制作一个采集模板,让采集者将数据输入模板中,并让采集者对模板中的数据的完整性、正确性等进行检查,然后再提交给分析者,这样可以大幅度地减少分析者对数据进行规范化的工作量。
高级的数据分析师建好模型,等采集者提供数据后,只需要把数据粘贴到模型中,整个分析过程就会自动完成。笔者在《Excel图表应用大全(高级卷)》中详细介绍了建模和制作数据分析系统的方法,感兴趣的读者可以去研究一下。
今年1月,公司新来的王经理要对库存商品进行大盘点,需要库管员老马提供相应的信息。由于王经理计划彻底盘点,因此需要的数据也非常详细。会议上,老马记录了好几页纸,总算觉得自己弄清楚了王经理的要求。
大家都知道,库存管理面临的主要是产品入库、出库、留存、报废等情况,数据看似简单,逻辑也不复杂,但是整理起来挺费时间。老马花了3天时间,按照会议记录制作了一个长长的Excel表格,将各项数据输入表格中,经过一番复杂的核算,总算完成了表格。王经理看到表格后,认为起码有10多项数据不符合要求,于是老马拿出会议记录与王经理核对。二人沟通了半天,在关于去年入库数据的计算上始终无法达成共识。最后,王经理说:“不如这样,我先做一个表格模板,你只管按照模板填写数据,这样的话,我们就不用花精力去弄清楚数据之间的关系,你只对数据的准确性和标准化负责即可。”老马很快就提供了数据,王经理通过逻辑关系构建模型,轻松地找出了入库数据不准确的原因。这就是使用模板的效率。