排在第三位的问题是数据口径不统一。如果每个部门都按照自己对业务逻辑的理解进行数据开发,会导致同一个指标具有不同的计算口径,最终的计算结果当然也不相同。这种现象在很多公司出现过,例如交易部门根据交易流水统计出的年销售额、客户服务部门根据客户消费金额统计出的年销售额、商品研发部门根据商品交易金额统计出的年销售额可能各不相同。分析原因后会发现,原始数据的清洗方式、中间数据的统计逻辑、结果数据的汇总差异都会影响最终的数据结果。
一般公司会将角、分位上的金额误差忽略不计。如果确实存在一定数量的差异,就需要进行仔细的数据核对,判断是否存在计算问题。如果检查后发现计算规则没有问题,只是各部门业务判断逻辑不一致,则一般以指标责任部门的数据为准。例如“年销售额”由交易部门提供的数据口径为准,“客户数”以客户服务部门提供的数据口径为准,“累积设计商品总数”以商品研发部门提供的数据口径为准。
但这并不是一种长久、治根的数据使用方案,这种同名不同逻辑的处理方式需要做好大量的记录存档工作,才能保障数据被合理使用。企业如需要对外分享或披露数据,也需要谨慎选择指标,防止数据口径不一致的情况发生。
以某大型电商平台公司为例,这家公司曾出现多个数据部门向卖家开放、销售多款数据产品的情况。相同名称的指标在各个产品中取值各不相同,对卖家经营造成了干扰和不良影响,电商平台的数据质量和数据真实性也遭到了质疑。该公司经自查后发现,其所售卖的多个数据产品由多个数据部门各自开发,各部门对同一名称指标有不同的理解。例如“上月交易金额”这一指标,某部门的计算逻辑为上一个自然月内所有GMV总金额,而另一个部门的计算逻辑为上一个自然月内所有GMV总金额扣除退款总金额。没有绝对的判断依据表明这两种逻辑哪个是正确的,哪个是不正确的,核心问题在于每个指标都需要有准确名称和精准定义,能向其读者解释清楚指标的加工逻辑。但在真实的使用场景中,即使每个指标都有详细解释,也不是每个读者都能完整、充分理解多个数据指标间的细微差异,反而容易造成困惑和误解。因此该公司最终取消了多款同类型的数据产品,在每个领域只保留一款官方出品的数据产品。
出现这种现象的根本原因在于企业内部缺乏对数据指标的统一规划和控制。有3条建议可以帮助企业统一数据口径,如图1-5所示。
图1-5 帮助企业统一数据口径的3条建议
1. 形成数据工作的标准流程与规范
在做指标梳理的时候,一个细小的定义区别,背后对应的可能是加工过程的很大差异,因此首先需要形成对数据指标设计的严谨工作流程和规范。
2. 完成对数据信息项的全面梳理
企业需要完成对指标、字段、参数等信息项的全面梳理,而不是一刀切。例如,“客户性别”这一信息项可以有多种计算逻辑:通过活动登记,通过注册认证,通过行为预测等。即使是同一个人,也可能是活动登记时为【女】,注册认证时为【男】,行为预测时又为【女】(在信息不出错的前提下,也会大量存在家庭多个成员使用一个会员账号的情况)。那么该怎么处理这些数据呢?性别取值时是否有优先级?是取可信度最高的注册认证信息吗?企业需要统筹规划指标体系,构建多种性别指标,例如“登记性别”“身份证性别”“预测性别”“综合性别(性别根据一定的优先级顺序来取值)”。这些指标在不同的业务场景中可以发挥不同的作用,数据部门应该尽可能多地为业务提供可选的指标信息以支撑业务发展,而不是替业务做决定。如果业务部门要做客户关怀,那么采用“身份证性别”来直接呈现客户真实信息更为合适;如果业务部门想开展个性化推荐,那么采用“预测性别”作为对客户需求信息的判断更为合适;如果业务部门想进行广告营销,那么采用“综合性别”就能最大程度覆盖客户的性别信息。
3. 授权数据部门对指标进行统一定义
企业需要授权某一数据部门或数据委员会对各项数据指标作出统一的逻辑定义,并保障数据使用方能够完全理解各个指标的含义。这种方式既可以实现各端数据信息的统一连接,消除信息孤岛,也可以防止烟囱式的指标建设,造成数据资源浪费。如果业务端想要新增一个指标,则数据部门需要在指标库中进行名称、逻辑、定义等维度上的筛查,判断是否已经存在相似指标,防止重复建设和数据口径上的冲突。