购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.1 什么是数据产品

这一节介绍最基础的概念,包括什么是数据产品、数据产品的组成部分及产品类型,做到知其然,亦知其所以然。

1.1.1 数据产品定义

数据产品是一种降低用户使用数据的门槛,并发挥或提高数据价值的产品类型,与之对应的有用户产品和商家产品等。负责设计、维护和优化数据产品的人,我们称其为“数据产品经理”。

1.1.2 数据产品组成

一个完整的数据产品通常由采集清洗、计算管理、分析展示和挖掘应用四个部分组成。

(1)采集清洗

采集指的是产品通过各种技术手段,将现实世界的信息线上化之后,再传输到企业的服务器和数据库中。根据采集源头的不同,可以分为 日志信息采集和业务库表采集 两种。前者主要是从各种联网设备中采集,有App日志、服务器日志和智能设备日志等;后者一般从企业的业务数据库中获取,如电商企业中用户的下单数据、支付数据等。为了准确采集这些内容,我们会构建一套埋点系统来进行规范和管理(具体参见第4章)。由于采集的信息一般会存在数据缺失或冗余、数据错报等情况,因此不能直接使用,需要一个预定义的清洗流程进行整理和优化。

(2)计算管理

从严格意义上说,这些经过初步采集和清洗得到的信号尚不能称为“数据”,因为此时人们并不能根据这些信号扩大自己对客观世界的认知。这就仿佛川流不息的车辆在你面前呼啸而过,但你却不知道这意味着什么。这些信号,只有根据不同的业务场景和需求汇总计算之后,才能称为“数据”。此时,你便可以知道,在刚才过去的10秒里你面前驶过了25辆车,和昨天同段时间对比略微偏高,因为今天是周五,大家下班早。

数据分为度量、指标和维度,它们随着业务的进展会逐渐膨胀,变得十分复杂。我们可以构建一套元数据管理系统来更好地管理这些数据(详见第8章)。

(3)分析展示

存放起来的这些数据,就像乐高积木一样,需要经过合适的分析思维和展示方案进行组装,才能变成漂亮的模型,发挥相应的数据价值。合适的分析模型可以大幅降低用户使用数据的门槛,更好地获取数据背后的洞察,如漏斗分析模型和留存分析等。同时,这些分析思维需要搭配一定的可视化工具才能更好地传达。

(4)挖掘应用

除了分析展示外,数据的价值还体现在与业务结合的挖掘和应用上。通用的业务场景有搜索、推荐、排序和风控四种,数据通过构建合适的策略和模型来提高这些场景的业务效率,如用户画像、反作弊模型、推荐展示策略等(第11章系统介绍了用户画像)。同时,也有基于某些特定业务场景的数据应用,如针对销售推广人员的数字化绩效系统和针对客户留存唤醒的精细化用户运营系统等。

1.1.3 数据产品类型

根据产品的使用对象,我们可以将数据产品分为三大类: 用户数据产品、商用数据产品和企业数据产品

用户数据产品一般面向普通用户提供数据查询服务,如Google推出的Google Trends,其特点是任何用户均可访问,数据经过一定程度的提炼便于使用和分析。商用数据产品则是由企业开发,为其他企业或商家等实体提供数据服务,如GrowingIO和阿里巴巴的生意参谋。而企业数据产品则是由企业自建自用,主要目的是降低员工使用数据的门槛,辅助人员作出决策和提高业务效率。1.2节将会详细讲解每一类数据产品的特性、市场情况和设计理念。

更加宽泛地来讲,我们甚至可以再分出一类叫“泛化数据产品”,特指那些看起来与数据没有太大关系,但本质上也是利用数据来优化用户使用体验和提高商业效率的互联网产品形式。举例来讲,Google通过收集互联网上所有的网页内容并分析它们的访问数据,经过一套基于PageRank的复杂算法,大幅提高用户搜索内容的精确度。同时根据用户的搜索和浏览习惯,推测他们的偏好再精准投放广告,实现商业变现。从这个角度讲,包括Google、百度在内的搜索引擎都是数据产品。无独有偶,马云在多年前就提出“阿里巴巴要做的不是GMV公司,而是数据公司”,逻辑大体类似。更甚于此的是,《人类简史》作者尤瓦尔·赫拉利(Yuval Harari)宣称:“数据将取代以往的宗教成为人类未来的信仰,数据宗教将在下一个时代征服世界。”可以看到,无论是在经济、政治还是宗教领域,大数据和数据产品在可预见的未来都将扮演越来越重要的角色,新一轮的爆发指日可待。

1.1.4 数据产品衡量

我们一般采用 准确性、及时性、全面性、易用性 四个维度来评估数据产品,排列的顺序也是其重要性的体现。

·准确性。准确性是数据产品的根本,是最重要的评价维度。如果数据不准确,一切上层工具和应用都是空中楼阁。数据的准确性可以用“数据错误频次”来简单判断,但如果涉及范围较大,还需要对指标进行分级,不同级别会有不同权重的考量。

·及时性。衡量数据准备的及时程度。这里分为实时和离线两类场景,“实时”类场景会衡量刷新频率和顺畅程度,比如能否做到分钟级甚至秒级的更新。这在双十一等公共场景下十分重要。衡量指标一般是“更新频率”及“刷新失败频次”等实时类指标。“离线”一类场景则会衡量数据在第二天指定时间点前是否就绪的情况。一般团队遇到的问题是员工上午9点后陆续上班,但数据计算量太大导致10点多了数据还没准备好。衡量指标则是“未及时就位频次”等指标。

·全面性。衡量数据覆盖的指标全面性及业务全面性。

·易用性。衡量数据产品的用户体验:一方面可以通过平台内监控各项功能的使用量(如PV、UV及使用时长)来进行量化;另一方面也需要定期进行用户访谈和问卷调研,来获得用户的使用反馈。

这四个衡量维度可以满足数据产品一些常见的衡量场景。不过因为数据产品本身的特殊性,有时候需要考虑各自权重的分布和引入新的辅助指标。数据产品的特殊性主要体现在以下三个方面。

·价值间接性。数据价值主要体现在使用方手上,而非产品本身。在某些场景下,数据能否发挥价值,只能看使用方是否依靠数据作决策,是否用数据说话。业务的增长也无法直接归因到数据身上。这不像一些强业务相关的产品,一些具体的动作能与业务指标直接挂钩。

·自上而下性。数据建设是件耗时长且很难短时间见到成效的工作,加上第一点的“价值间接性”,便决定了数据工作一般只能自上而下推动。

·行业异构性。数据链条涉及行业的每个细节,这就导致了不同行业里,数据的采集、使用、清洗和挖掘逻辑迥异。比如,互联网公司、连锁超市、现代化汽车厂三者的数据产品必然天差地别。

以上提到的这些数据产品要素会贯穿本书各个部分,建议大家在后续的阅读中,多结合这些要素进行思考,会有意想不到的收获。举例来讲,在1.1.4节“数据产品衡量”中,我们提到“准确性是数据产品的根本”,这个“根本”的重要性会体现在产品的设计流程上,会有各种工具来保证数据的准确与统一,如指标字典和数据血缘等;也会体现在人才的招聘上,如重点关注候选人对数据质量的看重程度等。 PrzGdMbneGkem9akkEWSZ0cm6+tY7vBCn7oDnU68DWt84kVXPdK3EIHBcG1uLpGQ

点击中间区域
呼出菜单
上一章
目录
下一章
×