本节笔者会举6个不同的案例,读者可能会有点疑惑,觉得这些案例跟之前听说的不太一样,但别犹豫,欢迎进入数据产品的世界。
案例1:数据埋点管理
埋点对于每个C端的产品经理、运营、数据分析师来说都不陌生。它的作用就类似于给App/H5页面的某些重点模块、功能做一个 符合规范的独立命名 ,以便后续能够通过这个命名 快速、精准地找到相应的模块和功能并开展数据统计分析。
举个例子,假如拿起手机打开微信,点击底部的“发现”按钮然后再点击“朋友圈”按钮,微信通过事先的埋点能够记录点击按钮的用户和时间,进而可以统计每天通过此路径刷朋友圈的人数和次数。“朋友圈”按钮,可以命名为click_discover_moments。这只是一个埋点事件的命名,还有埋点事件中要上报的属性名和属性值也需要命名,这里就先不作过多展开了。
那么问题来了,随着时间的推移,App上的界面和功能按钮逐渐增多;产品和运营分析也越来越精细化,因此埋点也越来越多。埋点多也带来一些问题。例如,这些命名记录在哪里?还有,埋点命名完成之后需要工程师开发,开发完成之后如何验证?直接在测试环境进行手动点击,然后从后端数据库里看数据上报记录吗?这个方法效率有点低、门槛有点高,而且又都在工程师内部循环,对产品和运营来说不透明,万一上线之后发现没埋上或者没埋对,想要分析的数据无法及时获取,谁来负责?
基于以上问题,一个相对成熟的团队会考虑开发埋点管理平台,产品化地解决埋点的管理、验收等核心问题。这类平台一般都是给企业内部人员使用,为了避免敏感信息的泄露,用线框图简单示意下这类平台的核心功能界面。如图1-2所示,这类平台一般会提供一个埋点管理界面,可以在一些界面上创建新的埋点。同时还支持产品、运营等非技术同学界面化、自动化地验证埋点是否开发正确,如图1-3所示。
图1-2
图1-3
当然一个相对完整的埋点平台绝不仅限于上述的功能界面,这里只是做个简单的示意。案例中的管理平台只针对手动埋点,还有一种自动埋点管理平台,其管理方式会有所差异,这里也不详细展开了。
总之,本章展示了一个数据产品,虽然它并没有分析数据,但它确实服务于 企业内部用户 ,可以 降低数据获取 环节的 沟通成本并提升效率。
案例2:统一接入平台
经营一个服装品牌,需要建立自己的销售渠道,可以是线上,如天猫店铺、京东店铺、微信小程序商城等,也可以是线下,如商场里的门店。通过销售渠道,能收集到用户的很多行为数据,比如,都有谁访问过店铺、浏览了哪些衣服、把哪些衣服放进了购物车、最终下单并成交了哪些衣服、成交的金额是多少、后续还有没有再返回店铺购买;你也可能会花钱投广告,尤其是在线上的渠道,那么就能收集到很多转化数据,比如哪些人浏览了广告、哪些人点击了广告、哪些人通过广告下单买了衣服。
上面提到的这些数据,包括售卖的商品,都是资产。通过分析这些数据,能更好地了解目标受众的购买习惯,优化广告投放的效果。但很多时候仅靠这些数据闭门造车是不够的,因为这些数据还略显单薄,首先它们都是零散的,同一个用户分别逛天猫和京东的数据不会被合并;其次它们都是残缺的,只能知道有不同ID编号的人来看过、买过衣服,但并不知道这些人除了在店铺里的购物行为以外,他们本身是什么样的人、有什么别的爱好。
为了让这些资产不再单薄、发挥更大的作用,需要把资产脱敏后提供给某家平台型互联网公司,如百度、阿里巴巴、腾讯、字节跳动等,因为这样才能让你的用户id与这些公司的用户id匹配关联,这样才能获得用户数据,如最近搜索过什么、买过别的什么东西、都跟哪些人关系密切、都爱看什么内容。甚至更进一步,推测出用户是什么性别、年龄、所处城市、学历、收入水平、受教育水平、婚姻状态等。
在将数据资产交给这些平台型互联网公司,并希望这些数据后续能够在这家公司的不同业务场景中发挥不同价值时(比如,广告归因、商品的上架售卖、用户行为的分析等),就需要一个可见的、统一的平台,能方便共享并管理这些资产。
具体来说,不用针对每个应用场景单独把数据资产接入一次,最好数据一次接入就能多次使用;你也希望能看到,到底都提供了哪些数据资产给到这家公司;你还希望能做统一的授权,快捷地配置数据资产的应用去向;你肯定还希望知道你拿出来的这些数据资产到底都发挥了什么价值。
为了解决这些问题,平台型互联网公司一般都会开发一个统一接入平台。它会有数据接入服务,具体的流程如图1-4~图1-6所示。同时提供的功能还包括资产的盘点、授权、分发和价值评估。如图1-7~图1-10所示。
图1-4
图1-5
图1-6
图1-7
图1-8
图1-9
图1-10
总之,这款数据产品的数据更多,也更显性化,服务的对象也开始从企业内部转为 外部的企业级用户 ,并通过将 数据资产的接入、管理 可视化,提升企业级用户数据资产的 使用效率。
案例3:数据处理分析
作为一名数据工程师、数据分析师或者算法工程师,在处理PB级的数据以供后续统计分析、训练算法模型时,要面对的问题可真不少。1PB=1024TB=1 048 576GB,量变就会产生质变,原本很多单机可以操作的流程,现在不得不依托于分布式计算处理,因此会涉及很多大数据底层、工程层面的烦琐工作。非常耗费时间且性价比较低。
海量数据还会造成数据工作流程割裂的问题,因为大部分数据分析师熟悉的是处理业务问题、应用问题的代码语言(比如Python、R、SQL)而非大数据工程层面的代码语言(如Java),面对这么大量的数据分析,就不得不把原本完整的数据流程分割成多个环节,首先数据工程师完成数据引入和清洗,再交给数据分析师完成数据分析。而一旦出现上下游多环节分工协作,效率就会降低;同时因为沟通不充分带来的信息偏差也出现,直接影响最终产出效果。
为了解决上述问题,国内外有一批一站式大数据处理分析平台应运而生,其中不乏很多独角兽公司(估值在10亿美元以上),如Databricks和Snowflake。
接下来,我们将以Databricks为例展开讨论。
如图1-11所示,Databricks的数据平台使得数据的获取和管理流程化、可视化、自动化,它既能处理结构化数据,也能处理半结构化数据甚至非结构化数据。
图1-11
数据平台凭借相比传统云数据仓库性能高出多倍的Databricks SQL,能够帮助数据分析师或数据科学家获得更多的数据洞察,如图1-12所示。
图1-12
基于上述一体化的数据获取流程和数据仓库方案,平台进一步整合在线机器学习流程,覆盖从特征工程到模型结果产出的所有环节,如图1-13所示。
图1-13
数据平台可以在云端进行数据的权限管控和授权分享,如图1-14所示。
图1-14
Databricks的数据平台专门服务于 企业内外的数据从业者 ,能够极大地 简化大数据获取、处理、分析流程 ,更 高效地产出分析结果。
案例4:智能广告营销
假如一个品牌广告主考虑在网上投放广告,那么有个绕不过去的问题——投放的广告是否划算?对于某些形式的广告来说,这个问题很好回答,比如,一些点击跳转到购物页面且可以直接下单的广告。广告主投入100元进行广告宣传,到底转化了多少消费者购买商品、这些人买了价值多少钱的商品?如果收入明显高于100元,就是划算的;要是低于100元,则需要好好优化广告。
但还有一种形式的广告,长期以来就很难度量,因为这种广告并不是以直接带来销售转化为目的,而是希望能够在消费者心目中构建起良好的品牌形象。可别觉得品牌形象这种东西没意义,回想下《盗梦空间》,把一个想法自然地植入人的大脑,他就能做出巨大的改变。
针对后一种形式的广告,不仅效果难以度量,还有一些前置性的问题。比如, 该在什么时机、给哪些用户、讲什么样的故事 ,才能达到目标呢?这些问题原本可能都要靠广告创意策划的头脑风暴、灵光乍现,但随着互联网平台能收集到的数据越来越多,就可以用数据去讲故事了。
这类平台包括字节跳动的巨量云图、阿里巴巴的品牌数字银行、京东的数坊等,下面以字节跳动的巨量云图的功能介绍示意图来举例说明。
平台内嵌了一种对人群进行通用划分的功能,支持自定义通过标签组合圈选人群进行分析和投放,如图1-15~图1-18所示。
图1-15
图1-16
图1-17
图1-18
如图1-18所示的商品,平台支持对品类售卖趋势的预测和单品表现的分析,如图1-19和图1-20所示。
图1-19
图1-20
图1-20所示是针对内容的分析,平台支持话题、素材和账号的情况分析,如图1-21和图1-22所示。
图1-21
图1-22
图1-22所示为最后对整体广告投放效果的评估,平台也有全面量化的度量,如图1-23~图1-26所示。
图1-23
图1-24
图1-25
图1-26
总结一下,这类平台对数据的分析和应用更复杂更智能。在营销领域的 数据分析和应用环节 ,它能帮助 外部企业级的用户 (尤其是品牌广告主),在广告投放前提供决策,在投放中提供分析,在投放后给出度量,并能获得广告主 更多的投放消耗 、为开发该平台的企业 带来更多收入。
案例5:数据运营分析
最近几年自媒体成为越来越多人的副业选择,大家纷纷进军小红书、抖音、公众号等平台。但大部分人兴致满满地发布几条内容之后,发现读者寥寥无几,更别说点赞打赏和广告商单。于是很多人开始急于求成,在各种群里打听技巧,甚至开始付费拜师学艺如何经营副业,但往往是自己没赚到钱,反而为教授自媒体技能的老师提供了可观的利润。
其实平台方通常会配备一套数据产品,帮助用户了解自己的水平,发现自己的问题,进而提升自己。这些数据产品往往都会提供丰富的运营数据,例如,用户发的内容有多少人看、这些人都是什么样的人、用户的内容在同类内容中表现得如何。
比如,小红书平台就提供了对账号、笔记、粉丝的分析,如图1-27~图1-30所示。
图1-27
图1-28
图1-29
图1-30
总之,这类数据产品已经很接近用户的认知。它是 直接服务于 C 端普通用户 的,在 数据分析应用环节 能够帮助大家更好地 了解自身情况、优化运营效果。 在后续章节中会对该数据产品进行详细的研究分析,感兴趣的读者可以耐心读下去。
案例6:信息收集决策
在面试一家不太知名的公司时,肯定希望了解清楚这家公司是否靠谱。
于是这么一类数据产品应运而生。它本身不生产数据,它只是数据的搬运工;它对全国企业信用信息公示系统、中国裁判文书网、中国执行信息公开网等公开的企业信息进行抓取和加工处理,并按照一定形式展示在界面上,从而为C端用户及企业级用户输出付费的数据服务。
这类数据产品类似于国内的企查查、天眼查等,企查查的界面如图1-31、图1-32所示。
图1-31
图1-32
可见,这类数据产品的数据是非结构化的,它 既能服务 C 端普通用户,也能服务企业级用户 。在 数据加工处理环节 ,通过自动化、产品化的聚合海量数据,它既能 节省用户 全网搜索查询整理的 时间 ,也能为用户 决策提供数据辅助。