在出版了《零基础学机器学习》并开设了极客时间专栏课程“零基础实战机器学习”之后,我结识了不少做数据分析、数据运营的新朋友,也常和大家一起探讨数据科学的落地现状。
我发现大家对数据科学的学习和实践充满热情,但是,在投入大量的时间和精力学习新技能的同时,大家也存在着诸多疑惑。
讨论较多的问题有这么几个。
——我正在数据分析入门阶段,学了Python,学了数据分析工具,学了数据可视化。书中的代码都看得明白,程序也会写了。但是,数据来了,业务需求来了,我还是不知道怎样去做。怎么办?
——我想知道资深数据分析师的成长路径是什么样子的。有那么多工具要学,Excel、统计学和数学、Python/R语言、SQL、Tableau、Power BI这些都要掌握吗?要掌握到什么程度才算专家?
——作为数据分析师,我该如何学习机器学习,掌握到什么程度才算合适呢?机器学习的相关数学公式太多,资料太难,看不懂怎么办?好不容易弄懂了一些机器学习算法,却找不到场景使用。机器学习是不是传说中的“屠龙之技”啊?
带着这些问题,我开始了本书的写作。我的第一个小目标就是要写一本将 技术联系实际、让工具全面落地的场景化实际操作指南。
我感觉仅学数据分析工具本身,如Python“三剑客”(Pandas、NumPy和Matplotlib)的语法(如数据挖掘和机器学习的各种算法),学习效果其实很一般,学习过程也味同嚼蜡。这是纯知识导向性学习的明显弊端。
那么,怎么学才能够了解数据的本质和内涵,才能够把学到的知识真正落地,才能够更有效地把工具应用到业务场景之中?带着这些疑问,我发现了数据分析的学习和实战过程中的一个大秘密: 数据分析的学习一定要结合业务场景,要在场景中实战,这样才能够把工具的价值最大化,才能够真正理解知识、理解数据的内涵,然后学会举一反三。
没有真正做到工具、知识与应用的结合,似乎就是学习者们遇见诸多问题的原因,而在业务实战的具体场景中边做边学应该就是解决这些问题的方法。
那么,疑惑再度出现,对于一个新手,或者运营经验并不丰富的数据分析师来说,他们没有见过那么多的业务场景,也就不可能边做边学,这个问题又该怎么解决呢?
没关系,这也是我的痛点,我也力图将这一痛点完全解决掉。在这本书中,我会把一些真实的业务场景展示出来。我会从用户故事和具体问题出发,手把手地带着大家学习,从问题的出现到理论的分析,再到工具的介绍和使用,直至问题的解决,把知识扎实地落地。在这个过程中,强调理论、工具和实战场景的结合,我将用简单的语言和示例讲解高级又有用的技巧。
除了想奉献给读者一本实用、“硬核”的数据分析和数据运营的技术参考书之外,我还有第二个小目标,就是希望这是一本非常有趣的数据分析参考书。
王小波说过:“每一本书都应该有趣。”可是,现实世界的真实情况是大家在学习技术时感觉太枯燥了,读书也太累了。所以,我真心希望能够有一本书带着大家一起快乐地“玩”数据。
而且这个快乐学习的小目标与我的“ 在场景实战中学工具、学技术 ”理念完全不矛盾。只学编程语言和数据分析工具难免枯燥,但是结合了业务场景和用户故事,大家就能快乐地学习了。
为什么这么说呢?因为通过数据分析能够从数据中挖掘出价值,能够把这一价值用漂亮的图表呈现出来,能够看到自己的建议驱动了运营的增长,还能看到数据中隐含的“秘密”,从而给公司业务带来巨大的增量。
数据带来的好处实实在在,能看得见。
这本书中没有什么深奥的东西,全都是一些大家能够读懂的用户故事、实战案例和Python工具的使用方法。有了它们,数据不再是简单的数据,而是你的工具,怎么使用它,随你。
现在一起来看看,表面上普普通通的数据,在普普通通的运营场景中,我们可以“玩”出哪些“花样”。
■ 在这里,我们用Python对用户进行简单画像,发现一张眼影盘促销海报错发给了不适合它的受众。
■ 在这里,我们通过收集用户的行为信息,利用RFM分析判断用户的价值高低,并且预估一个用户会在该产品上花费多少钱。
■ 在这里,我们把各个营销渠道排列组合、动态配置,看看是抖音、哔哩哔哩(B站)还是小红书更适合推广自己的产品。
■ 在这里,我们使用漏斗模型聚焦转化率,看看哪一个环节才是用户决定使用我们产品的关键。
■ 在这里,我们分析用户留存和流失的相关因子,让用户的留存曲线一目了然,通过该曲线可以发现会员卡中的哪些配套服务更能留住会员。
■ 在这里,我们用内容分析探索产品的价值。
■ 在这里,我们用推荐系统找到喜欢的好物。
■ 在这里,我们用A/B测试发现助力促销的方法。
■ 在这里,我们用增长实验寻觅更有效的裂变方案。
写着写着,我又发现书中的内容渐渐超越了数据分析本身。本书的内容逐渐形成了一种方法、一种思路、一个体系,希望读者通过对工具的使用养成一种从数据中发掘“蛛丝马迹”并提取其价值的思维习惯。数据科学的从业者、数据分析和运营人员需要养成这种思维习惯,培养自己透过数据的表象看清业务本质的能力,把数据转换成实实在在的价值。
在这里,我们对数据的推理已经超越了传统的数据分析,我把该推理方法称为“数据演绎法”。
在数据的世界里,你就是“福尔摩斯”。数据中隐藏着什么,由你去发现。
说了这么多,那么作为读者的你应该如何使用这本书,才能让它的价值最大化呢?
我的第一个建议就是动手实践。真正动手做出的东西才是属于自己的。
此外,我还有另外一个建议。在开展机器学习的相关课程后,我从众多的读者留言中收获了大量有价值的建议,也从中发现了交互式学习的重要性。“教学相长”是一件非常关键的事情。如果我和众多读者一起继续打磨书中的实战案例,一起优化细节,一起发掘书中业务场景的更多、更好的解决方案,那将是一件十分有意义的事情。
例如,读者“Shatu”为某些读者在使用Matplotlib作图的过程中无法显示中文字体的问题提供了基于他的运行环境的具体解决方案。
示例:某些读者使用Matplotlib绘图时无法显示中文字体
解决方案是在绘图代码前添加下面的代码。
不过,因为不同系统环境的配置也不尽相同,如果读者遇到类似问题,也可以在互联网中搜索其他解决方案。例如先确认系统有没有中文字体,如果没有,先下载安装一个中文字体,然后再进行相应的设置。若觉得上述步骤麻烦,可选择的另外一个办法是把要绘制的相应文字内容转成英文再绘图。
又如,读者“在路上”就聚类算法的实际应用场景给出了与自己工作相关的建议,建议如下。
“我从事游戏行业,会根据玩家充值金额来定义大、中、小R值,充值金额区间的定义全凭经验,而用今天学的K-means算法定义充值金额区间就非常合适。我最近在学习大数据,想统计HDSF上文件大小的分布情况,也可以用K-means算法。”
这对于一起学习的读者将是十分宝贵的建议。而且有了这些建议,你在学习的路上也就不会感到孤单。正所谓:“独乐乐,与人乐乐,孰乐?”
因此,我建议读者通过下面3种方式来“集体学习”本书。
第一,我会把本书全部的数据集和代码发布到Github上面,链接为https://github.com/huangjia2019/datalogic。大家可以一起维护、优化代码。
第二,我会建立本书的读者微信群,具体的入群方式大家可以在异步图书网站本书的页面上找到。大家可以入群一起学习,交流想法。
第三,虽然目前疏于维护,但是我仍然会不定期地更新公众号“咖哥数据科学讲习所”中的内容,大家可以通过该公众号或者我的邮箱tohuangjia@gmail.com联系我。
写作是一件快乐但并不容易的事。在此我要感谢很多人。首先就是我的另一半,她在辛苦工作之余,还担负了经营家庭、教育儿女的重任,本书能够顺利完成,她的功劳很大。
感谢我的老板Janet、Mark、Desmond。感谢他们对我的全力支持和信任,让我能够自由地做我想做的事情。在这本书问世的时候,也许我已经离开埃森哲,开启新征程,但对你们我有着深深的不舍。
感谢我的同事和团队:Dennis、Ananth、Wai Hong、Zulaiha、Josef、Karsen、Sally、Lawrence、Swathi、Swasthi、Mart、Pei Juan、Swee Hai。和优秀的人一起工作,工作从来不是负担。
非常感谢Mustafa Bari Karaman、Morten Hegewald 在博客中对数据化运营进行的有见地的分享,他们为我写这本书提供了很多灵感和启发,感谢他们同意我引用他们作品中的部分数据集和代码。感谢海燕帮助我审阅了本书A/B测试部分的统计学知识。感谢其他数据分析行业的前辈允许我使用他们在网络、博客上发布的部分内容。
非常感谢明轩、忠仁哥家的好菜,利娟、侨发哥家的好酒,菁姐、杨哥的鼓励,朱大哥多年的陪伴,于教师的长期指导,言词伉俪、董力伉俪、阿良伉俪在中新成都会中的玩笑逗乐,感谢牛哥、贺老、老陈、小琚等老同学在本书创作期间经常用火锅款待我。
感谢颜景燕编辑,这本书能最终成形,颜编辑功不可没。同时也感谢一路走来给予我大力支持的人民邮电出版社的所有编辑。
感谢我的爸爸、妈妈一如既往地支持我、鼓励我。
最后,我也要感谢购买这本书的读者。
相逢即有缘,而我们之间的缘分从这本书开始。
如果你希望在数据之路上开始自己的探索,如果你想更深入地了解什么是“数据演绎法”,想知道新手小雪是怎样在一次次有趣的数据运营实战中成长起来的,那么就和咖哥一起,在一个个有趣的案例分析和编码实战中,开启一段好玩的数据分析之旅吧!
黄佳
2022年6月