购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

前言

数据科学和人工智能的未来从未像现在这样光明。现在,人工智能(AI)在多种游戏中都能击败人类,从紧张的游戏Pong到需要深入思考的围棋游戏等。深度学习模型识别物体的能力几乎和人类不相上下。甚至有人说,自动驾驶汽车的表现比那些注意力不集中的人还要好。过去十年来,数据量、存储容量和计算能力的大幅提升,使数据科学得以快速发展。

当然,现在技术已经渗透到业务的各个方面,从财务、销售到生产和物流。然而,业务的每一部分都是由数据科学和人工智能驱动的吗?很可能不是。尽管这些技术非常好,但如果你的工作不是设计自动驾驶汽车或预测客户行为,你可能就不会用到它们。

许多组织可能会从SAP之类的企业资源计划(ERP)系统访问业务数据,你所在的组织可能也不例外。来自SAP这样的业务系统的数据在很大程度上是完美的,因为在允许将其保存到数据库之前,通常会进行验证和检查(数据科学家最重要、回报率最少的一个任务就是数据清洗)。这意味着SAP中的ERP数据已经“成熟”,而数据科学就是来收获果实的!

让我们来看一个假设的场景。Big Bonanza Warehouse公司的SAP团队一直在不断地进行流程改进。他们知道如何配置SAP系统以完成用户想要的任务,像拉小提琴一样操作着这个系统,尽职尽责地接受请求并提供解决方案。然而,在报告和分析方面存在一些问题。他们有一个数据仓库和商业智能系统,但开发报告是一个耗时几个月的过程。该团队经常使用标准的ALV(ABAP列表查看器)报告,因为需要开发人员来编写代码,所以功能相当有限。此外,利用可与SAP结合使用的公共数据也很困难。与许多其他企业一样,Big Bonanza Warehouse公司的SAP数据就像一座孤岛,孤立在自己的系统中。不使用SAP系统的团队不了解这些数据,而那些使用SAP的团队要花费大量的时间维护系统,以至于没有机会查看系统外部的数据。

可是,SAP数据不应该是一个孤岛。团队人员了解他们的数据,知道如何找到这些数据,也知道用这些数据能做些什么。然而,要分析这些数据时,每个人都被长达数月的报告开发过程所束缚。

故事听起来是不是很熟悉?几乎所有我们工作过的SAP现场都是如此。在我们30多年的工作经历中,这样的事例比比皆是。

我们希望为SAP团队(当然包括你的团队)提供一些现代工具和技术,让团队人员无须定义数据立方、数据仓库对象或学习复杂的前沿报告就能使用这些技术。在本书中,我们将介绍一些简单的场景,比如直接将数据从SAP转储到平面文件,并导入报表工具中。这对于特别的报告和调查非常有用。我们也会考虑更复杂的场景,包括使用云中的数据抽取工具和神经网络模型,以SAP或当前数据仓库中不可能的方式来分析数据。

如何阅读本书

你需要从概念的角度来理解本书。我们提出了分析业务数据的替代技术,要求读者以全新的、有趣的方式来思考业务数据(尤其是SAP数据)。本书旨在缩小你所拥有的特定业务数据分析技术和先进数据科学技术之间的差距,既不需要你是精于计算神经网络中梯度下降这样的复杂算法的专家,也不需要你是业务数据方面的专家。但是,你需要有跨越这两个阵营的强烈愿望,并想在这个过程中获得乐趣

从数据科学家的角度来看,本书中的数据科学原理只是一个入门介绍。如果你很熟悉sigmoid、tanh、relu等激活函数,就可以跳过这些部分。我们将重点关注SAP,展示如何从系统中提取数据,并演示如何使用真实的业务数据。

从SAP专业人员的角度来看,你将突破传统的报表和分析模式,学会思考业务应用,并用机器学习和深度学习的术语来生成报告。这听起来可能很神秘,但到本书结束时,你将拥有迈出这一步所需的工具。在此过程中,你将自动检测销售数据中的异常,根据历史数据预测未来,将文本处理为自然语言,将客户细分为智能群组,将所有这些东西出色地可视化,并教会机器使用业务数据。

在人工智能和数据科学的世界里,对数据提出同样的老问题是陈腐和幼稚的,更坦率地说是无聊的。我们希望你对自己的数据提出这样的问题,即连你自己都不知道能够问出的问题。也许中国的茶叶价格真的会对你的销售产生巨大的影响。

从开发者的角度来看,你会深受启发,去学习Python和R等美妙的编程语言。我们不教你这些语言,但鼓励你学习这些语言。如果你已经是一个有经验的R或Python开发人员,则可以很好地完成代码部分的学习。如果你是R或Python语言的新手,我们将为你提供资源,帮助你入门。如果你倾向于使用Java等其他语言,也不要觉得自己被排除在外了,本书的根本目标是让你以不同的方式来思考业务数据,如果你想使用Java,请尽情使用吧。

数据科学的实施本身就可以写成一本书。我们会经常涉及如何实现我们提出的想法,但是深入探讨创建鲁棒的数据科学流程超出了本书的讨论范围。

数据科学家可以跳过本书第2章,SAP专业人员可以跳过本书第3章。本书后面的内容融合了这两个门类,所以,我们希望来自两方的读者都能够有效地学习本书。

致谢

感谢本书的技术审校者Hau Ngo、Jesse Stiff、Franco Rizzo、Brad Barker和Christoph Wertz,他们宝贵的反馈意见使每一章都变得更好。

我们的编辑Nicole帮助我们保持冷静,让我们在写作过程中脚踏实地。如果没有他的指导,我们会迷失在复杂的数据科学和混乱的代码中。他让每一章的可读性都更好。

Greg要感谢他的妻子Alycia,谢谢她的耐心、支持和洞见。Greg也要感谢他的兄弟Cory对本书绘图的帮助。当然,还要感谢合作者Paul Modderman的远见卓识、聪明才智和踏上这段旅程的勇气。

Paul要感谢他的妻子Christa Modderman的智慧和力量,感谢他的祖母Lois Stratmann以卓越人生所树立的榜样,感谢他的父母Mark和Linda。此外,感谢Tony Vanderpoel、Dean Stoffel和Gavin Quinn,他们的鼓励、信任和启迪使他在专业上更好地提升自己。由衷感谢合作者Greg,他是一位杰出的作家,从不放弃质量。Eleanor Modderman永远都是他的最爱。

特别感谢Wade Krzmarzick对CRM场景提供的帮助。

排版约定

本书中使用以下排版约定:

斜体(Italic)

表示新的术语、URL、电子邮件地址、文件名和文件扩展名。

等宽字体(Constant width)

用于程序清单,以及段落中的程序元素,例如变量名、函数名、数据库、数据类型、环境变量、语句以及关键字。

等宽粗体(Constant width bold)

表示应由用户直接输入的命令或其他文本。

等宽斜体(Constant width italic)

表示应由用户提供的值或由上下文确定的值替换的文本。

该图示表示提示或建议。

该图示表示一般性说明。

该图示表示警告或注意。

示例代码

这里的代码是为了帮助你更好地理解本书的内容。通常,可以在程序或文档中使用本书中的代码,而不需要联系O’Reilly获得许可,除非需要大段地复制代码。例如,使用本书中所提供的几个代码片段来编写一个程序不需要得到我们的许可,但销售或发布O’Reilly的示例代码则需要获得许可。引用本书的示例代码来回答问题也不需要许可,将本书中的很大一部分示例代码放到自己的产品文档中则需要获得许可。

非常欢迎读者使用本书中的代码,希望(但不强制)注明出处。注明出处的形式包含书名、作者、出版社和ISBN,例如:

Practical Data Science with SAP,作者Greg Foss和Paul Modderman,由O’Reilly出版,书号978-1-492-04644-8

如果读者觉得对示例代码的使用超出了上面所给出的许可范围,欢迎通过permission@oreilly.com联系我们。

O’Reilly在线学习平台(O’Reilly Online Learning)

40多年来,O’Reilly Media致力于提供技术和商业培训、知识和卓越见解,来帮助众多公司取得成功。

我们拥有独一无二的专家和革新者组成的庞大网络,他们通过图书、文章、会议和我们的在线学习平台分享他们的知识和经验。O’Reilly的在线学习平台允许你按需访问现场培训课程、深入的学习路径、交互式编程环境,以及O’Reilly和200多家其他出版商提供的大量文本和视频资源。有关的更多信息,请访问http://oreilly.com。

如何联系我们

对于本书,如果有任何意见或疑问,请按照以下地址联系本书出版商。

美国:

O’Reilly Media,Inc.

1005 Gravenstein Highway North

Sebastopol,CA 95472

中国:

北京市西城区西直门南大街2号成铭大厦C座807室(100035)

奥莱利技术咨询(北京)有限公司

要询问技术问题或对本书提出建议,请发送电子邮件至bookquestions@oreilly.com。

本书配套网站https://oreil.ly/practical-data-sci-sap上列出了勘误表、示例以及其他信息。

关于书籍、课程、会议和新闻的更多信息,请访问我们的网站http://www.oreilly.com。

我们在Facebook上的地址:http://facebook.com/oreilly

我们在Twitter上的地址:http://twitter.com/oreillymedia

我们在YouTube上的地址:http://www.youtube.com/oreillymedia OSIyuFfvfzY7MB0oPSFdOpDWNrewPzZ+PRHSB68jZN5UsNOKC9pyNwPNtts5v2hB

点击中间区域
呼出菜单
上一章
目录
下一章
×