购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.5 软件生态与本书内容

2.5.1 Python软件生态

Python已经成为数据科学的首选编程语言。图2.15展示了一些主流的数据科学工具:

● NumPy和Pandas用于科学计算和数据处理。

● PyTorch和TensorFlow可用于实现神经网络训练和推理。

● Scikit-learn、XGBoost、LightGBM等库可用于实现常见的机器学习算法。

图2.15 Python数据科学软件生态

2.5.2 本书内容

本书假定读者已经对数据科学有一定了解,并且使用过Pandas、XGBoost、PyTorch等Python数据科学工具,且希望通过使用更多工具来加速数据科学的工作流程。如果对数据科学不熟悉,推荐阅读以下书籍:

● Pandas项目发起人WesMcKinney撰写的《利用Python进行数据分析》 [8] ,这是一本优秀的数据科学入门书籍,也是Pandas框架的入门书籍。

● 周志华教授的《机器学习》 [9] 是机器学习理论的入门教材,是了解绝大多数机器学习算法的必备书籍。

● 亚马逊公司的科学家阿斯顿 · 张、李沐等撰写的《动手学深度学习》 [10] ,深入浅出地讲解了从算法原理到编程实践的常见人工智能算法及其应用,是深度学习入门的最佳实战书籍之一。

Dask、Ray、Xorbits和mpi4py是数据科学生态的扩展工具,它们可以将单机任务扩展到集群。表2.2概括了这些框架在数据科学生命周期中的相关组件。

表2.2 数据科学生命周期与框架组件

2.5.3 本书案例

本书提供了大量实战案例,所有案例均可复现。读者可下载本书提供的电子资料,在本地或集群上安装部署相关软件,并通过Jupyter Notebook运行这些案例。

在数据集方面,本书使用了出租车、飞机起降等数据集,这些数据集在本书多处使用。为方便读者在运行案例时自动下载并解压缩数据集,本书将数据集加载代码封装成了函数,存放在utils.py文件中。例如,出租车数据集的函数为nyc_taxi,飞机起降数据集的加载函数为nyc_flights,自行车轨迹数据集的加载函数为citi_bike。 F4HxrNXxWzumhIt4iFuBBxzVcZhiYJh1QiVr+0B2JXF16wrC8OwmWdLybSPiEIub

点击中间区域
呼出菜单
上一章
目录
下一章
×