



本书采用Python作为数据分析的程序语言。本节将介绍为什么选用Python进行数据分析及Python的数据分析系统。
Python具有简单易用、社区资源丰富两个主要优点。特别是在数据分析这个领域,Python有很多优秀的第三方库,能够帮助开发者专注于项目本身。本节将从Python的基础讲起,运用大量范例说明Python的语法与操作。
Python拥有完善的数据分析系统,简单分为数据收集、数据预处理、数据可视化、数据模型训练、深度学习、自然语言与文本数据处理。
Request、Beautifulsoup、Scrapy用于数据收集与网页爬虫,NumPy与Pandas提供了更贴近数据分析的数据结构,SciPy能够做更复杂的科学计算,Matplotlib是数据可视化的核心,Seaborn用于优化样式,Bokeh和Plotly提供了交互的图表。
在模型方面,相关工具有专注于统计的Statsmodels和专注于机器学习的SciKit-Learn,此外也有xgboost提供复杂的进阶模型。在深度学习方面,相关工具有TensorFlow(Theano)、Pytorch、Keras,各自都有拥护者。NLTK、Gensim用于自然语言与文本数据处理。Python的数据分析系统如图1.6所示。
图1.6 Python的数据分析系统