人工智能(AI)是目前炙手可热的一个领域,互联网公司纷纷表示人工智能将是下一个时代的革命性技术。机器学习属于人工智能的一个重要分支,其更偏向于理论,目的是让计算机不断从大量数据中学习知识,自动实现知识发现和预测,使结果不断接近目标。
在实际工作中,我们比较常见的是数据分析的概念,是用适当的统计分析方法对收集来的大量数据进行分析,以求最大化地利用数据,从而发挥其商业价值。目前,数据分析已经是一种比较成熟的技术,而机器学习还处于快速发展的过程中,主要依靠算法和数据进行驱动。
在数据分析和机器学习研究热潮中,相关图书大多偏重于理论。由于Python是开源免费的,而且目前市场上从零基础深入介绍数据分析和机器学习的图书较少,鉴于此,本书基于新版本的Python 3.10编写,全面而系统地讲解基于Python的数据分析和机器学习技术。
本书既包括Python数据分析的主要方法和技巧,又融入了机器学习的案例实战,使广大读者通过对本书的学习,能够轻松快速地掌握数据分析和机器学习的主要方法。本书配套资源中包含案例实战中所采用的数据源,以及教学PPT和学习视频,供读者在阅读本书时练习使用。
第1章介绍数据分析的流程和思维、搭建Python 3.10开发环境以及必会的包(库)。
第2章介绍Python核心基础,包括数据类型、基础语法、常用高阶函数和编程技巧。
第3章介绍如何进行数据准备,包括数据的读取、索引、切片、聚合、透视、合并等。
第4章介绍NumPy基础知识和操作,包括索引与切片、维度变换、广播机制和矩阵运算。
第5章介绍如何利用Pandas进行数据清洗,包括重复值、缺失值、异常值的检测和处理。
第6章介绍Matplotlib绘图参数设置,包括线条、坐标轴、图例、绘图函数和图形整合等。
第7章介绍机器学习及Sklearn库的基本概念、基本流程、主要算法和自带的主要数据集等。
第8章介绍监督式机器学习算法,包括线性回归、逻辑回归、决策树、K近邻和支持向量机等。
第9章介绍无监督式机器学习算法、包括K均值聚类、主成分分析、关联分析和双聚类分析等。
第10章详细介绍机器学习的挑战、模型的主要评估方法,并通过实际案例介绍模型的调优方法。
第11章介绍基于中文的文本分词、关键词提取技术,以及如何生成词向量和进行中文情感分析。
(1)零基础入手,精心设计知识体系
本书首先介绍Python 3.10版本的基础语法,并针对初学者构建数据分析与机器学习的实验环境,以便初学者无障碍上手。全书内容循序渐进,在精要介绍基础语法之后,还介绍了当前流行的数据分析工具,最后介绍机器学习算法在数据分析和挖掘中的应用,以便读者通过阅读本书能够整体上掌握数据分析的重要工具、方法与技术。
(2)全面介绍流行工具的使用,应对工作需求
本书主要针对当前流行的数据分析工具分章介绍,包括数值计算工具NumPy、数据处理工具Pandas、数据可视化工具Matplotlib、数据建模工具Sklearn等。每一个工具都从基础讲解,并辅之以案例演示,读者可以边学边练,快速掌握技能。其中也有很多案例来自于工作实践,可以真正提升读者的实战技能,读者通过本书的学习能够应对工作需求。
(3)详细讲解十大机器学习算法,并辅之以丰富的案例
本书针对数据挖掘中经常使用的算法进行了详细介绍,其中每一个算法首先介绍理论知识,然后给出算法在实际案例中的应用,理论与实践并重,可以帮助读者真正理解算法并加以应用,从而提高读者数据分析和机器学习的综合能力。
本书每一章都有对应的数据源和完整代码,代码均包含具体的中文注释。另外,本书还提供了教学PPT。读者可以扫描以下二维码获取文件:
如果在下载过程中出现问题,请发送电子邮件至booksaga@126.com,邮件主题为“零基础入门Python数据分析与机器学习”。
本书还提供了全程视频教学,读者扫描书中各章的二维码即可观看学习。
本书的内容和案例适用于互联网、咨询、零售、能源等行业从事数据分析的读者,也可以作为培训机构或大专院校相关课程和专业的教学用书。
由于编者水平所限,虽然尽心竭力,但仍然难免存在疏漏之处,敬请广大读者与专家不吝指正。
编者
2021年5月20日