购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

前言

Pandas是最近比较热门的一个分析结构化数据的工具包,它提供了高性能、易使用的数据结构和数据分析方法,其所提供的各种数据处理方法、工具基于数理统计学。Pandas的命名来源并非“熊猫”,而是衍生自计量经济学的术语“panel data(面板数据)”和“Python data analysis(Python数据分析)”。Pandas的目标是成为Python数据分析实践与实战的必备高级工具,其长远目标是成为最强大、最灵活、可以支持任何语言的开源数据分析工具。

Jupyter Notebook是一个基于Web的交互式开发环境,用户可以在其中编写代码、运行代码、查看并保存结果,这些特性使其成为一款执行端到端数据科学工作流程的便捷工具,它常用于数据清理、统计建模、构建和训练机器学习模型、可视化数据等用途。本书所有使用Python语言编写的Pandas实战案例均在Jupyter Notebook开发环境中完成,因此建议读者在测试和学习本书实战案例时也使用Jupyter Notebook。特别需要说明的是:建议从Anaconda官网下载安装Anaconda 3,里面包含Jupyter Notebook、Python 3.8.8、Pandas 1.3.3、numpy 1.20.1、matplotlib 3.4.1等大量的工具包,也可以根据需要在线升级相关工具包的最新版本。

全书共分为8章,简述如下。

第1章主要列举了在DataFrame中使用各种形式的日期设置行标签、修改行标签、修改列名以及修改多层行标签、创建笛卡儿积多层索引、根据列名获取列索引数字等。

第2章主要列举了将CSV、Excel、JSON、HTML等格式的数据读入DataFrame,以及将DataFrame的数据写入CSV、Excel、JSON、HTML等格式的文件,甚至直接访问剪贴板数据等。

第3章主要列举了使用loc根据行标签和列名筛选和修改单行数据、单列数据、多行数据、多列数据、多行多列数据、单个数据、多个数据;使用iloc根据行列索引数字筛选和修改单行数据、单列数据、多行数据、多列数据、多行多列数据、单个数据、多个数据;使用各种函数根据数据大小、日期范围、正则表达式、lambda表达式、文本类型等多种条件筛选数据。

第4章主要列举了在DataFrame的行列中统计NaN(缺失值)的数量、占比,以及根据向上填充、向下填充等规则填充NaN的多个案例;同时列举了根据要求删除包含NaN的行或列、自定义NaN的颜色等案例;以及在读取Excel文件时如何处理NaN等案例。

第5章主要列举了在DataFrame中新增行、插入行、删除行、删除重复行,新增列、删除列、拆分列、合并列、合并同构或异构的DataFrame,根据指定的规则修改数据、裁剪数据,计算各种行差、列差、极差以及直接对两个DataFrame进行加、减、乘、除运算和比较差异等。

第6章主要列举了宽表和长表的相互转换,根据DataFrame的行列数据创建交叉表以及使用pivot_table()创建各种透视表等。

第7章主要列举了根据指定的要求在DataFrame中对数据进行分组,并对分组结果进行求和、累加、求平均值、求极差、求占比、排序、筛选、重采样等多种形式的分析,以及将分组数据导出为Excel文件等。

第8章主要列举了在DataFrame中根据指定的条件设置行列数据的颜色和样式等。

本书最后还附赠36个数据可视化案例,如根据行列数据绘制条形图、柱形图、饼图、折线图、散点图、六边形图、箱形图、面积图等,请读者扫描下方的付费二维码下载查看。

本书案例丰富、实用性强、技术新颖、贴近实战、思路清晰、代码简洁、知识精炼、高效直观、通俗易懂、操作性强。本书配套教学视频,读者扫描下方的付费二维码观看视频。本书提供所有案例的完整代码,读者可扫描下方的付费二维码下载查看。

本书为黑白印刷,书中提到的彩色高亮等效果无法直接体现,请读者观看教学视频,以视频中的显示效果为准。

全书所有内容和思想并非一人之力所能及,而是凝聚了众多热心人士的智慧并经过充分的提炼和总结而成,在此对他们表示崇高的敬意和衷心的感谢!由于时间关系和作者水平原因,少量内容可能存在认识不全面或偏颇的地方,以及一些疏漏和不当之处,敬请读者批评指正。

罗帅 罗斌
2022年于重庆渝北

说明:文中需扫码阅读的请扫此付费二维码。 Gedm+Q2sBgciSV0hNcbcG0wnQjszNK/3m8SNkphdLfap58hBEH22eibRaKo6A0nI

点击中间区域
呼出菜单
上一章
目录
下一章
×