大数据可以概括为5个V,数据量大(Volume)、速度快(Velocity)、类型多(Variety)、价值(Value)、真实性(Veracity)。随着大数据时代的来临,大数据分析也应运而生。大数据分析是指对规模巨大的数据进行分析。大数据分析在研究大量的数据的过程中寻找模式、相关性和其他有用的信息,可以帮助企业更好地适应经营环境的变化,并做出更明智的决策。
大数据分析6个基本流程:可视化分析、数据挖掘算法、预测判断、语义引擎、数据质量和数据管理、数据存储和数据仓库,本书从数据分析可视化入手实现数据展示。数据可视化借助于图形化的手段,清晰、快捷、有效地传达与沟通信息。从用户的角度,数据可视化可以让人快速抓住信息要点,使得关键的数据点从人类的眼睛快速通往大脑。数据可视化一般具备几个特点:准确性、创新性和简洁性。
本书的目的是展现基于Python 3大数据分析方法中的核心算法与实践,介绍的重点是数据特征算法分析及第三方开源库的场景应用,如NumPy、SciPy、Matplotlib、Pandas、StatsModels、Gensim等在大数据分析中的算法与实例应用。
本书可以作为计算机科学与工程、计算统计学和社会科学等专业的大学生或研究生的专业参考书,也可作为软件研究人员或从业人员的参考资料。由于大数据分析专业素材的多学科性,读者可以根据对应的知识背景参考对应的专业图书。
本书分为8章,系统讲解了大数据的数据特征算法分析。第1、2章简要介绍了大数据分析的背景、应用及数据特征分析,第3~7章是典型开源工具介绍与场景应用,第8章是基于Python 3的典型大数据分析算法及应用实例。本书的例子都是在Python 3集成开发环境Anaconda 3中经过实际调试通过的典型案例,书中示例的大部分实验数据来源于GitHub,很多例子也给出了源代码的网址,读者可以参考实现。
本书示例代码请扫描下边的二维码下载。
如果下载有问题,请联系booksaga@163.com,邮件主题为“Python大数据分析算法与实例”。
这里要感谢家人的支持与关爱。同时也要感谢我的同事,与他们的交流和探讨使得本书得以修正错误和完善知识结构。由于作者水平有限,书中有纰漏之处在所难免,恳请读者不吝赐教。
作者
2020年1月