当今时代,大数据已逐步渗透到每一个行业和业务职能领域,数据分析实训已从传统的统计部门和专门的数据分析行业蔓延到社会的各行各业,数据分析的技能成为未来人才的一种基本技能。
根据岗位实训内容,我们可提炼出典型实训活动,具体如下:
(1)掌握数据的概念;
(2)理解数据的分类和数据结构;
(3)理解不同机器学习算法及算法应用场景。
知识目标:
(1)掌握数据的概念;
(2)理解数据的分类和数据结构。
技能目标:理解不同机器学习算法及算法应用场景。
思政目标:了解我国大数据产业的发展现状及需求。
任务名称:_______________
任务功能:_______________
典型实训任务:_______________
注意事项:
1.请严格按照实训任务内容要求实践,不得随意更改实训流程。
2.完成实训内容后,请进行清单检查,完成请打钩。
学生签名:
某店铺在开店初期计划做一定程度的推广,想测试推广后实现的利润是否有所增长以及增长幅度。在明确数据分析结构后,学生需要着手做好数据分析环境配置实训,为后续完成数据导入、分析、运行及生成报表等实训做一定基础准备。
对店铺典型工作活动进行提取,并辅以学习知识点,组成新型实训计划。
实训流程图如图 1.1 所示。
(备注:实训流程图上方为该环节所需知识点,下方为项目实践活动。)
图1.1 实训流程图
实训要点 1:准备SQL插件安装包材料
实训要点 2:准备安装插件至Excel中
实训任务:准备数据挖掘需要的SQL插件安装包材料并安装,实现环境配置要求。
本实训的学习目标如表 1.1 所示。
表1.1 学习目标
(一)数据的定义
数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。它是可识别的、抽象的符号。
(二)数据与信息的关系
计算机数据是指计算机中能被识别和处理的物理符号,如数字符号、图形、图像、声音等。数据分为数值型数据(如整数、实数)和非数值型数据(如数字符号、图形、图像、声音等),数据是信息的表现形式 。
信息与数据既有联系,又有区别。数据是符号,是物理性的,信息是对数据进行加工处理之后所得到的并对决策产生影响的数据,是逻辑性和观念性的;数据是信息的表现形式,信息是数据有意义的表示。数据是信息的表现形式和载体,可以是符号、文字、数字、语音、图像、视频等。而信息是数据的内涵,信息加载于数据之上,对数据作具有含义的解释。数据本身没有意义,数据只有对实体行为产生影响时才成为信息。
(一)变异性
数据的变异性包括以下两方面的含义。一是指一组数据的多数取值是不相同的。因为数据是用来描述事物的量化特征的,世界上不同的事物大都具有不同的特征,因此,其数量表现也是不同的。二是指在不同的时间、地点测量同一事物的数量特征也可能得出不同的结果,特别是在对人的精神属性的测量方面。
(二)规律性
虽然数据具有变异性,初看起来一组数据往往是杂乱无章的,但统计学的研究表明,一组大样本的数据其实是具有一定规律的。寻找这种规律就是研究目的之一。正因为数据具有变异性,所以对数据的研究才有必要,如果都是相同的数据也就没有研究的必要了;也正因为数据具有规律性,所以对其进行研究才有可能。
数据结构是一种具有一定逻辑关系、在计算机中应用某种存储结构,并且封装了相应操作的数据元素的集合,它包含三方面的内容:逻辑关系、存储关系以及运算。数据结构分为逻辑结构、存储结构(物理结构)以及其他常用结构。
(一)逻辑结构
数据的逻辑结构主要反映数据元素之间的逻辑关系,其中的逻辑关系是指数据元素之间的前后件关系,而与它们在计算机中的存储位置无关。它是从具体问题抽象出来的数学模型,是描述数据元素及其关系的数学特性的,如图 1.2 所示。
图1.2 数据的逻辑结构表现形式
(二)存储结构
数据的存储结构也称物理结构,是指数据的逻辑结构在计算机存储空间的存放形式。数据的物理结构是数据结构在计算机中的表示(又称映像),它包括数据元素的机内表示和关系的机内表示 。
1.顺序存储方法
顺序存储方法是指把逻辑上相邻的结点存储在物理位置相邻的存储单元里,结点间的逻辑关系由存储单元的邻接关系来体现。顺序存储结构是一种最基本的存储表示方法,通常借助于程序设计语言中的数组来实现。
2.链接存储方法
链接存储方法是指不要求逻辑上相邻的结点在物理位置上亦相邻,结点间的逻辑关系由附加的指针字段来表示。链式存储结构通常借助于程序设计语言中的指针类型来实现。
3.索引存储方法
索引存储方法是指除了建立存储结点信息外,还建立了附加的索引表来标识结点的地址。
4.散列存储方法
散列存储方法就是根据结点的关键字直接计算出该结点的存储地址。
(三)其他常用结构
1.数组
在程序设计中,为了处理方便,把具有相同类型的若干变量按有序的形式组织起来,一个数组可以分解为多个数组元素,这些数组元素可以是基本数据类型或是构造类型。因此按数组元素类型的不同,数组又可分为数值数组、字符数组、指针数组、结构数组等各种类别。
2.栈
栈是只能在某一端插入和删除的特殊线性表。
3.队列
队列是一种特殊的线性表,它只允许在表的前端(front)进行删除操作,而在表的后端(rear)进行插入操作,队列是按照“先进先出”或“后进后出”的原则组织数据的。队列中没有元素时,称为空队列。
4.链表
链表是一种物理存储单元上非连续、非顺序的存储结构,它既可以表示线性结构,也可以表示非线性结构,数据元素的逻辑顺序是通过链表中的指针链接次序实现的。
5.树
树是包含n(n>0)个结点的有穷集合K,且在K中定义了一个关系N, N满足以下条件:
(1)有且仅有一个结点K 0 ,它对于关系N来说没有前驱,称K 0 为树的根结点;
(2)除K 0 外, K中的每个结点,对于关系N来说有且仅有一个前驱;
(3)K中各结点,对关系N来说可以有m个后继(m≥0)。
6.图
图由结点的有穷集合V和边的集合E组成。其中,为了与树形结构加以区别,在图结构中人们常常将结点称为顶点,边是顶点的有序偶对,若两个顶点之间存在一条边,就表示这两个顶点具有相邻关系。
7.堆
在计算机科学中,堆是一种特殊的树形数据结构,每个结点都有一个值。
8.散列表
若结构中存在关键字和K相等的记录,则其必定在f(K)的存储位置上,由此,无须比较便可直接取得所查记录。这个对应关系f就是散列函数(Hash function),按这个思想建立的表为散列表。
(一)数据分类的定义
数据分类就是把具有某种共同属性或特征的数据归并在一起,通过其类别的属性或特征来对数据进行区别 。
换句话说,就是把相同内容、相同性质的信息以及要求统一管理的信息集合在一起,而把相异的和需要分别管理的信息区分开来,然后确定各个集合之间的关系,从而形成一个有条理的分类系统。
(二)数据分类的原则
1.稳定性
稳定性是指依据分类的目的,选择分类对象的最稳定的本质特性作为分类的基础和依据,以确保由此产生的分类结果最稳定。
2.系统性
系统性是指将选定的分类对象的特征(或特性)按其内在规律系统化进行排列,形成一个逻辑层次清晰、结构合理、类目明确的分类体系。
3.可扩充性
可扩充性是指在类目的设置或层级的划分上,留有适当的余地,以保证分类对象增加时,不会打乱已经建立的分类体系。
4.综合实用性
综合实用性是指从实际需求出发,综合各种因素来确定具体的分类原则,使得由此产生的分类结果总体最优、符合需求、综合实用和便于操作。
5.兼容性
兼容性是指有相关的国家标准,则应执行国家标准,若没有相关的国家标准,则执行相关的行业标准;若二者均不存在,则应参照相关的国际标准。
(三)数据分类的方法
数据分类的方法如图 1.3 所示。
图1.3 数据分类的方法
1.按性质分类
(1)定位的,如各种坐标数据。
(2)定性的,反映事物属性的数据,如居民地、河流、道路等。
(3)定量的,反映事物数量特征的数据,如长度、面积、体积等几何量或重量、速度等物理量。
(4)定时的,反映事物时间特性的数据,如年、月、日、时、分、秒等。
2.按表现形式分类
(1)数字数据,如各种统计或量测数据。数字数据在某个区间内是离散的值。
(2)模拟数据,由连续函数组成,是指在某个区间连续变化的物理量,又可以分为图形数据(如点、线、面)、符号数据、文字数据和图像数据等,如声音的大小和温度的变化等。
3.按数字化方式分类
数据按数字化方式分为矢量数据、格网数据等。在地理信息系统中,数据的选择、类型、数量、采集方法、详细程度、可信度等,取决于系统应用目标、功能、结构和数据处理、管理与分析的要求。
4.按计量形式分类
(1)定类数据。这是数据的最低层。它将数据按照类别属性进行分类,各类别之间是平等并列关系。
(2)定序数据。这是数据的中间级别。定序数据不仅可以将数据分成不同的类别,而且各类别之间还可以通过排序来比较优劣。也就是说,定序数据与定类数据最主要的区别是定序数据之间是可以比较顺序的。
(3)定距数据。定距数据具有一定单位的实际测量值(如摄氏温度、考试成绩等)。此时不仅可以知道两个变量之间存在差异,还可以通过加、减法运算准确地计算出各变量之间的实际差距。
(4)定比数据。这是数据的最高等级。它的数据表现形式同定距数据一样,均为实际的测量值。
5.按来源分类
数据的来源主要有两种渠道:一种是通过直接的调查获得的原始数据,一般称为第一手数据或直接的统计数据;另一种是别人通过调查和搜集,并进行加工和汇总后公布的数据,通常称之为第二手数据或间接的统计数据。
6.按时间状况分类
(1)时间序列数据。它是指在不同的时间上搜集到的数据,反映现象随时间变化的情况。
(2)截面型数据。它是指在相同的或近似的时间点上搜集到的数据,描述现象在某一时刻的变化情况。
(一)数据结构算法的定义
算法是对特定问题求解步骤的描述,在计算机中表现为指令的有限序列。数据结构只是静态地描述了数据元素之间的关系。高效的程序需要在数据结构的基础上设计和选择算法。
(二)数据结构算法的特性
数据结构算法包括以下五大特性:
(1)输入:算法具有 0 个或多个输入;
(2)输出:算法至少有 1 个或多个输出;
(3)有穷性:算法在有限的步骤之后会自动结束而不会无限循环;
(4)确定性:算法中的每一步都有确定的含义,不会出现二义性;
(5)可行性:算法的每一步都是可行的。
(三)算法的准则
1.正确性
算法对于合法数据而言,必须能够得到满足要求的结果。算法必须能够处理非法输入,并得到合理的结果。对于边界数据和压力数据,算法应尽量得到满足要求的结果,但是其几乎不能完全做到这点,极端的情况无法满足。
2.可读性
算法要方便阅读、理解和交流。
3.健壮性
算法不应该产生莫名其妙的结果。
4.高性价比
算法要利用最少的时间和资源得到满足要求的结果。
(四)方法及要求
1.算法设计的基本方法
算法设计的基本方法包括穷举法、动态规划、贪心法、回溯法、递推法、递归法、分治法、散列法、分支限界法。
2.算法设计的要求
算法设计的要求有正确性、可读性、健壮性、效率性与低存储量需求。
3.算法的基本结构
算法的基本结构是顺序结构、循环结构、选择结构。
通常,医生都是在靠自己的专业知识和个人经验进行病征判断。现在,如果利用数据分析技术,可以实现成千上万个医生同时诊断一位病人吗?
以色列的Given Imaging公司发明了一种胶囊,患者服用后,胶囊中的内置摄像头能以大约每秒 14 张照片的频率拍摄消化道内的情况,并同时传回外置的图像接收器,患者病征通过配套的软件被录入数据库,在 4~6 小时内胶囊相机将通过人体排泄离开体外。现实中,会存在医生对一些疑似阴影拿捏不准甚至延误病人治疗的情况。现在通过Given Imaging的数据库,当医生发现一个可疑的肿瘤时,只要双击当前图像,过去其他医生拍摄过的类似图像和他们的诊断结果就都会悉数被提取出来。可以说,一个病人不再由一个医生来诊断,而是成千上万个医生在同时给出意见,并由大量其他病人的图像进行佐证。这样的数据对比,不但提高了医生诊断的效率,还提升了准确度。
本节课的知识梳理汇总成流程图,如图 1.4 所示。
图1.4 本节知识流程图
整理本节课所学知识点,补充下方思维导图(如图 1.5 所示),管理你的知识。
图1.5 本节知识思维导图