随着大数据行业的快速发展,用户对数据可视化的要求越来越高。通过数据可视化处理,用户能够更直观、更形象地理解所要表达的信息与内容。本项目将引领读者认识数据可视化,了解数据可视化图表,并学习数据的采集、清洗和随机抽样方法。
·数据可视化图表。
·数据可视化方法。
·数据的采集。
·数据的清洗。
·数据的随机抽样。
·了解数据可视化图表的类型。
·掌握数据可视化的方法。
·掌握数据的采集方法。
·掌握数据的清洗方法。
·掌握数据的随机抽样方法。
对商务数据进行可视化处理,既可以提高阅读效率,也符合人类的生理本性。电商用户可以利用图像、曲线、二维图形、三维动画等可视化方式来表现商务数据,可以对数据的模式和相互关系进行可视化分析,从而传递出更多的信息,同时也可以提高商务数据的视觉吸引力和说服力。本任务将引领读者认识数据可视化,了解数据可视化图表、数据可视化视觉效果及数据可视化的方法。
在生活和工作中,一张图片所传递的信息往往比文字更直观、更清楚。所谓“字不如表,表不如图”,图表的重要性可见一斑。在统计分析产品、用户画像等方面,从业者需要具备优秀的数据可视化能力。现在常见的如“一图看懂×××”等信息交流方式,就是用图表来传递信息,这是典型的数据可视化成果。
例如,若要描述某公司最近5年的收入情况,就需要说明该公司每个月的收入是多少,同比、环比增幅是多少,收入最多、最少的是哪个月,同比、环比增幅最低、最高的是哪个月等,而若用数据图表来表达的话,只需使用柱状图和折线图的组合图表就能准确地表达以上信息,如图1-1所示。
图1-1 某公司最近5年收入图表
商务数据图表的另一个优势是可以通过简单的逻辑和视觉体验让用户快速把握要点,如图1-1所示,通过图表能够一眼看出哪一年的收入最高,而不用将每个数字都放到大脑中进行比较,那样无法得到很直观的结果。用户通过大脑的视觉系统可以迅速地识别、贮存、回忆图形信息,本能地将图形中的信息转化为长期记忆。
商务数据可视化还可以改变我们解读世界的方式,相同的数据,不同的表达方式能产生不同的效果。在展现商务数据时,一张清晰而又独特的数据图表能够让别人更加直观且准确地理解我们所要表达的信息和意图,同时也可以让信息表达看上去更加具有说服力,让商务数据的价值最大化。
Excel是目前使用最广泛的数据可视化工具之一,它基本包含了所有常用的图表。除此之外,还有许多在线的数据可视化工具,如ECharts、Dydata、Plotly、ggplot2、Tableau、Raw、Infogram、ChartBlocks、JpGraph,基于JavaScript的D3.js、Chart.js、FusionCharts、JavaScript InfoVis Toolkit等。
常用的数据可视化图表分为反映发展趋势、反映比例关系、反映相关性、反映差异化、反映空间关系,以及反映工作流程等可视化类型。
反应发展趋势的可视化图表是通过图表来反映事物的发展趋势,让人们一眼就能看清趋势或走向。常见的表现随时间变化趋势的图表类型有柱形图、折线图和面积图等。
柱形图是以宽度相等的条形高度的差异来显示统计指标数值大小的一种图形,如图1-2所示。按照时间绘制柱形图,可以反映事物的变化趋势,如某个指标最近一年的变化趋势,也可以按照其他维度,如区域、机型、版本等来反映事物的分布情况。
折线图是点和线连在一起的图表,可以反映事物的发展趋势和分布情况,如图1-3所示。与柱形图相比,折线图更适合展现增幅、增长值,但不适合展现绝对值。
面积图是通过在折线图下加上阴影的面积大小来反映事物的发展趋势和分布情况,如图1-4所示。
反映比例关系的可视化图表是通过不同的面积大小、长短等反映事物的结构和组成,从而让用户知道什么是主要的,什么是次要的。常见的反映比例关系的图表类型有饼图、旭日图、瀑布图等。
饼图是将一个圆饼分为若干份,用于反映事物的构成情况,显示各个项目的大小或比例,如图1-5所示。饼图适合展现简单的占比比例,在不要求数据精细的情况下使用。
旭日图有多个圆环,可以直观地展示事物组成部分下一层次的构成情况,如图1-6所示。
图1-2 柱形图
图1-3 折线图
图1-4 面积图
图1-5 饼图
图1-6 旭日图
瀑布图采用绝对值与相对值相结合的方式,用于表达特定数值之间的数量变化关系,最终展示一个累计值,如图1-7所示。瀑布图能够反映事物从开始到结束经历了哪些过程,用于分解问题的原因或事物的构成因素。例如,要表现本月收入是如何在上月收入的基础上变化的,就可以通过瀑布图分解每个收入组成部分所做的贡献,找出哪一组成部分提升了收入,哪一组成部分降低了收入。
图1-7 瀑布图
反映相关性的可视化图表是通过图表来反映事物的分布或占比情况,从而展示事物的分布特征、不同维度间的关系等。常见的反映相关性的图表类型有散点图、气泡图、热力图、词云图等。
散点图主要反映若干数据系列中各个数值之间的关系,类似X轴、Y轴,判断两个变量之间是否存在某种关联,如图1-8所示。此外,通过散点图还可以看出极值的分布情况。
图1-8 散点图
气泡图是通过气泡面积大小来表示数值的大小,与散点图相比多了一个维度,如图1-9所示。
图1-9 气泡图
热力图是以特殊高亮的形式显示访客热衷的页面区域和访客所在地理区域的图示,如图1-10所示。
图1-10 热力图
词云图主要用于描述事物的主要特征,要求能够让人一眼就看出一个事物的主要特征,越明显的特征越要突出显示,如图1-11所示。同时,象形的词云图,如轮廓是一个人、一只鸟等,用于反映事物的主题,这样会更形象、更生动。此外,词云图还可以显示词汇出现的频率,可以用于制作用户画像、用户标签等。
图1-11 词云图
反映差异化的可视化图表是通过对比来发现不同事物之间的差异和差距,从而总结出事物的特征。常见的反映差异化的图表类型是雷达图。
雷达图主要展现事物在各个维度上的分布情况,从而看出事物在哪些方面强、哪些方面弱。例如,一个运动员各方面能力的得分可以通过雷达图清晰地表达出来,让用户一眼就能看出这个运动员哪方面能力强,哪方面能力弱,如图1-12所示。此外,一个产品在各个评价维度上的评分也可以通过雷达图来进行展现。
图1-12 雷达图
反映空间关系的可视化图表是通过地图来反映事物的地理分布情况或用户的出行轨迹。常见的反映空间关系的图表类型有全球地图、中国地图、省市地图、街道地图、地理热力图等。
地图可以形象地反映事物在地理上的分布情况及人群迁徙情况,主要包括地理分布图(全球、全国、各省市等)、迁徙图、热力地图等。热力地图主要反映地理、点击热力分布情况,从而看出哪里是人群最多的地方,哪里是用户点击最多的地方等,可以反映用户出行习惯、使用习惯等,如图1-13所示。
反映工作流程的可视化图表是通过图表来反映工作流程各个环节的关系,可以帮助管理者了解实际工作活动,消除工作过程中多余的工作环节,合并同类活动,使工作过程更加经济、合理和简便,从而提高工作效率。常见的反映工作流程的图表类型是漏斗图。
漏斗图主要用于反映关键流程各个环节的转化情况,让人们一眼看清整个流程的转化情况。通过分析各个环节的转化情况,能够发现问题所在,从而找准改进的方向。
在电商数据分析过程中,漏斗图不仅能够展示用户从进入网站到实现购买的转化率,还可以展示每个销售环节的转化率,能够帮助卖家直观地发现问题,如图1-14所示。
图1-13 热力图
图1-14 电商销售漏斗图
创建外观精美的可视化商务数据对于设计人员来说是一种挑战,优秀的商务数据内容表达不仅仅是简单的图文混排,还必须要在视觉上能够表达出数据的主旨,这就要求设计人员在进行视觉设计前必须要了解数据内容的框架,同时掌握一定的技巧。
用户要想呈现出良好的商务数据可视化视觉效果,可以在以下方面进行提升,如图1-15所示。
图1-15 提升可视化视觉效果的十个方面
· 色彩: 使用的图标建议不要超过五种颜色,色彩使用要收敛,仅用于突出关键信息。
· 字体: 所有文字必须字体清晰、大小合适,用于快速选择信息。
· 版式: 要提供符合逻辑的层级,引导用户进行信息阅读,尽可能让图表元素保持对齐,从而保证视觉一致。
· 标注: 谨慎使用标注,仅用于标注关键信息。
· 留白: 要保持足够的留白空间,如果信息量太大,整体会看起来很杂乱。
· 插图: 插图必须符合主题基调,能够提高内容传达效率,否则没有必要用插图。
· 图标: 简约、易懂且具有普遍性,其作用主要是为了便于内容理解。
· 数据: 一组数据对应一份图表就足够了,不要画蛇添足。
· 比例: 确保数据可视化设计中的组成元素比例得当,以便于用户快速阅读。
· 简约: 避免不必要的设计,如文本的3D效果、装饰性的插图和毫无关联的元素等。
对商务数据进行可视化处理时,一般可以按照以下步骤进行。
在开始创建一个商务数据可视化项目时,需要明确数据可视化的需求是什么。首先回答这样一个问题:这个可视化项目会给用户提供哪些帮助?这个问题可以帮助用户避免在数据可视化时把一些不相干的数据放在一起比较。
在确定了可视化项目的目标之后,经过整理、分组与理解信息,寻找其中可视化的可能性。同时,通过观察与比较来总结信息之间的关系,建立基本的数据关系结构,思考如何利用含义清晰的视觉元素将这些数据包装成更加有趣的故事。
在确定需求之后,就可以为数据选择一个正确的可视化类型。数据可视化的效率很高,但前提是准确运用,因为不同类型的数据有其最适合的图表类型,如果使用错误的图表类型去展现,很容易造成误解。
高效的数据可视化不仅取决于信息的可视化类型,还取决于一种平衡,既要保证总体信息的通俗易懂,又要在某些关键点上有所突出,提供深刻甚至独家的信息解读。此外,还需要提供合适的场景来进行上下文的联系,从而合理地架构数据。
故事再好、数据再有吸引力,如果设计得很糟糕,用户也不会被其吸引。优秀的设计同样很关键,这样可以高效地对信息进行转换,利用精美的视觉效果来吸引用户进行阅读。在进行数据可视化设计时,需要为内容而设计,并优化展现形式,如图1-16所示。
图1-16 为内容而设计,优化展现形式
要进行数据分析,离不开有效数据的支持。首先通过数据采集获得原始数据,然后对原始数据进行整合与处理,再根据实际需要将数据集合,才能挖掘原始数据中潜在的重要商业信息,从而掌握真正的核心数据。因此,在进行数据分析之前,首先需要进行数据的采集、清洗和随机抽样等工作,本任务将分别对其进行详细介绍。
数据采集主要针对定性数据和定量数据。定性数据主要采用问卷调研和用户访谈的方式来获取,而定量数据分为内部数据和外部数据两部分。
其中,内部数据可以通过网站日志、业务数据库来获取;外部数据则主要采用网络爬虫抓取的方式来获得,通过编写脚本语言,按照一定的规则来获取网络上的相关信息。当然,外部数据的采集也可以借助第三方统计平台来实现,从某种意义上来说,通过第三方统计平台可以降低中小企业数据采集的门槛。图1-17所示为数据采集方法。
图1-17 数据采集方法
一般在进行用户画像调研时,都会用到问卷调研工具。在进行问卷调研时,首先需要考虑样本的容量,其次是内容的设计,并按照“调研目标→设计问卷→投放问卷→问卷收集汇总→调研结果分析”的步骤展开调研。
在访谈之前,首先要确定访谈目标,然后设计访谈提纲,选择访谈对象,并对访谈及相应情况进行记录,最后针对访谈结果进行分析。在具体分析访谈结果时,可以采用关键词提炼法,针对每个用户对每个问题的回答进行关键词的提炼,并按照关键词的频次进行排序,对共性词进行汇总。
通过网站日志对用户数据及相应行为进行分析,其优点是保证用户的使用行为可以查询,如用户访问数、页面浏览数、停留时长等点击流数据均可通过网站日志获得,同时针对用户的一些误操作还可以通过日志文件进行恢复。在实际运用中,由于从打印日志到处理日志,再到输出统计结果,整个过程很容易出错,所以经常出现业务运行和统计分析两个数据流相分离的情况。
互联网产品后端都有业务数据库,其中存储了销售量、订单量、购买用户数等指标数据。一般通过业务数据库获得的数据都是实时的、准确的,可以直接用于衡量网站的绩效和目标。
对于电商企业来说,一般可以将其用户行为分成四类。
(1)纯粹的浏览行为。
(2)收藏、下载等轻度交互行为。
(3)注册、登录等重度交互行为。
(4)添加购物车、填写地址、下单等与交易相关的行为。
对于第三方统计平台,又可分为无埋点、有埋点和“有埋点+无埋点”三种情况,如表1-1所示。
表1-1 第三方统计平台
通过数据分析获得的结果,不仅依赖于算法,同时还依赖于数据的质量。正所谓“磨刀不误砍柴工”,好数据胜过复杂的模型,所以在进行数据分析之前对采集到的数据进行清洗尤为重要。
数据清洗是指发现并纠正数据文件中可识别错误的最后一道程序,是对数据的完整性、一致性和准确性进行重新审查和校验的过程。一般不符合要求的数据主要有缺失数据、重复数据、错误数据三类,也就是所谓的“脏数据”。而数据清洗的任务就是按照一定的规则将这些“脏数据”洗掉,目的在于删除重复的数据信息,纠正数据中存在的错误,提供数据的一致性。
下面围绕数据清洗这个目的,从缺失数据、重复数据和错误数据三个方面出发,通过运用一些简单的统计学检验和Excel表格工具发现“脏数据”,并对其进行清洗。
在数据采集过程中,缺失值常表示为空值或错误标识符(#DIV/0!)。为了保证数据的完整性,用户可以运用一些统计学方法查找缺失数据并对其进行处理。在查找缺失数据时,利用【Ctrl+G】组合键打开Excel的定位功能,选择其中的错误单元格或空值单元格,就可以进一步查找数据表中的错误值和空白值。
对缺失值的处理一般有以下四种方法。
(1)用一个样本统计量的值代替缺失值。
(2)用一个统计模型计算出来的值代替缺失值。
(3)直接将有缺失值的记录删除。
(4)将有缺失值的记录保留。
下面以采用一个样本统计量的值代替缺失值的方法为例来进行说明,具体操作方法如下。
Step 01 按【Ctrl+A】组合键全选数据表单元格区域,按【Ctrl+G】组合键,打开“定位”对话框,单击“定位条件”按钮,如图1-18所示。
图1-18 “定位”对话框
Step 02 弹出“定位条件”对话框,选中“空值”单选按钮,然后单击“确定”按钮,如图1-19所示。
Step 03 此时即可自动选中表格中的空单元格,如图1-20所示。
图1-19 “定位条件”对话框
图1-20 定位空单元格
在实际操作中,如果样本较大,缺失值较多,可以定位样本中的所有空值,然后利用【Ctrl+Enter】组合键在选中的空值单元格中一次性输入样本的平均值。当缺失数据较少时,也可以通过选取数据前后若干天的数据取平均值作为缺失数据进行填充。
图1-20中显示的是9月下旬网站的销售情况,其中人均消费额为总销售额除以购买人数。由于9月27日的总销售额缺失,导致相应的人均消费额无法计算,考虑到每天的人均消费额保持相对恒定,可以使用其他日期人均消费额的平均值36.80元来进行填充,进而计算得到该日的总销售额为55421元;也可以简单地使用27日前后两天总销售额取平均值进行计算,得到27日的总销售额为45251元,进而计算出人均消费额为30.05元。
重复数据一般可以分为以下两类。
· 实体重复: 即所有字段完全重复。
· 字段重复: 某一个或多个不该重复的字段重复了,如“姓名”字段重复。
为了保证数据的一致性,需要对重复数据进行处理。对于重复数据的查找,一般采用以下四种方法。
①条件格式法
利用Excel条件格式中的突出显示重复值功能,可以将重复的数据及所在单元格标为不同的颜色进行识别,具体操作方法如下。
Step 01 选中A列数据,在“开始”选项卡下“样式”组中单击“条件格式”下拉按钮,选择“突出显示单元格规则”|“重复值”选项,如图1-21所示。
Step 02 弹出“重复值”对话框,在“设置为”下拉列表框中选择一种格式,如“浅红填充色深红色文本”,然后单击“确定”按钮,即可标记所有重复的会员编号,如图1-22所示。
图1-21 选择“重复值”选项
图1-22 设置突出显示重复值
②高级筛选法
利用Excel的“高级筛选”功能可以快速筛选出不重复的记录,具体操作方法如下。
Step 01 选择任一数据单元格,在“数据”选项卡下“排序和筛选”组中单击“高级”按钮,弹出“高级筛选”对话框,程序会自动选中所有的数据区域,选中“选择不重复的记录”复选框,然后单击“确定”按钮,如图1-23所示。
Step 02 此时即可筛选出所有不重复的记录,且重复记录被自动隐藏,如图1-24所示。
图1-23 设置高级筛选
图1-24 查看筛选结果
③函数法
COUNTIF函数可以对指定区域中满足某个指定条件的单元格进行计数。下面利用该函数对会员编号的出现次数进行计数,以此对重复数据进行识别。具体操作方法为:在“会员编号”列右侧插入列,在B2单元格中输入公式“=COUNTIF($A$2:A2,A2)”,然后利用填充柄向下填充公式,即可得出相应的编号第几次出现,如图1-25所示。
图1-25 标记重复次数
④数据透视表法
拖动相应的字段,利用数据透视表也可以统计数据出现的频次,其中出现两次及两次以上的数据属于重复项,具体操作方法如下。
Step 01 选择“插入”选项卡,在“表格”组中单击“数据透视表”按钮,如图1-26所示。
Step 02 弹出“创建数据透视表”对话框,选中“新工作表”单选按钮,然后单击“确定”按钮,如图1-27所示。
图1-26 单击“数据透视表”按钮
图1-27 “创建数据透视表”对话框
Step 03 此时,即可创建一个空的数据透视表。在“数据透视表字段列表”窗格中将“会员编号”字段分别拖入“行标签”和“数值”区域,即可对会员编号进行计数,大于1的即为重复数据,如图1-28所示。
Step 04 对“计数项:会员编号”列进行降序排序,查看重复的会员编号,如图1-29所示。
图1-28 添加报表字段
图1-29 排序计数项
在完成重复数据的查找后,接下来便是删除重复数据。删除重复数据主要有以下三种方法。
①通过删除重复项功能删除重复数据
Excel提供了“删除重复项”功能,可以快速删除重复数据,具体操作方法如下。
Step 01 选择“数据”选项卡,在“数据工具”组中单击“删除重复项”按钮,在弹出的“删除重复项”对话框中选中包含重复项的列,然后单击“确定”按钮,如图1-30所示。
Step 02 弹出提示信息框,显示有多少个重复值被删除,有多少个唯一值被保留,如图1-31所示。
图1-30 “删除重复项”对话框
图1-31 重复项删除完成
②通过排序删除重复数据
在利用条件格式对重复数据进行识别的基础上,可以对重复项标记列进行排序,进而删除重复项,具体操作方法如下。
Step 01 采用前面介绍的方法,利用条件格式突出显示重复项。选择“数据”选项卡,在“排序和筛选”组中单击“筛选”按钮,即可在各字段显示筛选按钮,如图1-32所示。
Step 02 单击“会员编号”筛选按钮,选择“按颜色排序”选项,在其子菜单中选择单元格填充颜色,如图1-33所示。
图1-32 单击“筛选”按钮
图1-33 设置按颜色排序
Step 03 此时即可将所有重复项显示在最上方,直接删除不需要的记录即可,如图1-34所示。
图1-34 查看排序结果
③通过筛选删除重复数据
在利用COUNTIF函数对重复数据进行识别的基础上,可以对重复项标记列进行筛选,筛选出“数值不等于1”的项并进行清除,具体操作方法如下。
Step 01 单击“数据标记”筛选按钮 ,选择“数字筛选”|“不等于”选项,也可在下方数字列表中取消选中“1”复选框,然后单击“确定”按钮,如图1-35所示。
Step 02 在弹出的“自定义自动筛选方式”对话框中将筛选条件设置为“不等于1”,然后单击“确定”按钮,如图1-36所示。
图1-35 选择“不等于”选项
图1-36 “自定义自动筛选方式”对话框
Step 03 此时即可筛选出所有重复的数据,拖动鼠标选中数据单元格区域,如图1-37所示。
图1-37 查看筛选结果
Step 04 按【Alt+;】组合键,选中可见单元格。鼠标右键单击选中的单元格,在弹出的快捷菜单中选择“删除行”命令,即可删除重复数据,如图1-38所示。单击“筛选”按钮,取消筛选状态。
图1-38 删除重复数据
除了缺失数据和重复数据外,其他可能出现数据不规范的情况还有很多,如存在错误数据等。为了保证数据的准确性,需要对错误数据进行处理。
一般情况下,错误数据经常表现为以下两种情况。
例如,在进行问卷调查时,涉及多项选择题最多可选择三项,而答题者却选择了四项或四项以上。对于这种情况,可以结合COUNTIF函数,根据指定的条件利用IF函数判断其“真”(true)、“假”(false),然后根据逻辑计算的真假值返回相应的内容。
下面以客户满意度调查中的多项选择题为例,判断不符合要求的输入信息。
针对“题目1”共设置了A、B、C、D、E、F、G七个选项,围绕这七个选项共有八条记录,这八条记录分别代表了8个不同客户对“题目1”的回答,而且第二条和第五条记录中有超过三项的记录。在I2单元格中输入公式“=IF(COUNTIF(B2:H2,"<>0")>3,"错误","")”,并将公式填充到下方的单元格中,判断被调查者是否选择了三项以上。如果超过三项,则返回“错误”,如图1-39所示。
图1-39 检查不符合要求的记录
在使用0和1输入多选题信息时,若出现了0和1之外的数据,可以采用条件格式利用OR函数标记错误。若出现了10和11这样的数字,明显是错误的。下面使用条件格式标记出错误的数据,具体操作方法如下。
Step 01 选择B2:H9单元格区域,在“开始”选项卡下“样式”组中单击“条件格式”下拉按钮,选择“突出显示单元格规则”|“其他规则”选项,如图1-40所示。
图1-40 选择“其他规则”选项
Step 02 弹出“新建格式规则”对话框,选择“使用公式确定要设置格式的单元格”选项,在下方输入公式“=OR(B2=1,B2=0)=FALSE”,单击“格式”按钮,将单元格格式设置为红底白字,然后单击“确定”按钮,如图1-41所示。
Step 03 此时即可将输入错误的单元格标记出来,如图1-42所示。
图1-41 “新建格式规则”对话框
图1-42 标记输入错误的数据
数据抽样是指从数据样本中按照随机原则选取一部分对象作为样本进行分析,并以此推论总体状况的一种分析方法。在数据抽样中,常用的是RAND函数和“抽样”分析工具。
RAND函数能够返回大于等于0及小于1的均匀分布随机数,每次计算工作表时都将返回一个新的随机数。若要随机抽取0~100之间的数值,只需将随机数公式更改为“=RAND()*100”即可;若要计算a~b之间的随机数,则需要将公式更改为“=RAND()*(b-a)+a”。
下面在50个店铺会员中随机抽取10人发放奖励金,具体操作方法如下。
Step 01 鼠标右键单击“会员编号”所在的A列,在弹出的快捷菜单中选择“插入”命令,如图1-43所示。
Step 02 在“会员编号”列左侧插入新列,为50个会员编号填充1~50的序号,如图1-44所示。
图1-43 插入新列
图1-44 填充序号
Step 03 在D2单元格中输入公式“=INT(1+RAND()*50)”,然后使用填充柄将公式复制到下方的D3:D11单元格区域,其中INT函数用于取随机数的整数部分,如图1-45所示。
Step 04 在E2单元格中输入公式“=VLOOKUP(D2,$A$1:$B$51,2)”,利用VLOOKUP函数生成随机数所对应的会员编号,此时可以看到D列中的随机数将重新计算,如图1-46所示。
图1-45 计算随机序号
图1-46 计算对应会员编号
Step 05 通过单击行号或列标之间的分割线,也可自动重算随机数。要将随机结果进行固定,可选择D2:D11单元格区域,按【Ctrl+C】组合键进行复制,然后单击“粘贴”下拉按钮,选择“值”选项 ,如图1-47所示。
Step 06 除了利用辅助序号列计算随机数外,还可以使用INDIRECT函数与RANDBETWEEN函数实现随机抽取。不必插入“序号”列,直接在C2单元格中输入公式“=INDIRECT("A"&RANDBETWEEN(2,51))”,然后利用填充柄向下复制公式即可,如图1-48所示。
图1-47 粘贴为值
图1-48 直接抽取随机编号
除了使用RAND函数计算随机数外,还可以使用Excel加载项中的“抽样”工具随机抽样,具体操作方法如下。
Step 01 打开“Excel选项”对话框,在左侧区域中选择“自定义功能区”选项,在右侧区域中选中“开发工具”选项卡,然后单击“确定”按钮,如图1-49所示。
Step 02 选择“开发工具”选项卡,在“加载项”组中单击“加载项”按钮,如图1-50所示。
图1-49 “Excel选项”对话框
图1-50 单击“加载项”按钮
Step 03 弹出“加载宏”对话框,选中“分析工具库”复选框,然后单击“确定”按钮,如图1-51所示。
Step 04 新建工作表,在A1:J10单元格区域中输入员工编号,并选中该单元格区域,如图1-52所示。
图1-51 “加载宏”对话
图1-52 输入员工编号
Step 05 按【Ctrl+1】组合键,打开“设置单元格格式”对话框,在“分类”列表框中选择“自定义”分类,在右侧区域中输入类型代码,然后单击“确定”按钮。由于“抽样”工具无法应用于文本数据,所以不能直接输入编号,需要对其自定义数字格式,如图1-53所示。
图1-53 “设置单元格格式”对话框
Step 06 此时,即可自定义会员编号的显示格式。选择“数据”选项卡,在“分析”组中单击“数据分析”按钮,在弹出的“数据分析”对话框中选择“抽样”选项,然后单击“确定”按钮,如图1-54所示。
图1-54 “数据分析”对话框
Step 07 弹出“抽样”对话框,设置输入区域、样本数及输出区域,然后单击“确定”按钮,如图1-55所示。
图1-55 设置“抽样”对话框
Step 08 此时即可从100个编号中随机抽取10个作为样本,如图1-56所示。
图1-56 编号随机抽样结果