微课1-2
大数据(Big Data)本身是一个比较抽象的概念,单从字面来看,它表示规模庞大的数据。针对大数据,目前存在多种不同的理解和定义。维基百科对“大数据”的解释是:大数据或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工在合理时间内实现截取、管理、处理并整理成为人类所能解读的信息。维克托·迈尔-舍恩伯格和肯尼思·库克耶编写的《大数据时代》一书认为,大数据具有4V特征,即规模性(Volume)、高速性(Velocity)、多样性(Variety)、价值性(Value)。
数据是一种对客观事物的逻辑归纳,是事实或观察的结果。随着科学技术的发展,凡是可以电子化记录的都是数据,如社交网络产生的社交数据,购物网站产生的大量客户及购物数据,物联网技术催生的车联网数据,等等。数据的内涵越来越广泛,不仅包括像GDP、股市指数、人口数量等数值型数据,还包括文本、声音、图像、视频等非数值型数据。数据类型有3种常见的分类方法,分别是按结构属性分类、按连续特征分类与按测量尺度分类。
1. 按结构属性分类
按结构属性分类,数据可以分为结构化数据与非结构化数据两种。它们不仅存储形式不同,在数据处理和数据分析的方法上也大相径庭。
结构化数据通常是指存储在数据库里,可以用二维表结构来表示的数据。从数据存储角度看,Excel表格数据,SQL Server数据库和Oracle数据库中的数据,都是结构化数据;从应用的角度看,企业ERP系统数据、企业会计信息系统数据、银行交易记录数据等,也是结构化数据,它们大多存储在大型数据库中,用户可以方便地检索、分析和处理。
非结构化数据通常是指不能用二维表结构来表示和存储的数据。相对于结构化数据而言,非结构化数据没有统一的规则,涉及音(视)频、图片、文本等形式。例如,利用一定手段从网站抓取的新闻数据、某个电影的评价数据等,都需要通过一定的方法,将这些数据量化为结构化数据,才能进行有效的分析。
2. 按连续特征分类
按连续特征分类,数据又可以分为连续型数据与离散型数据。连续型数据与离散型数据的区别,可以用线、点来区分理解。
连续型数据是指在一定区间内可以连续取值的数据。例如,人的身高、体重数值,气温度数,电影票房收益等。
离散型数据也被称为不连续数据,其取值只能用自然数或整数表达。例如,硬币的正反面取值、某人的学历取值等。
3. 按测量尺度分类
按测量尺度,数据可分为4类,即定类数据、定序数据、定距数据和定比数据。
(1)定类数据表现为类别,用于标识数据所描述的主体对象的类别或者属性名称。定类数据只能用来标识事物类别或名称,不区分顺序,无法描述大小、高度等信息,不能进行任何运算,包括比较运算。比如,人的性别分为男性和女性两类,量化后可分别用0和1表示;企业按行业分类,分为旅游业、教育业、制造业、建筑业、金融业等,分别用数字1、2、3、4、5表示。这些数字只是代号,不能区分大小或进行任何数学运算。
(2)定序数据表现为类别,但有顺序,也称为序列数据,用于对事物所具有的属性按顺序进行描述。定序数据虽然可以用数字或者序号来排列,但并不代表数据的大小,只代表数据之间的顺序关系。例如,人的受教育程度分为高中毕业、大学本科毕业、硕士研究生毕业、博士研究生毕业,分别用1、2、3、4表示,这些只代表顺序,按照大小正序排列,但不能进行计算。定序数据不仅具有定类数据的特点,可以将所有的数据按照互斥穷尽原则(MECE原则)加以分类,而且各类型之间具有某种意义上的等级差异,从而形成一种确定的排序。
MECE(Mutually Exclusive Collectively Exhaustive,相互独立、完全穷尽)是麦肯锡咨询顾问芭芭拉·明托在《金字塔原理》中提出的一个思考工具。
分析问题时,在把整体层层分解为要素的过程中,工作人员应遵循“相互独立、完全穷尽”的基本法则,确保每一层的要素之间“不重叠、不遗漏”。
MECE原则是一种简洁有力的思维工具。SWOT分析、波特五力模型、波士顿矩阵、平衡计分卡等都是建立在MECE原则基础之上的战略分析工具。
(3)定距数据是由定距尺度计量形成的,表现为数值,可以进行加减运算,不能进行乘除运算。定距数据没有绝对零点,比如温度计的零点是人为指定的,并不能说20℃就是10℃的两倍,但可以说20℃比10℃高10℃。
(4)定比数据是由定比尺度计量形成的,表现为数值,既可以进行加减运算,也可以进行乘除运算。定比数据代表数据的最高级,既有测量单位,也有绝对零点(可以取值为0)。比如,小明的体重是60千克,小刚的体重是30千克,我们可以说小明的体重是小刚体重的2倍。
由此可以看出,定类数据和定序数据表现为分类,属于定性数据;定距数据和定比数据表现为数值,属于定量数据。
如何界定企业的财务大数据,不同学者持有不同的观点。本书作者认为,企业的财务大数据主要包括企业内部数据和企业外部数据两种。
1. 企业内部数据
企业内部与财务相关的大数据主要来自ERP系统或会计信息系统中的财务、业务数据,例如用友U8、金蝶K3、SAP等系统中的数据,以及存储在Access、SQL Server、Oracle等数据库中的数据。在做数据分析时,我们需要将这些数据从信息系统中导出。
2. 企业外部数据
企业外部与财务相关的大数据主要包括政策法规文件、行业数据、客户(供应商)数据、国家统计数据等。
企业内部数据的获取相对容易,企业外部数据主要来自公开的网站。
就各种结构化数据而言,我们可以通过国家统计局网站获取各种宏观经济数据,通过中国人民银行网站获取各种金融统计数据,通过财政部网站获取其定期公布的各种财政数据,通过上海证券交易所网站和深圳证券交易所网站获取各种证券交易数据,还可以通过一些权威的财经类网站,如新浪财经获取各种相关数据。此外,一些金融数据库,如Wind数据库、锐思数据库、CSMAR数据库等也可以提供各种有价值的数据,但是这些数据库需要购买方可使用。
对于非结构化数据,我们通常可以通过各上市公司的公告信息或者证券交易所的公告获取。一些行政法规、处罚公告、法律文书等也可以通过相关网站获取。