购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

3.1 数据来源与数据格式

数据是指尚未经整理的第一手数据,没有分类,没有组织,多半包含了有用与没有的记录。通常因为缺乏结构或整理,其实用性低且所占空间大。

知识管理(Knowledge Management)是流程管理学在商业上的应用,指的是从最原始未整理的数据经由一系列系统化的方式产生知识价值的过程。知识管理定义知识生产的4个阶段:数据、信息、知识与智慧。

● 数据是指未经处理、整理可能包含许多噪声的第一手素材。

● 信息是指经过整理且可用性得到提高的加工数据。

● 知识是结合使用者的经验与数据、信息进而产生有意义的内容。

● 智慧是将知识转化成创造效益及价值的应用层面。

数据分析其实也是以知识探索为目的的一种方法,更强调如何将数据一层一层挖掘出有价值知识的过程。

3.1.1 数据来源

如果将信息比喻成主厨精心烹调的料理(熟肉),则数据就是未经处理的原料素材(生肉)。因此,如果想要产出好的数据价值,必然要从适合的数据下手。常见的数据分析流程是“思考目标—找数据—整理数据—应用数据”。得益于网络科技的普及,搜索引擎是寻找数据的第一个起步点。除此之外,随着开放数据的话题兴起,现在也有越来越多的官方或非官方组织将其数据公开让大家使用。一般来说,数据拥有方会以下列几种方式发布数据。

● 文件:数据会以文件的形式供用户下载。文件格式一般是常用的标准格式,如CSV、JSON等通用格式。如果已经有制式的格式,文件相对容易处理,一般的程序语言或商业软件都具备读取功能。不过还有一些很常见的文件格式,如XLS、PDF,不是很容易处理,需要更多的工具协助才可以。

● 应用程序接口(Application Program Interface,API):提供程序化的接口,让工程师/分析师可以选择数据中要读取的特定部分,而不需要事先把整批数据都完整下载下来。API一般直接连接到一个数据库,而数据库储存的数据都是即时最新版本的数据。简单来说,API可以实现以下功能:用户调用查询功能,服务器根据用户需求回传数据。调用的方式有POST或GET。回传数据一般也是通用格式(如JSON或XML等)数据。

● 网页爬虫:经常出现数据的地方就是网页。用户常常会发现,数据并不是一个特定的文件,也没有API可以使用,而是仅仅出现在网页上。这样,用户就只能自己写一个网页爬虫程序,把自己想用的数据从网页上“爬”下来。

注意 文件与应用程序接口都是由数据拥有方主动提供的,视为优先考量的方法。网页爬虫是由数据拥有方被动揭露的。

3.1.2 数据格式

取得和整理数据是一件麻烦的事情。用户取得数据后必须先花很多时间对数据做整理。因此,数据必然需要以文件的方式存储。几种常见的数据格式如下。

CSV(Comma Separated Values,逗号分隔值):一种常见的数据格式,使用逗号分隔不同栏位。CSV文件可以使用一般的文字编辑器以原始格式开启,也可以使用Excel或Number等试算表软件,以表格方式开启。一般格式如下,第一列标头会记录栏位名称,第二列开始记录数据。

● 优点:结构单纯,人机皆可读,文件小。

● 缺点:结构松散(未限定编码,没有栏位名称),格式容易误判,存在换行问题。

JSON(JavaScript Object Notation,JavaScript对象简谱):一种轻量级纯文字数据交换格式。每一笔数据都会用{数据属性:数据数值}这样Key-Value组合的格式记录,也支持以巢状格式存储。

● 优点:可以存放结构较复杂的数据,大部分浏览器支持。

● 缺点:文件较大(不过比XML小),不一定适合转换成表格形式。

XML(eXtensible Markup Language,可延伸标记式语言):一种标记式语言(类似于网页HTML格式),支持处理包含各种信息的数据等。

● 优点:可以存放结构较复杂的数据,大多浏览器可帮忙排版成较易读格式。

● 缺点:文件较大(比JSON更大),不一定适合转换成表格形式。 tOcWHgdh57flk4XHhnV++XBibfpEPMtCsH4R+ch8jiSSKuy0J0jK7YeqgdzXgNtq

点击中间区域
呼出菜单
上一章
目录
下一章
×