购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.3 气象大数据的基本概念

互联网是大数据的基本背景。随着互联网的迅速发展,超大规模的行为、状态和现象的信息被实时采集和开放,海量数据的处理、分析和挖掘方法得到广泛应用,全社会开始对数据的巨大价值有了重新认识。

1.3.1 气象大数据的定义

大数据,从字面上理解就是大量的数据、海量的数据,这些数据可以是所有格式的东西,比如日志、音频、视频、文件等。值得指出的是,绝不是拥有很多数据就叫大数据,大数据是一种数据分析方式,与传统数据分析方式有着本质上的不同,是互联网发展到现今阶段的一种特征,在以云计算为代表的技术支撑下,原本很难收集和使用的数据开始容易被利用起来了。

面对大数据,不光是数据量很大,而且数据的维度也很多,人工不可能去处理这样海量的数据,甚至如何处理都不知道,这时必须用电脑来自动处理,挖掘出数据中的规律。目前电脑还不能进行复杂的逻辑思维,只能进行简单的统计运算,找出其中的规律,统计出在什么情况会出什么样的结果,然后当类似的情况再出现时,电脑就会告诉我们可能会出现某种结果。这就是大数据的核心,也就是说,大数据主要是进行预测,告诉你未来将会出现什么样的结果,而不是只分析出过去的走势和现状,由人来判断未来。因为数据量非常大,所以大数据预测出来的结果就往往是正确的,大数据自动挖掘就是依据这一原理。

这里没有严密的因果分析,不是通过数据分析出原因再推导出结果,而是通过统计而知道有这样的情况,一般就会有这样的结果,也即现象与结果的相关性。所以大数据就有另一个显著的特点:只关心相关性,不关心因果。

气象数据集中于观测、计算数据以及交换数据,具有极强的实时性,是具有海量、高增长特征的信息资源,广泛存在于各级气象部门的业务系统中。气象数据大多是气象业务数据,从一开始,其采集生成的直接目标就是满足对天气系统的分析和预报,研究构成气候的大气长期统计特性,故专业性强、技术标准明确。

天气系统是典型的非线性系统,无法运用简单的统计分析方法来对其进行准确预报。人们常说的南美丛林里一只蝴蝶扇动几下翅膀,会在几周后引发北美的一场暴风雪这一现象,形象地描绘了气象科学的复杂性。因此,大数据并不适用于天气预报业务。但是,这并不意味,为气象业务而生的气象数据没有更大的作用。气象数据是一种数据资源,与科学研究、政府管理、行业生产和社会生活有着密不可分的关系,气象数据已经成为新时代的一种战略优势。如何构建气象的大数据、存储与管理、分析与挖掘气象数据的更广泛的科学价值和社会价值将成为气象行业的一个新领域。

总之,大数据是具有体量大、结构多样、时效性强等特征的数据,处理大数据需要采用新型计算架构和智能算法等技术,大数据应用注重相关分析而不是因果分析。

气象数据具备大数据的特征。当气象数据为应用气象的开展提供新的思路时,换句话说,当气象数据采用新型计算架构和智能算法进行挖掘应用,用来满足社会需求时,它就被称为气象大数据。

综合以上分析,本书对气象大数据的定义如下:气象大数据是指采用新型计算架构和智能算法进行社会化挖掘应用的,从气象观测采集到所有气象业务生成、交换、集成、计算和制作的数据,包含了所有与气象相关的业务数据及衍生数据。

气象大数据的意义不在于掌握庞大的数据信息,而在于对这些含有意义的气象数据进行社会化挖掘应用。换而言之,如果把气象大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对气象数据的“加工能力”,通过“加工”实现气象数据的“增值”。

1.3.2 气象大数据的特征

气象大数据除了具备大数据的“四V”特征之外,还具备气象行业所特有的特征。

1)气象大数据具备大数据的“四V”特征

(1)海量的数据规模(Volume)。数量巨大是大数据最显著的特征。截至2015年,中国气象局每天处理的数据达到6.54 TB;而预计到2020年,这一数值将升至近63 TB。目前,我国气象行业保存的气象数据总量达到PB级,每年新增加的数据量也接近PB级,且数据量仍以前所未有的速度持续增加。如何处理超大规模的气象数据已经成为气象部门亟待解决的问题,也是气象大数据要解决的核心问题。

(2)多样的数据类型(Variety)。数据来源广泛、类型多样、结构各异是大数据的重要特点。随着互联网的飞速发展,目前,气象行业不仅具有传统的结构化数据,而且具有以文本、图形、语音、视频等非结构化数据,且非结构化数据的增长速度越来越快。

(3)快速的数据流转(Velocity)。数据的创建、分析和处理的速度快是气象数据的业务要求。气象数据的采集、传输和处理原本就是实时的。

(4)价值密度低(Value)。气象数据的专业特性,使得数据的价值利用密度并不高。

2)气象大数据具备气象行业所特有的特征

(1)时序特性。气象行业产生的大量数据来自自动气象站、卫星和雷达等探测设备对大气状况的不断观测,这些采集到的数据通常都是时间序列,具有时序特性。

(2)多尺度特性。气象观测设备存在不同的数据采集周期,这就造就存在不同的时间尺度。

(3)多维特性。对大气的描述需要不同维度的观测,如空间分布、物理化学特性等。

1.3.3 气象大数据的分类

气象数据是兼具时间和空间特性的描述地球大气状况的科学数据。气象数据一般分为观测数据和预报数据。采集观测数据的气象站点遍布全球,观测范围从几千米的高空到地面。预报数据大多是数值预报模式数据,计算出的天气预报结果通常以规则的等经纬度网格来表示,网格上的每一个点代表这个经纬度上未来某时刻某个物理量(比如温度)的数值。

按照《气象资料分类及编码》(QX/T 102—2009),气象数据主要包括:地面气象数据、高空气象数据、海洋气象数据、气象辐射数据、农业气象和生态气象数据、数值预报数据、大气成分数据、历史气候代用数据、雷达气象数据、卫星气象数据、气象服务数据、其他数据,如表1-1所示。

表1-1 气象数据分类

(续表)

气象大数据可依据来源、结构、维度的不同而分类。

1)气象大数据的来源

根据气象行业的业务体系,气象大数据的来源包括:观测数据、预报数据、服务价值数据、业务运行数据以及外部数据,如图1-1所示。

图1-1气象大数据按来源分类

(1)观测数据。包括地面气象观测、高空气象观测、海洋气象观测、气象辐射观测、农业气象和生态气象观测、雷达气象观测、大气成分观测、卫星气象观测等。

(2)预报数据。包括历史气候代用数据、数值预报数据、气象服务数据等。

(3)服务价值数据。包括客户、合作伙伴、联系人、合同、满意度等。

(4)业务运行数据。包括组织结构、管理制度、行业标准、行业政策法规、行业设备、知识产权、工作计划、办公文电等。

(5)外部数据。包括经济数据、政策法规、行业数据、灾害事故等。

2)气象大数据的结构

根据存储的形式不同,气象大数据可分为结构化数据、半结构化数据和非结构化数据。

(1)结构化数据。结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。所以,结构化数据的存储和排列是很有规律的,这对查询和修改等操作很有帮助。

(2)半结构化数据。半结构化数据是结构化数据的一种形式,它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层;因此,它也被称为自描述结构。半结构化数据,属于同一类实体可以有不同的属性,即使它们被组合在一起,这些属性的顺序并不重要。通过这样的数据格式,可以自由地表达很多有用的信息,包括自我描述信息(元数据);所以,半结构化数据的扩展性是很好的。半结构化数据包括各类XML文件、Jason描述文件、不同形式的接口文档、各类运营系统日志文件等。

(3)非结构化数据。顾名思义,就是没有固定结构的数据,各种文档、图片、视频/音频等都属于非结构化数据。对于这类数据,我们一般直接整体进行存储,而且一般存储为二进制的数据格式。非结构化数据包括影音录像多媒体资料、遥感影像、卫星云图数据等。

图1-2气象大数据的不同结构

3)气象大数据的维度

(1)气象大数据具有时空维度。气象大数据是兼具时间和空间的地球科学数据。

①时间维度。气象数据分为两类:一类称为观测数据,一类称为预报数据。

观测数据来自不同的观测设备,观测手段从高科技的雷达卫星到最原始的人工观测,这些数据的采集都是为了更真实地反映出地球大气圈的运动变化。由于这些数据是描述过去大气特征的,因此也称之为“过去数据”。观测数据是气象学科发展的最基础数据,也是模式数据产生的源头。如果没有观测数据,计算机在运算“模式数据”时就少了初始值,即使是回归到没有计算机的人工预报时代,少了观测数据也无法进行天气预报。

预报数据是大多由各类计算机程序运算生成的模式数据,属于预测未来的数据。由于这些数据是描述未来大气特征的,因此也称之为“将来数据”。模式数据是由高性能计算机根据当前天气观测数据(包括地面、高空、卫星等)通过物理方程计算得出的。因为计算量非常庞大,运用到的计算公式异常复杂,运算出的数据量也是十分惊人的。可以形象地认为,有这样一套庞大的计算天气预报的程序,输入当前已知的天气现象,就可以输出未来还没有发生的天气现象,这就是现代天气预报业务的基础——“数值模式预报”,而这个庞大的计算机程序就被称为“模式系统”。模式系统一般每天计算2~4次,通常在整点开始,利用整点前采集到的实况数据进行计算,每次计算要生成大概几百个物理量,包括从开始计算的时刻(起报时刻)至未来240 h时效(或更长)的一系列二进制网格数据,预报时效通常间隔3 h。

②空间维度。平面上,采集实况数据的气象站点遍布全球;垂直分布上,观测范围从几千米的高空到地面。数值模式预报计算出的天气预报结果通常以规则的等经纬度网格来表示,网格上的每一个点代表这个经纬度上未来某时刻某个物理量的数值,目前气象网格经纬度间距一般在0.25°数量级。

(2)气象大数据具有物理特征维度。气象大数据是表明大气物理状态、物理现象以及某些对大气物理过程和物理状态有显著影响的物理量,主要有气温、气压、风、湿度、云、蒸发、能见度、辐射、日照以及各种天气现象,如表1-2所示。

表1-2 气象要素表

(续表)

4)气象数据集核心元数据

气象大数据的描述目标就是利用元数据模型实现对气象数据描述和集成,为社会提供持续的、易于使用的数据资源。

(1)术语和定义。

气象元数据是关于数据的组织、数据域及其关系的信息,是描述数据的数据,通常包括对数据的标识、内容、质量、状况和其他特性的描述。

数据集(dataset):可以标识的数据集合。

元数据(metadata):是关于数据的数据,通常包括对数据的标识、内容、质量、状况和其他特性的描述。

元数据元素(metadata element):元数据的基本单元。

元数据实体(metadata entity):一组说明数据相同特性的元数据元素。

核心元数据(core metadata):描述数据集的最基本属性。

类(class):对拥有相同的属性、操作、方法、关系和语义的一组对象的描述。

(2)描述方式。

采用规范化方式定义和描述气象数据集核心元数据实体和元数据元素,包括中文名称、英文名称、短名、定义、约束/条件、最大出现次数、数据类型和域。

中文名称:元数据实体或元数据元素的中文名称。

英文名称:元数据实体或元数据元素的英文名称,宜用英文全称组合。

短名:元数据实体或元数据元素的英文缩写名称。命名规则:短名在行业标准范围内应唯一;长度一般不超过8位英文字符;采用与国际标准类似的英文名称作为短名。如果元数据实体或元数据元素的英文名称不超过8位英文字符,短名直接采用英文名称。对于元数据实体或元数据元素的英文名称超过8位英文字符的,如果英文名称由单个单词组成,则取该单词的各音节缩写作为英文短名;如果英文名称由多个单词组成,则取每个单词的第一音节缩写作为英文短名。

定义:描述元数据实体或元数据元素的基本内容。

约束/条件:元数据实体或元数据元素是否必须选取的属性,包括必选(M)和可选(O)。

最大出现次数:元数据实体或元数据元素可以具有的最大实例数目。只出现一次的用“I”表示,重复出现的用“N”表示。允许不为“1”的固定出现次数用相应的数字表示,如“2”“3”等。

数据类型:有效值域和允许该值域内的值进行有效操作的规定。

域:可以取值的范围。

(3)核心元数据内容。

核心元数据实体和元素见附录“气象数据集核心元数据字典”,它完整定义了气象数据集核心元数据的整体抽象模型,其中通过对域的分析可以明确各元数据元素及实体之间的关系。 fV5XheCgglOlUUkwrI0WsP5mke+89FXdYGogll8IBgM88Fluq2N9mJI9YUAfPlYT

点击中间区域
呼出菜单
上一章
目录
下一章
×