购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.5 数据集市的逻辑模型

2.5.1 确定数据集市的需求

需求分析是数据集市建模的基础,它的任务是通过详细考察现实世界中要处理的对象,充分了解原系统的工作概况,明确用户的数据需求。概言之,需求分析就是要明确用哪些数据,并经过分析来支持用户决策。为此,需求分析要解决如下问题:

1)确定主题域

明确对于决策分析有哪些最有价值的主题领域、每个主题的维度及维度的粒度层次等。

2)确定数据的来源

明确与主题有关的数据源及其提供决策支持的细节程度等。

3)确定数据集市的成功标准和关键性能指标

明确衡量数据集市成功与否的标准、关键的性能指标、数据集市的期望及预期用途有哪些等。

4)确定数据量与更新频率

明确数据集市要处理的数据总量、决策所要求的数据更新频率、数据集市中数据的时间跨度。

航站楼旅客服务资源数据集成的数据集市的需求如下:

(1)主题包括旅客流量预测及预警、行李处理需求预测以及航站楼延误空间分析。

(2)所需的数据源见本章2.4.1节。

(3)衡量数据集市是否成功的标准:

① 能否支持分时段的旅客流量预测;

② 能否支持分时段的行李处理需求预测;

③ 能否支持航班延误的空间分析。

(4)数据集市的更新频率为每半小时一次。

2.5.2 确定数据集市模型的结构

数据集市模型的结构分为星形结构或雪花形结构。由于星形结构的数据模型比较适合用来对单个主题进行建模,因此,旅客流量预测及预警数据集市、行李处理需求预测数据集市、航班延误空间分析数据集市均采用星形结构的数据模型。这些模型能够满足应用程序对数据访问速度的要求。星形结构的数据模型包括维表和事实表。维表和事实表的设计需要权衡数据集市的建模需求以及能够获取的数据两方面的因素。低粒度的数据可以聚合成高粒度的数据,以空间代价换取数据查询的高效率。

1.旅客流量预测及预警数据集市的模型

模型如图2-6所示。

图2-6 旅客流量预测及预警数据集市模型

1)维度

(1)时间维表

时间维从低层概念到高层概念依次为半小时时段、小时时段、日期、月份、季度、年度,并有星期几和节假日的指示。根据不同分析预测目的的需求,可能需要不同的时段数据,如半小时客流量预测可用于分配值机柜台、安检通道等服务资源,还可以进行航站楼的高峰流量预警,而日客流量分析预测则不具有分配调度服务资源的功能,主要是流量预警及其他功能。工作日、周末以及节日航站楼的客流量可能会有所差异,因此加入星期几、节假日指示符是为了让分析及预测更加准确。

(2)航班维表

航班维的关键字段为航班ID,每个ID对应唯一的航班。该维可用于从具体的航班客流量分析到某一个航空公司所有旅客的客流量分析。若不用此维度,则聚集整个航站楼某时间段的客流量分析。

(3)航班延误情况维表

航班延误情况维表主要是用来进行航站楼流量预警的,延误状况是判断对应时段内是否有延误情况发生,再具体到延误的国内、国际航班数量,哪些航班延误,将决定国内、国际候机厅有多少旅客延误。

2)度量

度量是事实表中存储的数据,通常为数值型。流量预测及预警的度量主要存储网上值机旅客到达流量、非网上值机旅客达到流量,这两个度量值预测及预警都会用到,而视频监控人数和延误旅客人数是供预警使用的。度量是由多维模型中所有维或其中部分维所对应确定的,如时间维选定为某一天的8:31—9:00半小时粒度,航班维确定为南方航空公司,那么就确定了在这半小时内南方航空公司所有的航班到达的网上值机旅客人数和非网上值机旅客人数。在数据立方体模型中可通过聚合函数由南方航空公司旅客数再聚合到所有航空公司半小时的旅客到达航站楼的总人数。

2.行李需求预测数据集市

模型如图2-7所示。

图2-7 行李需求预测数据集市模型

1)维度

(1)时间维表

行李预测数据集市预测的目的主要针对每一航班的行李数量进行预测,因此,此处的时间维主要作为行李预测的一个影响属性,星期几、航班所处的时段都可能会影响航班托运的行李数量。不同的月份、季节也会是影响行李托运数量的可能因素。

(2)航班维表

航班维表存储航班ID、航班所属航空公司及航班号,每一确定的航班都有一个对应的计划飞行时间。此处飞行时间将作为行李托运数量的一个可能影响因素。

(3)航班类型维表

用于存储航班类型、航班目的地。航班类型分为国内航班及国际航班,国内国际航班的托运行李情况可能会有差异,因此作为一个可能影响因素存在。航班目的地是为了辅助就某一目的地所有航班的托运情况进行分析预测。

2)度量

度量存储航班的人数及行李数量,人数是行李数量预测的一个最重要的影响因素。同样,通过聚集函数可以将每航班的行李数量汇总到航空公司级的总量等。

3.航班延误空间分析数据集市

构建的模型如图2-8所示。

图2-8 航班延误空间分析数据集市模型

1)维度

(1)时间维表

时间维与前两个数据集市星形模型相类似,可分析在不同时间粒度下的空间延误情况。

(2)航班维表

航班维表与前两个数据集市模型相比多了航班延误状态及延误的原因,航班延误状态是确定航班是否延误以及延误的程度,延误原因主要有流量控制、天气原因等。

(3)航班类型维表

延误空间分析涉及港航班及离港航班。到港航班的起点或离港航班的终点是确定延误相关的机场。

2)度量

在延误空间分析事实表中存储了航班飞行距离、延误时间两个度量值。飞行距离是延误的一个可能因素。延误的时间则是本研究所重点关注的,如何应对各种延误情况关系到服务资源的分配及调度。不同维度粒度的确定将决定不同的度量值,如不同的时间粒度与不同的起终点以及延误的原因将决定不同的延误时间。 E8bXzC9GJVhm3xDI1yQNScXg+qPrlwHAU2WAudLNIIVG9BNA4q6XaMNSCTAuLk61

点击中间区域
呼出菜单
上一章
目录
下一章
×