术语“流”描述的是持续不断的数据流。随着时间的推移,数据的可用性将逐渐增强,这意味着无须等待整个数据集完成,就可以将其下载下来并进行操作。
数据流由一系列按时间顺序排列的数据点组成,如图1-1所示。
图1-1:数据流
每个数据点代表一个事件或业务状态的变化。这些事件可能是实时发生的,比如来自某个组织的一系列事务流或物联网(IoT)传感器发出的一连串读数。
不同的数据流之间有一个共同点,即它们会在业务系统运行的同时持续产生数据。这些事件流由业务系统中不同的数据源生成,具有各种格式和体积大小。
我们还可以将数据流视为一系列不可变、按时间排序的事件,承载着业务中发生的状态变化的事实。数据流的来源包括但不限于电子商务中的交易、游戏中玩家的活动、来自社交网络的信息、点击流数据、Web服务器的活动日志、传感器数据以及数据中心连接设备或仪器的遥测数据。
下面是一个事件示例:
ID为1234的用户在2022/06/12 12:23:212以3.99美元的价格购买了物品567。
事件是过去发生的事实的不可变表示。该示例的事实如表1-1所示。
表1-1:事件示例中的事实
通过聚合并分析事件流,企业可以实现对客户的洞察,并利用这些信息改进其产品。在下一节中,我们将讨论理解事件的不同方法。