数据资源来源多样,可以分为内部系统产生数据、互联网采集数据、物联网设备采集数据和外部流通交易数据。表2-2展示了数据资源的来源、采集方式及分类。
表2-2 数据资源的来源、采集方式及分类
内部系统产生的数据资源是企业内部各种业务系统和信息系统产生的包括销售、客户关系、财务、生产、供应链和人力资源等方面的数据。
内部系统主要是指企业内部的各种业务系统和信息系统,这些系统记录了企业的各种业务活动和运营情况,为企业提供了重要的数据支持和管理基础。以下是一些常见的内部系统产生数据资源的方式。
(1)业务系统记录
● 销售系统:记录了客户订单、销售合同、销售报价等销售业务相关的信息。
● 客户关系管理(CRM)系统:记录了客户的基本信息、交流记录、投诉反馈等客户关系信息。
● 财务系统:记录了企业的财务交易、凭证信息、财务报表等财务数据。
● 生产制造系统:记录了生产计划、生产工艺、生产过程监测数据等生产制造业务相关的信息。
● 供应链管理系统:记录了供应商信息、采购订单、库存数据等供应链管理业务相关的信息。
● 人力资源管理(HRM)系统:记录了员工信息、考勤数据、绩效评价等人力资源管理业务相关的信息。
(2)数据仓库和数据库
企业会将内部系统产生的数据集中存储在数据仓库或数据库中,以便进行数据管理和数据分析。数据仓库可以存储历史数据和大量数据,支持企业的数据分析和决策支持。数据库通常用于存储实时数据和交易数据,支持企业的业务运营和实时监控。
(3)日志记录和审计跟踪
企业内部系统通常会记录操作日志和审计跟踪信息,记录系统的操作记录、用户访问记录、异常事件等信息,用于系统监控和安全审计。
(4)实时数据流
一些内部系统产生的数据资源是以实时数据流的形式产生的,例如传感器数据、监控数据等。这些数据通常以流的形式进行处理和分析,用于实时监测和控制。
(5)API
一些内部系统可能提供API,允许其他系统或应用程序通过API访问和获取数据资源。企业内部不同系统之间可以通过API进行数据交换和共享,实现系统集成和数据流通。
(6)定时批量处理
一些内部系统产生的数据资源是通过定时批量处理的方式生成的,例如每日报表、每月结算数据等。这些数据通常需要经过一定的数据处理和加工才能生成最终的数据报表或数据文件。
内部系统产生的数据资源可以根据其来源、内容和用途进行分类,以下是一些常见的分类方式。
(1)业务数据
● 销售数据:包括销售订单、销售合同、销售报价等销售业务相关的数据。
● 客户数据:包括客户基本信息、交流记录、投诉反馈等客户关系管理数据。
● 财务数据:包括财务交易、凭证信息、财务报表等财务管理数据。
● 生产数据:包括生产计划、生产工艺、生产过程监测数据等生产制造业务相关的数据。
● 供应链数据:包括供应商信息、采购订单、库存数据等供应链管理业务相关的数据。
● 人力资源数据:包括员工信息、考勤数据、绩效评价等人力资源管理数据。
(2)实时监控数据
● 传感器数据:记录了环境数据、设备状态数据等实时监控数据。
● 监控摄像头数据:记录了监控摄像头捕捉到的实时视频数据。
(3)定时报表和统计数据
● 每日报表:记录了每日的业务活动情况和业务指标数据。
● 每月统计数据:记录了每月的业务指标统计数据和财务报表数据。
(4)交易数据和历史数据
● 交易数据:记录了交易过程中的数据和交易记录,如销售订单、采购订单、付款记录等。
● 历史数据:记录了历史业务活动和操作记录,用于业务分析和历史数据回溯。
(5)实时流数据
数据流:以流的形式产生的实时数据,如传感器数据流、网络数据流等。
互联网采集的数据资源包括用户生成内容、网络交易信息、搜索引擎数据、社交媒体信息、传感器数据等多种来源的数据。
互联网采集数据的方式多种多样,根据采集目的、数据类型和数据来源的不同,可以采用不同的采集方法和技术。以下是一些常见的互联网采集数据的方式。
(1)网络爬虫
● 基于规则的爬虫:根据预先定义的规则和模板,从网页中提取结构化数据,如使用XPath、CSS选择器等技术定位和提取目标数据。
● 基于模拟浏览器的爬虫:使用自动化工具(如Selenium)模拟用户浏览器行为,执行JavaScript代码,获取动态生成的网页内容。
● 基于API的爬虫:利用网站提供的API直接获取数据,而不是从网页中提取数据,通常速度更快,稳定性更高。
(2)数据抓取工具
● 专业数据抓取工具:如Octoparse、ParseHub等,提供可视化操作界面,通过拖曳配置和设置规则,快速抓取网页数据。
● 通用数据提取工具:如Craw4AI、Octoparse和Bright Data等,提供灵活的编程接口,支持定制化的网页数据抓取和处理。
(3)网络监测与分析工具
● 网络流量监测工具:如Wireshark、Tcpdump等,用于捕获和分析网络数据包,获取网络流量数据和用户行为信息。
● 网络分析工具:如Google Analytics、百度统计等,用于分析网站流量、用户访问行为、转化率等数据。
(4)社交媒体API
利用社交媒体平台提供的API,如X API、Facebook Graph API等,获取用户生成内容、社交关系、趋势话题等数据。
(5)开放数据API
利用各种在线服务提供的开放数据API,如天气数据API、地图数据API、金融数据API等,获取实时数据和服务。
(6)爬虫池和代理服务
利用爬虫池和代理服务,通过分布式爬虫和多IP代理轮换等技术,提高数据采集效率和稳定性,避免被目标网站封禁。
互联网采集的数据资源可以根据来源分为以下几类:
● 社交媒体数据:包括用户在Facebook、X、Instagram等社交网络平台上发布的文字、图片、视频等内容。
● 电子商务数据:包括用户在Amazon、Alibaba、eBay等电子商务网站上的购物行为、订单信息、支付记录等。
● 搜索引擎数据:包括用户在Google、百度、必应等搜索引擎上输入的搜索关键词、搜索结果点击记录等。
● 应用程序数据:包括用户在社交媒体应用、游戏应用、工具类应用等移动应用和网站上的使用行为、应用访问记录、用户交互数据等。
物联网设备采集的数据资源是通过各种传感器和智能设备实时采集的环境数据、设备状态数据和行为数据等。
物联网设备采集数据资源的方式多样,主要取决于物联网设备的类型、传感器的种类和数据采集的需求。以下是一些常见的物联网设备采集数据资源的方式。
(1)传感器数据采集
● 环境传感器:包括温度传感器、湿度传感器、气压传感器等,用于监测环境参数。
● 运动传感器:包括加速度传感器、陀螺仪传感器、磁力计传感器等,用于监测设备的运动状态和姿态。
● 位置传感器:包括GPS模块、惯性导航系统(INS)等,用于获取设备的位置信息和运动轨迹。
● 光学传感器:包括光电传感器、摄像头等,用于监测光线强度、颜色、图像等。
● 声音传感器:用于监测声音的强度、频率、声音波形等。
(2)通信模块数据采集
物联网设备通常具有通信模块(如Wi-Fi、蓝牙、LoRa、NB-IoT等),可以通过无线网络或有线网络上传传感器数据。
通过与云平台或服务器进行通信,通信模块将采集的数据上传到云端存储和处理。
(3)本地存储和处理
部分物联网设备具有本地存储和处理能力,可以将采集的数据存储在设备本地存储器中,并进行初步的数据处理和分析。
本地存储和处理可以降低数据传输成本和延迟,提高数据安全性和隐私保护。
(4)边缘计算
一些物联网设备具有边缘计算能力,可以在设备端进行数据处理和分析,从而减少数据传输到云端的数据量和延迟。
边缘计算适用于对实时性要求较高的应用场景,如工业控制、智能交通等。
(5)数据采集协议和格式
物联网设备采集的数据通常以特定的数据格式和通信协议进行传输,如JSON、XML、MQTT(消息队列遥测传输)、CoAP(受限制的应用协议)等。
数据采集协议和格式的选择取决于设备和应用场景的要求,可以根据需要进行定制和优化。
物联网设备采集的数据资源可以根据数据类型、传感器类型、应用领域等多个维度进行分类。以下是一些常见的物联网设备采集数据资源的分类方式。
(1)数据类型分类
● 环境数据:包括温度、湿度、气压、光照强度等环境参数数据。
● 设备状态数据:包括设备的运行状态、故障信息、能耗数据等。
● 位置数据:包括设备的地理位置、运动轨迹、空间坐标等。
● 用户行为数据:包括用户与物联网设备的交互行为、操作记录、偏好信息等。
(2)传感器类型分类
● 温度传感器:用于测量环境温度,常见于气象站、农业温室等环境。
● 湿度传感器:用于测量环境湿度,常见于农业温室、生产车间等环境。
● 气压传感器:用于测量大气压力,常见于气象观测、气象预报等领域。
● 加速度传感器:用于测量物体的加速度,常见于智能手机、运动监测器等。
● 光照传感器:用于测量光照强度,常见于智能路灯、光控器等。
● GPS模块:用于获取设备的地理位置和运动轨迹,常见于车载导航、物流跟踪等。
● 摄像头:用于拍摄图像和视频,常见于监控摄像头、智能门铃等。
● 声音传感器:用于检测环境中的声音信号,常见于智能家居、声音识别等。
(3)应用领域分类
● 工业制造:包括设备监测、生产过程控制、质量检测等。
● 智能家居:包括家庭安防、智能家电、环境监测等。
● 智慧城市:包括交通管理、环境监测、公共安全等。
● 农业领域:包括农业物联网、精准农业、温室监测等。
● 医疗健康:包括健康监测、医疗设备远程监控、智能康复等。
外部流通交易产生的数据资源是企业与外部合作伙伴之间进行交易和业务往来所产生的各种交易数据、合同数据、支付数据等。
外部流通交易主要通过交易活动和交易平台产生数据资源。以下是一些外部流通交易产生数据资源的方式。
(1)交易活动数据
● 交易记录:包括交易时间、交易金额、交易双方身份信息、交易商品信息等。
● 订单信息:包括订单编号、订单状态、订单商品信息、支付方式等。
● 交易行为:包括浏览商品、加入购物车、下单、支付、评价等交易行为记录。
● 支付记录:包括支付方式、支付金额、支付时间等支付相关信息。
(2)交易平台数据
● 电子商务平台:如淘宝、京东、亚马逊等电商平台产生的交易数据,包括在线购物、支付、评价等信息。
● 金融交易平台:如股票交易所、外汇交易平台等金融交易平台产生的交易数据,包括股票交易、外汇交易、期货交易等信息。
● 数字货币交易平台:如比特币交易所、以太坊交易平台等数字货币交易平台产生的交易数据,包括数字货币交易行为、交易价格、交易量等信息。
● 在线支付平台:如支付宝、微信支付、银联等在线支付平台产生的支付数据,包括用户支付行为、支付金额、支付时间等信息。
外部流通交易产生的数据资源可以根据不同的维度进行分类。以下是一些常见的分类方式。
(1)数据类型分类
● 交易记录数据:包括交易时间、交易金额、交易双方身份信息、交易商品信息等。
● 订单信息数据:包括订单编号、订单状态、订单商品信息、支付方式等。
● 交易行为数据:包括用户浏览商品、加入购物车、下单、支付、评价等交易行为记录。
● 支付记录数据:包括支付方式、支付金额、支付时间等支付相关信息。
(2)行业领域分类
● 电子商务行业:包括在线零售、在线旅游、在线票务等。
● 金融行业:包括股票交易、外汇交易、债券交易等。
● 数字货币行业:包括比特币、以太坊、莱特币等数字货币的交易。
● 在线支付行业:包括第三方支付、移动支付、线上支付等。