购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.2 政府行业管理机构数据治理现状

2.2.1 卫生健康管理机构数据治理现状

国务院和国家卫健委等政府管理机构高度重视健康医疗大数据、“互联网+医疗健康”工作,为推动医疗大数据的快速发展,国家相继出台了一系列相关政策:如2015年9月国务院发布了《促进大数据发展行动纲要》;2016年6月国务院印发《关于促进和规范健康医疗大数据应用发展的指导意见》;2017年2月发布的《“十三五”全国人口健康信息化发展规划》提出要夯实健康医疗大数据基础、深化健康医疗大数据应用、创新健康医疗大数据发展三大任务;2018年9月,为加强健康医疗大数据服务管理,促进“互联网+医疗健康”发展,充分发挥健康医疗大数据作为国家重要基础性战略资源的作用,国家卫生健康委员会正式发布了《关于印发国家健康医疗大数据标准、安全和服务管理办法(试行)》;2020年4月,《中共中央、国务院关于构建更加完善的要素市场化配置体制机制的意见》正式公布,数据首次被正式纳入生产要素范围,与土地、劳动力、资本、技术等传统要素并列为要素之一。

在国家层面的积极倡导下,各地政府、医疗机构和相关企业等开始从不同环节切入,进行医疗大数据建设,持续推动大数据、互联网、人工智能等新兴技术在医疗健康领域落地应用。通过建立一套完整的数据治理体系来加强全民健康信息化建设,推动国家级全民信息平台和省统筹区域全民健康信息平台的建立,还在规范医院信息化建设方面制定了《全国医院信息化建设标准与规范(试行)》及其相关的数据标准化指导文档,组织全国公共卫生信息化标准与规范文档的编制工作,为医疗健康行业的数据治理奠定了坚实的基础,并且在国家和地方层面都开启了健康医疗大数据的治理工程。

2.2.1.1 国家健康医疗大数据治理现状

1)国家全民健康信息平台数据治理

国家卫生健康委统计信息中心在实施全民健康保障信息化工程一期项目,以及推进国家全民健康信息平台建设过程中,高度重视数据治理工作,包括推进数据统一采集、资源目录统一注册、数据汇聚集中、数据质量多重管控、使用的规范化管理、数据综合分析利用等。国家全民健康信息平台数据治理内容如下。

(1)组织制度保障

为有效保障全民健康保障信息化工程一期项目建设,推进数据治理工作,在项目建设之初,国家卫生健康委就制定、印发了相关规章制度,明确了工程实施组织架构,相关司局承担数据资源的组织、协调等职责,各实施机构负责相应业务系统的建设。国家卫生健康委统计信息中心牵头各实施机构,共同建设统一应用支撑平台,以及部分业务应用系统。为加强项目实施、系统开发和数据管理规范,项目组织制定了包含管理类、技术类、数据类和安全类等一系列规范和办法,结合部门相关工作规章制度,规定了各部门、单位工作机制和流程,基本奠定了数据治理的组织架构和制度基础。

(2)资源中心构建

通过统一应用支撑平台,实现数据的统一采集交换与汇聚。业务应用子系统提供数据采集需求,由业务系统负责制定、发布数据集、数据元等标准,由平台进行统一注册管理业务系统、系统表单、数据字段和术语字典。国家级平台以及部分业务应用系统采用平台对接或系统对接方式实现联通,数据进入平台采集交换库,转发给业务应用子系统生产库。国家全民健康信息平台数据资源中心最终整合省级平台、相关业务应用系统、业务应用分平台数据资源,支撑业务应用子系统之间的业务协同,并可进行各项数据的管理、分析与利用,从逻辑上可以分为支撑库、全员人口库、健康档案库、电子病历库、生产库和分析库等。数据资源中心按照业务划分对数据分类存储,并组织成基础库、主题库、索引库、字典库等数据库。根据数据挖掘和分析需求将数据组织成主题类数据,在数据仓库内分类存放。通过服务管理支撑库、数据管理支撑库和共享库向外提供数据服务。

(3)数据质量控制

数据质量控制体现在业务系统建设、数据仓库建设。各重要阶段设置数据检查监控点,并能实现跨监控点、数据源的比较分析。全民健康保障信息化工程通过建设应用支撑平台数据质量控制系统,实现对数据生命周期的数据质量控制,涵盖数据源到应用端的全过程分级负责,重点是业务系统端和数据资源中心端的数据质量控制。应用支撑平台采集交换库经过技术质控,将质控的数据转发给业务应用子系统的生产库,生产库可根据业务需求自行对数据进行质控。应用支撑平台提供统一数据监控能力,为平台数据采集交换各组件,提供完整的数据采集日志和数据交换监控报告信息功能,对业务层、服务层数据质量提供质量评估、质量评价、质量报告、质量监控等功能,为信息资源中心建设提供质量保证支撑。

(4)数据安全管理

在项目整体信息安全体系基础上,加强平台数据安全管理。主要措施包括提供数据加解密服务,实现数据安全管理,对数据进行秘密性保护;对平台业务数据进行存储备份;对接入实现权限控制,要求提供口令验证、IP地址验证、时间控制等;加强安全策略管理、数据安全检查、数据权限管理和数据安全审计;加强采集与共享数据传输的安全性,兼顾平台网络传输效率;设计数据脱敏,确保国家全民健康数据中心数据高效、可靠及业务应用安全。通过数据治理安全设计实施,进一步加强平台在数据采集、上传录入、数据利用、跨区域共享等环节的管理,保证数据的完整性,加强对敏感数据的防护。

(5)数据资源管理

基于数据资源池构建数据开放目录、数据共享系统,建立数据集与数据表之间的映射关系。在此基础上,实现数据之间的影响分析和血缘管理分析。基于集中管理的元数据,建立数据监控系统。在数据生命周期管理过程中,数据监控负责监控数据生成、传入、存储、处理、应用、销毁等环节,主要包含数据访问监控、数据状态监控、数据质量监控和数据安全监控等。可提供对数据的可视化访问监控、状态监测、统计分析、告警、报表生成功能,提供完整的日志和监控报告信息功能,确保数据使用安全、系统运行稳定。

(6)数据价值利用

通过安全审批、统一监控、权限管理等功能,设计保证数据安全、高效、便捷使用,为分析利用提供支撑。利用数据开放目录创建、管理的能力,提供较为通用的预测、预警、对比、关联等模型。未来逐步面向国家部委、地方省市相关机构、行业、科研团体等不同的用户,进行权限设计、开放共享。通过融合各类结构化、非结构化及半结构化的数据资源,实现对海量的医疗健康数据的有效利用,聚焦在分级诊疗、现代医院管理、医疗卫生服务资源等方面作出分析示范。加强了平台数据的可视化能力,提供可视化公共服务,力求数据价值不断提高,推进数据管理科学化。

2)国家健康医疗大数据中心(北方中心)数据治理

2016年6月国务院办公厅印发《关于促进和规范健康医疗大数据应用发展的指导意见》,将健康医疗大数据应用发展纳入国家大数据战略布局,随后原国家卫生计生委按照“1+5+X”的总体规划,确定福建(南部中心)、江苏(东部中心)、山东(北方中心)、安徽(中部中心)和贵州(西部中心)为5大区域数据中心试点省份,承接国家健康医疗大数据中心和产业园建设。2018年北方中心在山东济南落地,率先完成了国家卫生健康委试点评估。北方中心汇聚了山东省近5年报送系统数据,包括省人口库、省健康档案库、省电子病历库和省卫生资源库,以及济南市近百家医院的全量数据。为打通健康医疗数据汇聚、传输、存储、处理、交换、销毁全生命周期链路,有效支撑惠民、惠医、惠企、惠研、惠政等行业应用,北方中心实施了数据治理工程,具体内容如下。

针对数据质量无法满足业务需求的数据资源,按照统一标准对数据资源进行标准化处理,形成数据质量较高的可以支撑上层应用的DWD数据层。数据治理主要针对原始数据进行数据元解析、数据映射、数据清洗、数据归一、值码标准转换等方面的处理,理清医院的库表结构与表间关系,并对整个数据处理过程形成可跟踪、可追溯的处理流程记录、脚本,最终形成完整的数据处理报告。待治理数据来源包括省市级全民健康信息平台、各级医院单位系统等。

(1)数据注释/解析

根据健康医疗大数据北方中心的实际状况,对原始数据提供数据元注释/解析服务。数据来源:解析来自省级医疗数据平台和市级医疗数据平台的全量数据;解析来自三级医院、二级医院以及二级以下医院的全量医疗数据。

(2)数据映射

依据医院表结构、表数据及数据标准,提供数据映射服务,对医院原始数据进行数据归一化映射(包含表与表、字段与字段级的关联关系)、值域标准化、值码标准化,确保归一后的数据与医院生产的数据一致,满足支持上层业务应用的需求。

(3)数据质量管理

完善、规范数据标准与数据质量管理规则,包括数据质量类别管理、数据质量检核入库、问题数据展现、问题数据趋势分析、数据质量检核监控、检核日志管理、数据质量报告、专项数据质控规则处理模块等。根据数据标准与数据质量管理规则,针对省市级健康医疗大数据平台与各级医疗机构系统汇聚上来的原始数据进行数据汇聚质量评估标准服务。数据质量管理规则将最终落实到系统工具中,输出可供追溯、分析的报告。

2.2.1.2 地方健康医疗大数据治理现状

1)甘肃省健康医疗大数据治理

甘肃省卫生健康委于2016年5月启动了省级全民健康信息平台建设,建设内容主要包括:完善全员人口数据库、电子健康档案数据库和电子病历数据库,依托省级交换平台建成医疗协同服务、公共卫生服务、人口计生服务、医疗保障管理、药品采购配送、综合卫生管理等6大应用系统,实现面向社会公众的服务、跨区域业务应用协同和数据交换共享、面向各级卫生计生机构的综合信息统计分析、大数据应用和决策支持功能。经过三年多的建设和发展,甘肃省的卫生信息化取得了明显的成效,并且积累了大量、优质的健康医疗数据。但是,由于医疗机构信息系统的建设时间、建设主体和承建单位的不同,采用的数据库、平台、网络结构等不同,造成了大量形态不同的数据。为进一步提高甘肃省健康医疗大数据的质量,使甘肃省的健康医疗大数据发挥真正的作用,省卫生健康统计信息中心开始探索对大数据进行治理。本次数据治理在保证不对原有系统做任何改动的前提下,数据保留在原系统不做任何迁移,逐项对甘肃省的全员人口数据库、电子病历数据库、健康档案数据库、健康扶贫数据库和卫生资源数据库进行了治理。数据治理的过程如下。

(1)明确数据的标准与规范

甘肃省全民健康信息平台是根据国家信息化建设的要求,以全员人口、电子病历、健康档案等五大基础数据库为基础,实现了医疗保障、免疫规划和慢病管理等多项业务系统的互联互通,新建了远程医疗、双向转诊等新业务系统,通过居民电子健康卡的创新应用,为甘肃省健康医疗大数据的可持续发展奠定了坚实的基础。该平台以国家制定的疾病诊断、手术操作、药品和医疗服务项目编码为标准,以全省统一的接口规范完成了医疗机构的接口改造工作,基本实现了省、市、县、乡、村医疗机构的全覆盖。数据标准和规范的制定,在一定程度上解决了医疗机构信息化建设的历史遗留问题,通过数据标准和规范的明确使医院内部多个系统之间、不同医疗机构之间的数据实现互联互通,凸显数据深度挖掘的价值。

(2)最大限度整合历史数据

过去卫生行政部门和医疗机构也积累了大量的历史数据,由于历史原因,数据的利用率和开发程度处于非常低的水平。由于数据标准和规范的不同,历史数据的使用必须经过数据的转化,将其转化为满足现行标准和规范的数据。在历史数据的转化中,需要建立较多的对应关系和对应规则,需要充分考虑当时的政策背景和业务场景。数据整合结果的验证是难度比较大的工作,主要通过抽样的方法从医疗机构的HIS系统中进行验证,其次就是采用循证医学的方法在相关的研究文献中提取验证规则。

(3)有计划地进行数据清洗

数据清洗是指在对数据进行审核时,将脏数据清洗为干净数据的过程。而所谓的脏数据则是指在数据审计的过程中发现的有问题的数据,即低质数据。目前,对于数据的清洗研究,主要集中体现在缺失数据的清洗、冗余数据的清洗、异常数据的清洗。在数据的清洗过程中,科学地分析脏数据的类型,根据不同类型的脏数据定义不同的清洗策略。数据清洗的粒度必须是从最小粒度的“字段”开始,以“字段”为单位制定数据的转化规则。选择合适的清洗工具,将计算机决策和人工清洗有效结合,并对清洗的结果进行抽样验证。

(4)科学选择数据清洗技术

随着信息化技术的不断发展,数据的清洗技术也随之发生了较大的进步。数据清洗技术是为了提高数据质量而剔除数据中错误记录的一种技术手段,在实际应用中通常与数据挖掘技术、数据仓库技术、数据整合技术结合应用。由于历史的原因,目前采集到的数据,种类多样,结构复杂,所以有大量的数据需要进行清洗和处理以后,才可以进行利用。传统的人工处理的成本会非常大,而且效率和准确率都有明显的差异,所以自动化应用软件的清洗工具也受到了各方的关注。本项目对数据的清洗以函数清洗为主,结合人工清洗,函数清洗是目前大数据清洗过程中比较常用的一种手段,对于结构性较好的数据有明显的作用,可以同时纠正数据的异常、重复、错误和缺失等多个方面的问题。数据的清洗工作主要是在数据的预处理环节进行,力求从数据源头减少噪声数据,有效提高了数据的清洗效率和分析结果的准确性。人工数据清洗主要是定义清洗规则和规则的优先级别,清洗过程中对数据采用了“分类分级”的清洗思路,针对不同优先级的数据制定不同的清洗规则。

通过数据治理取得如下成果。

(1)人口基础数据的质量明显提高。 治理后,甘肃省的全员人口数据库总记录条数4.8亿条,占用存储124.42GB,分属于12个数据库表。甘肃省常住人口为2600多万人,录入基本实现全覆盖。治理后的全员人口数据库可以实现到乡镇级的数据查询,并支持个人查询。

(2)电子病历数据的价值密度大幅提升。 经过治理后,甘肃省健康医疗大数据平台电子病历数据库目前实现了门诊、住院、手术、麻醉、孕产和护理等16项电子病历的查询、统计等功能。

(3)盘活了居民的电子健康档案。 通过治理后,甘肃省健康档案数据库集15个,数据表52个,累计获取居民健康信息16506万条,占用存储约92GB。累计获得个人基本信息2733.78万条,个人疾病史306.01万条,个人家族史280.23条,个人手术史110.81万条,个人输血史累计108.22万条,个人外伤史累计168.94万条。目前,甘肃省的健康档案数据库涵盖了个人档案、家庭档案、健康体检、孕产妇健康、儿童健康等诸多领域,对高血压、糖尿病和严重精神障碍患者实现了全方位监测。

(4)健康扶贫工作的监管更加精准。 经过数据治理后,甘肃省的健康扶贫数据库实现了对贫困人口的精准筛选,实现了对贫困人口就医环节的全程监管,对健康扶贫工作进行实时监管。目前主要分析的指标包含全省的建档立卡贫困户的总人数、参加社会保险人数、患病人数、患病人数中的已治愈人数和未治愈人数;健康状况分布情况(健康人群数、患病人群数、死亡人数);婚姻状况分布;兜底保障户的统计情况;患病的疾病分类情况、因病负债情况等。健康扶贫数据库包含贫困人口档案、入户调查记录和“一人一策记录”三大模块,实现了188.28万条入户调查的记录,核实了163万条贫困人口的健康状态,对3.18万人的治愈情况进行核实。

(5)卫生资源大数据的治理。 经过治理后的甘肃省卫生资源数据库,涵盖了2.89万家医疗机构,总数据1.99亿条,建立57个数据库表。实现了对200余家二级及二级以上医院的卫生资源查询;覆盖了全省的疾病预防控制中心,包含了1300多家卫生院以及1.70万家村卫生室。

2)成都市成华区健康医疗大数据治理

成都市成华区卫生健康局对目前辖区内13家小区卫生服务中心及5家公立医院进行了联网,目前已经具备了全区卫生专网,为实现区域医疗健康大数据发展进行医疗健康大数据治理与应用开发的工作,核心工作在于完成医院和基层医疗健康信息系统数据的融合治理和可视化建设,达到数据共享和统一监管的初步愿景。成华区在对医疗健康大数据治理过程中在元数据的生命周期管理和变更管理的基础上来实现功能层的建设和应用。基于元数据的健康医疗大数据治理过程如下。

(1)元数据解析和融合

元数据的采集首先会从区域内各医疗机构内原始数据进行ETL抽取与解析。在不同的机构中,不同的厂商对相同的业务所定义的元数据命名不同、含义不统一。为便于统一认识和管理。需要将不同的元数据翻译成统一的语言以及描述,在此需要建立元数据语料库,并对所有元数据基于语料库进行翻译。在平台中需要对所有元数据翻译结果进行维护。在传统的业务系统建库时,针对一个业务所涉及的表,表之间是有相互业务关联关系的,但在建库时并非所有的业务关联关系都会建立在数据库中,无法通过元数据之间关联关系完整地映射出一个业务场景,在对元数据管理过程中,需要通过业务分析,将各种表间关联关系维护到元数据库中,形成一个完整的业务流程。基础元数据语料库主要包含数据元及数据集,通过元数据语料的审核和知识库来管理元数据。在知识库中,用一套可维护的,统一的语料表达数据元和数据集,实现对具备相同含义的不同数据元和数据集给予统一的描述。利用基础元数据语料库,通过自然语言处理(Natural Language Processing,NLP)算法对数据进行去重、归一、梳理、消歧然后将元数据同基础元数据语料库进行对比识别,完成不同系统中的不同元数据的统一理解过程,将处理后的业务数据模型添加进知识库;再将数据按照对应业务数据模型抽取、清洗到目标数据库中。当某一厂商的数据源通过智能算法及人工核检统一其元数据表述后,将会以厂商为单位,按分类分别保存和展示每个版本的元数据信息,包含原始元数据与通过算法识别和人工校验后统一的元数据信息。

(2)元数据生命周期管理

元数据生命周期管理核心步骤包括对元数据采集,元数据中识别,值域映射,结构标准化ETL和数据质量的管理。一个系统库的处理流程代表一个任务,每个任务是一条完整的监控链,通过监控链可查看每个任务执行过的步骤、跳过或未执行的步骤。在处理流程中,可以通过查看元数据生命周期中每个节点的进度进行管理。每个版本的元数据通过一条完整的元数据生命周期管理,保证元数据的一致性和连续性,避免元数据错乱。利用数据的生命周期管理完成对数据流向过程中的监控,把控数据流向的每一个过程,完成对数据处理过程的追溯。通过数据流,以数据源为基准,分析每张表里,每个元数据与其他数据源中元数据之间的联系,可能存在一对多的关系,推断出该元数据的影响力,即该元数据可能影响到的其他数据,从而为保证元数据的一致性和正确性提供保障。经过了数据溯源和数据血缘分析后,记录每个元数据在数据流通网上与其他元数据的关系。在进行元数据生命周期管理过程中所有对元数据的操作过程,包括元数据的导入和导出都将信息转换为使用标准元数据格式的XML文件。

(3)元数据变更管理

随着业务场景的变化,系统的升级改造,元数据会随着业务的改变而发生变化,通过对元数据进行变更管理,尤其在监控上层数据流中的元数据,以规避对后续计算统计结果的影响。保留业务元数据历史变更记录,以便后续可对此进行版本管理追溯,统一对元数据版本进行管理追溯。对元数据的变更进行监控,查看明细信息,随时监察,消除问题隐患,掌握数据资产的变化。通过定时检测生产库中元数据的变化,并通过影响分析查看该元数据变化后对上层应用的影响。再进行元数据变更后对比,包含元数据及其所有下游数据的比对,监控元数据的改变;对比相同厂商的元数据结构,完成元数据差异的对比,对于其本身元数据结构的更改,同步更改到元数据标准库中;对比不同数据来源的单位,完成同库下元数据版本的对比。

基于元数据管理的数据治理工作的完成使得成华区健康医疗大数据的治理达到了预期成果。首先通过对元数据的解析融合,梳理出了数据资产目录。对业务系统及计算引擎中存在的大量数据表、API等各类数据资产进行统一管控,并提供对应数据资产管理规范。再通过数据资产管理,资产使用者可快速对资产进行查找、申请和使用等操作。编制出的数据资产目录可以给出业务场景和数据资源的关联关系,降低理解系统数据的门槛;同时考虑到随着对业务数据的抽取转换和分析次数的递增,系统中存储的元数据数量越来越大,为了避免出现混乱以及便于后续数据的利用,相应地开发了元数据检索功能,辅助用户定位和查看元数据;其次,通过元数据的治理可以进行血缘分析,指出某一类数据是从哪张表采集而来,后续又转储到哪张表中,构建出完整的数据流通网,分析打通数据在产生、处理、流转到消亡的全过程,数据能被串联起来,便于对数据进行快速查询、维护。

统一元数据标准后的主数据,能够在跨平台间实现数据采集、融合、监管等工作,并且在HIE融合等过程中,实现元数据向标准数据的转换映射、数据清洗过滤等数据治理流程;最后将整合后的医疗数据通过按疾病、药品、公卫监管等主题分类放入数据集市中,为上层应用提供更高效的数据支撑。最终成华健康医疗大数据平台项目建设成功并持续投入使用,实现了精准到人的面向百姓的健康服务,包括慢性病管理服务,强化对家庭医生的管理,使家庭医生能够真正服务群众,对慢病做到早预防,早治疗;实现了面向卫健局的监管服务,对各门诊机构的就诊人次、人均医疗费用等指标进行实时监管。

2.2.2 医疗保障局数据治理现状

医保大数据以人的健康为核心,以数据标准为基础,通过数据治理整合涵盖医保全链条、全周期、全人群、全方位的数据资源,通过数据分析、人工智能等技术,实现医保数据信息的规范化、可视化、自动化、智能化,满足政府科学决策、智慧治理,医疗资源优化配置,方便群众就医等需要。

虽然医保数据蕴含着巨大价值,但是目前我国城乡二元制度造成了人员、信息及资源的长期割裂局面,医保统筹信息系统应用主要集中在区县级,且多数相对独立,各地信息系统的软硬件不一,这使得相关医保数据亟待通过数据治理后整合形成大数据。数据治理是实现医保大数据的必然路径,其可以通过分析病人收入水平、家庭负担等情况,寻找解决因病致贫的有效办法;可以通过分析社会保障基金的运行数据,结合医疗资源分布,掌握社会保障的整体效率,提出社保、医疗资源合理配置的建议;还可以通过分析病人就诊情况,研究包括临床医学、流行病学、临床路径等在内的医疗服务行为,改进治疗方式、卫生经济学评价等。值得注意的是,数据治理是医保数据整合中的前提,也是实现医保大数据面临的最大难题。例如,各地医保系统用的疾病分类代码,有用ICD-10,也有用ICD-9,还有地方自定义的一套。此外,药品分类编码、病人基本信息编码等也存在不一致。这些问题都亟待解决。

2.2.2.1 医保关键数据问题

《“十四五”全民医疗保障规划》中明确指出医疗保障是减轻群众负担、增进民生福祉、维护社会和谐稳定的重大制度安排。建成完善的基本医疗保障网,推进医疗保障高质量发展,满足人民群众多元化的医疗保障需求是进行医疗大数据治理的核心目的。目前国家在推动医疗大数据的发展和应用方面出台了一系列政策与有力的指导,但想在充分发挥大数据的效能的同时确保各类医疗健康数据的准确性、安全性、完整性,还需要更多的资源投入和数据治理相关技术与工具的研发跟进。

一是存在数据质量问题。各信息平台中存在着大量基础数据不全、不准确、标准不统一等问题。造成原因主要有:来源于各方应用的参保人数据在录入时没有相应的校验规则或同一参保人多次录入不同的个人信息;各地区医保信息系统间差异巨大,在数据采集时也没有统一标准;新旧数据之间没有有效的更替机制。

二是各信息系统间互联互通程度不高。医保、医疗机构以及监管部门之间互联互通程度低、信息系统林立各自有参考标准、数据化获取渠道单一、数据利用率低等问题,都不利于数据的获取与流动,也不利于医保监管,易出现人员重复参保、骗保以及报销困难这些民生难题。

三是医保数据治理机制与应用体系不完善。没有做好底层的数据治理工作以及没有建成医保数据应用体系,都难以进行医保数据的共享与商业化价值变现。

2.2.2.2 医保数据治理途径

1)打破信息孤岛,加强部门间数据连通

通过加强部门间的数据共享,实现数据来源的多渠道化。不仅医保和医疗等部门要建立信息数据的共享合作机制,同时要加强与税务、公安、民政等其他相关部门的合作,建立多渠道的数据归集共享机制。通过横向联通、纵向贯通方式实现医保业务信息共享与业务协同,为医疗保障信息平台提供数据支撑。

2)完善数据标准,提升数据质量

国家局信息平台通过制定医保数据元规范,实现数据的标准化和数据的规范管理,不断开展技术标准、业务标准、总体标准等标准规范的工作,最终建立形成以医疗保障信息平台为依托的医保数据综合标准库。统一药品编码和医疗服务及医疗器械编码,统一参保人数据采集标准,逐步实现全国医保数据信息的标准化,有效提升医保数据质量,为大数据应用打下坚实的基础。

3)结合大数据技术,建设主题仓库形式的大数据平台

常州市医疗保障局依托常州市医疗保障信息系统平台,按照医保管理决策和业务应用要求,通过对海量大数据的收集、整合等,围绕医保核心管理决策和“三医”联动的目标和标准规范,建立按主题仓库形式存储的大数据平台,涵盖基础信息管理、医保费用管理、医疗服务质量、费用监管路径、医药价格、医药交易采购分析、信用评价管理等多领域,为规范医保业务服务流程、费用审核稽查方向和信息安全共享协同提供数据基础,有助于提高精算分析和管理决策的水平。

4)建立医保数据安全应用管理机制

医保数据的安全是医保数据使用的前提,关乎每一个参保人的权益。医保管理部门要逐步探索建立医保数据的安全管理机制,在数据的收集、管理、使用方面出台具体的操作规程,厘清数据管理者和数据使用者之间的责任和义务。既要充分发掘医保数据在医保监管领域的价值,又要确保数据的安全。

2.2.2.3 山西省医保数据治理案例

1)现状分析

目前医保行业已经沉淀海量的存量数据,且每年还将在持续的增长;数据分散在各地市,和人社其他系统数据在一起,没有统一割裂集中;建设厂商多,虽然参考核心平台三版标准,但在实施过程中各厂家差异标准不统一;从政策角度出发,打通各地市数据、建立省级集中、统一标准的数据中台,为挖掘医保数据的价值提供先决条件,为支撑医疗保障信息化建设打下坚实的基础。

山西省医保局数据分布在各个地市和省直,医保核心系统由7个核心供应商建设,涉及17个库,标准不一,数据量大,数据治理工作任务繁重。现场的数据治理工具不稳定,性能与易用性欠缺。主要存在以下问题。

体量大。医疗数据体量巨大,一个省的医疗健康数据要以TB、PB量级存储和管理。

多态性。数据源是各种各样的,并且涵盖了多种类型数据,多种结构的数据对数据治理能力是一项重大考验。

不完整性。就医数据的收集和处理常常被分割,导致医疗资料库难以完整体现出所有相关信息。很多数据都来自手动记录,导致数据记录的偏差和残缺。科室、诊断信息等关键信息缺失量大,空值率高。

冗余性。医保每日会产生大批量数据,同一个人可以在不同的医院药店创建相同的信息;整个医学数据库包含许多重复的和不相关的信息。无效信息缺少标识,造成数据冗余量大。300万的参保人,库里却有600多万参保人信息。

时效性。数据生成速度非常快,更新速度非常高,许多数据的获取时间每周、每天、每分钟甚至每秒都在不断更新,因此,要求更高的响应速度和治理速度。

隐私性。数据隐私是医疗大数据的重要特征。医疗和卫生数据如疾病、诊断和基因数据等泄露将对个体造成负面影响,也会导致公民权利受到侵犯。

2)数据治理平台

随着大数据时代的来临,各行各业开始认识到数据的价值。把数据视作宝贵的财富,已经成为业界的一种共识,企业也在快速探索应用场景和商业模式,并开始构建数据平台。如果在大数据“拼图”中遗忘了数据治理,那么技术投资就可能毫无意义。因为没有数据治理这一环节,其带来的后果往往是随处可见的数据不统一、难以提升的数据质量、难以完成的模型梳理、难以保障的数据安全等。源源不断的基础性数据问题会进一步产生,进而导致数据建设难以真正发挥其商业价值。因此,消除数据的不一致性,采用标准化的数据标准,提高数据管理能力,实现数据安全共享,并将数据作为公司在企业、管理和战略决策的宝贵资产使用,发挥数据资产价值变得迫在眉睫,数据治理呼之欲出。企业通过制定战略方向,建立组织架构,明确分工责任,控制数据风险,满足安全标准,提高业绩和增加价值,并提供创新的大数据服务。

数据治理平台是为企业用户打造的一站式数据建仓和治理平台,由数据地图、数据血缘、数据标准、数据模型、数据质量、数据集成、数据安全、元数据管理等功能模块组成。目标是解决数据治理过程中数据不集中、标准不统一、质量不可控、交付周期长等一系列问题,通过标准化工具和智能化方法,将杂乱无章的基础数据治理成有价值的数据资产,实现数据的价值化和业务化。

数据治理平台依托Postgresql数据库加Hadoop混搭架构的大数据平台,提供海量数据的存储和大规模并行计算能力,支持PB级以上的数据存储和海量数据加工处理,实现海量存储和高效的数据处理。采取数据分层架构的方式,治理了28万个目录,存储了几十TB的数据,实现全面的数据覆盖。提供从数据探查、数据标准建设、业务模型建设到数据共享服务的全流程业务支撑,由元数据管理、数据地图、数据探查、数据标准、数据模型、数据质量管理、数据清洗等功能模块组成。数据治理涉及的各个人员和角色如数据治理管理人员、业务领域数据分析师、数据科学家、数据架构师、部门IT人员等都可以使用该平台完成各自在数据治理和运营过程中的任务和工作。依据保密安全和信息安全体系框架和管理要求,基于数据分类分级安全管理策略矩阵,通过统一安全认证平台接入、堡垒机、VPN,涉数操作行为审计在技术层面实现了事前、事中、事后安全控制,实现数据安全模块的研发落地,为数据服务体系奠定坚实数据安全基础。

3)数据治理方法

(1)标准管理

以支持数据应用为出发点,数据治理标准以国家标准为依据,参考省级在用标准,制定出适合省医保数据应用发展的数据标准。

(2)数据标化治理

由于目前系统中数据范围大,标准不一,差异性较多,所以,针对数据中台内数据模型设计必须充分考虑数据源多,数据结构复杂的问题,因此采用分层建设模型,且有一定的建模规范作为支撑。分层的主要目标是不同的分层有不同的职责和作用,可以方便定位和理解数据,更快速响应外部需求。数据中台的模型分层主要包括:数据交换层、数据贴源层、数据治理层、数据整合层、数据集市层、数据服务层。

数据贴源层:表结构与源系统一致。贴源层对来自所有源系统的数据进行统一存储和管理。针对本省数据特点,增加聚合缓冲区,主要针对17个源数据,按7个厂商标准进行轻度聚合。

数据治理层:对贴源层数据标准和质量校验规则进行数据转换和清洗工作,标准化、规范化明细数据,发现问题数据的区域。

数据整合层:数据整合层用来存放整合后的历史数据,存放的格式采用逻辑模型进行存储,数据经过加工和转换,与原始贴源层的数据结构完全不同。

数据集市层:主要是为应用提供数据服务,数据集市中的数据结构,要按照数据应用主题的需求进行独立设计,数据库能力要匹配相应的应用场景需求。

(3)数据问题稽核优化

由于各地市政策各异,导致在数据完整性、规范性等方面,需要针对具体问题进一步细化及优化。比如居民的缴费收入,经过核查,各地市的财政补贴数据基本缺失,会影响征缴数据统计;涉及行政区划未按国家标准进行存储、生存状态缺失等部分数据,下发各地市从源头进行整改,进行追踪核查,跟进数据问题修复。

4)治理后的成效

目前治理了2017年以来全省医保业务系统数据。帮助医保局收集与沉淀数据,加速医保数据资产形成,解决数据不一致问题,进而支持业务的决策和优化。

提供大屏快速配置,以供展示组件编排、排列组合的能力,满足医保局数据汇报和展示的需要。通过抽象、梳理、整合可复用能力和场景,提炼为可被业务单元引用的基础能力并下沉,满足医保局快速响应政策需要。通过对数据的颗粒归仓和主题预置,保持对潜在新型数据智能应用的条件就绪状态,支持新应用的插件式载入与上线。 Rc1beG8pVqo4aed1RGa7J7TZKXdBfiw8tZF9+p6Dc+s99v+0v2ITFQPE4LuZmsS8

点击中间区域
呼出菜单
上一章
目录
下一章
×

打开