电子病历基本数据集标准化建设指依据《电子病历基本数据集》(WS 445—2014)1~17部分的规定,对医院电子病历数据进行梳理对标,并依标进行电子病历数据资源标准化建设。
《电子病历基本数据集》(WS 445—2014)1~17部分规定了我国医疗机构在医疗活动中,必须收集记录的患者个人基本信息和健康诊疗信息的数据元及其属性描述,用于指导医疗机构电子病历数据收集、存储、共享以及信息系统开发。该标准共分为17个部分58个子集,累计2281个数据元条目,详见表2-1。
表2-1 电子病历基本数据集子集及数据元分布情况
续表
原则上,综合医院信息平台或医院信息管理系统所采集的数据应能够覆盖标准的17个部分,数据集所包含的数据元及其属性描述应与标准一致,包括内部标识符、数据元标识符(DE码)、数据元名称、定义、数据元的数据类型、表示格式及数据元允许值均应与标准对标统一。但并不意味着每个患者的个案数据必须包含数据集中的所有数据元,如非产科病历不包含“第6部分:助产记录”的内容。
电子病历基本数据集的数据元属性参照《卫生信息数据元标准化规则》(WS/T 303—2009)的规定设置,并按通用性程度分为数据元公用属性和数据元专用属性。数据元公用属性是指特定数据集中,所有数据元取值相同的属性,如“电子病历基本数据集 第2部分:门(急)诊病历”中所有数据元的“注册状态”取值均为“标准状态”,该属性作为数据元公用属性,仅在公用属性部分描述一次。专用属性是指特定数据集中数据元的属性取值不同或不全相同,如“数据元名称”“数据类型”等属性。电子病历数据的标准化主要指数据元专用属性标准化。
《电子病历基本数据集》(WS 445—2014)标准的数据元属性设置共13项,其中公用属性7项,专用属性6项(表2-2)。
表2-2 数据元属性
数据元专用属性包括内部标识符、数据元标识符(data element identifier,DE)、数据元名称、定义、数据元值的数据类型、表示格式、数据元允许值共7个属性。根据《卫生信息数据元标准化规则》(WS/T 303—2009)和《卫生信息基本数据集编制规范》(WS/T 370—2011)中规定的描述规则,对电子病历基本数据集中的数据元专有属性描述如下:
指数据元在某特定数据集中的唯一标识代码,采用长度为13位的字母数字混合码,格式为:当前数据集类目编码(DCC)+“.”+所在数据集中的顺序号。例如,“门(急)诊病历数据集”中的“性别代码”的内部标识符为“HDSD00.03.039”,表示当前数据集类目编码为HDSD00.03,“性别代码”在该数据集内部序号为039。
是对卫生信息域的数据元分配的唯一标识,采用字母数字混合码,包含数据标识符(DI)和版本标识符(VI)两级结构。示例:DI_VI。
(1)DI按照分类法和流水号相结合的方式,采用字母数字混合码。按照数据元对应的主题分类代码、大类代码、小类代码、顺序码、附加码从左向右顺序排列。其中:
主题分类代码:用2位大写英文字母表示。卫生信息领域代码统一定为“DE”。
大类代码:用2位数字表示,数字大小无含义。
小类代码:用2位数字表示,数字大小无含义;无小类时则小类代码为00。小类与大类代码之间加“.”区分。
顺序码:用3位数字表示,代表某一小类下的数据元序号,数字大小无含义;从001开始顺序编码。顺序码与小类代码之间加“.”区分。
附加码:用2位数字表示,代表一组数据元的连用关系编码;从01开始顺序编码。无连用关系的数据元其附加码为“00”。附加码与顺序号之间加“.”区分。
(2)VI结构由4部分组成,为“V”+“m”+“.”+“n”,其中“m”和“n”为阿拉伯数字,在数学上应是具有意义的正整数。“m”表示主版本号,“n”表示次版本号。示例“V1.2”表示主版本为第一版,次版本为“第二版”。
如果数据元更新前后可以进行有效的数据交换,则更新后主版本号不变,次版本号等于当前次版本号加1;如果数据元更新前后无法进行有效的数据交换,则更新后主版本号等于当前主版本号加1,次版本号归0。
数据标识符(DI)结构见图2-1。
图2-1 数据标识符(DI)结构
在实际应用中,数据元标识符(DE)采用数据标识符(DI)表示,版本号(VI)作为公用属性描述。如“性别代码”的数据元标识符为“DE02.01.040.00”,未包含版本号。
数据元名称应当是唯一的,并且以字母、汉字、数字式的字符串形式表示。数据元的命名应使用一定的逻辑结构和通用术语。完整的数据元名称=对象类术语+特性类术语+表示类术语+限定类术语(可选)。其中:
(1)一个数据元有且仅有一个对象类术语。在卫生信息数据元目录中若对象类术语为“本人”,则可酌情省略。
(2)一个数据元有且仅有一个特性类术语。特性类术语是任何一个数据元名称所必需的成分。在数据元槪念可以完整、准确、无歧义表达的情况下,其他术语可以酌情简略。
(3)一个数据元有且仅有一个表示类术语。当表示类术语与特性类术语有重复或部分重复时,可从名称中将冗余词删除。通用表示类术语见表2-3。
(4)限定类术语由专业领域给定。限定类术语是可选的。
表2-3 通用表示类术语
数据元定义以字母、汉字、数字式的字符串形式表示,用于清晰表述数据元的语义。
数据元值的数据类型描述规则见表2-4。字符型(S)分为三种形式,S1表示不可枚举的,且以字符描述的形式;S2表示枚举型,且列举值不超过3个;S3表示代码表的形式,列举值为3个及3个以上。
表2-4 数据元值的数据类型描述规则
表示格式见表2-5和表2-6。
表2-5 数据元值的表示格式中字符含义描述规则
表2-6 数据元值的表示格式中字符长度描述规则
续表
应用示例:
AN10:
固定为10个字符长度的字符。
AN..10:
可变长度,最大为10个字符长度的字符。
AN4..10:
可变长度,最小为4个、最大为10个字符长度的字符。
AN..20X3:
可变长度,最多3行,每行最大长度为20个字符长度的字符。
N6,2:
最大长度为6位的十进制小数格式(包括小数点),小数点后保留2位数字。
T8:
采用YYYYMMDD格式(8位定长)表示年月日。
T15:
采用YYYYMMDDThhmmss格式(15位定长)表示年月日时分秒。时分秒之前加大写字母T,如2010年1月5日8时10分9秒写为20100105T081009。
即数据元值域,有两种类型。
(1)可枚举值域:
由允许值列表规定的值域,每个允许值的值和值含义均应成对表示。其中,可选值较少的(2个),在“数据元允许值”属性中直接列举;可选值较多的(3个及以上),在“数据元允许值”属性中写出值域代码表的名称。如代码表属于引用标准的,则注明标准号。例如,数据元“初诊标志代码”的数据类型为S2,表示其值域可枚举值为二分类:1初诊,2复诊;数据元“性别代码”,其值域为多分类,对应数据类型为S3,值域为引用国家标准,标准号为GB/T 2261.1—2003。
(2)不可枚举值域:
由描述规定的值域,在“数据元允许值”属性中需准确描述该值域的允许值。“-”表示无值校验,为普通字符串,对应数据类型为S1型、N型、DT型等类型,如数据元“患者姓名”数据类型为S1,没有明确的约束要求。