购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第三节
数据的规范化标注和加工

一、数据标注通用要求

数据标注是医学影像数据库建设和人工智能医疗器械生产研发必备的重要技术服务之一,需要专业的医务工作者参与和支持,建立科学、规范的流程。数据标注任务的描述、组织、实施、产出是否合规,已纳入医疗器械监管的视野。我国药品监管部门在2021年起草完成了医疗器械行业标准《人工智能医疗器械 质量要求和评价 第3部分:数据标注通用要求》,从标注质量控制的角度为行业提供指导。

该标准的起草思想秉承医疗器械行业标准《人工智能医疗器械 质量要求和评价 第2部分:数据集通用要求》,关注数据标注环节的质量控制与质量评价。数据标注作为一种特殊的技术服务,决定了数据集参考标准的质量,也进入了医疗器械监管的视野。医学数据标注行业目前处于起步阶段,胸部CT肺结节等领域陆续发布标注专家共识,但总体发展不均衡,意味着不同地区、不同机构组织的数据标注质量缺乏可比性,制约数据集的建设和利用。《人工智能医疗器械 质量要求和评价 第3部分:数据标注通用要求》的技术内容包含五个主要部分,其执行主体是标注责任方。

第一,标注责任方应建立标注任务描述文档,明确标注对象的定义、标注规则、标注结果的存储格式、标注结果的性质等内容。标注任务描述文档既可以提供给标注人员,作为培训的依据,又可以帮助用户、监管方掌握数据标注任务的全貌。其角色类似数据集说明文档,展开介绍数据标注的细节。

第二,标注责任方应明确标注任务的质量特性。此处的质量特性秉承了数据集质量特性中的部分概念,主要关注标注结果质量和标注过程的一致性、可追溯性,并以举例说明的形式,介绍各质量特性的具体含义,帮助标注责任方整理判断依据。

第三,标注责任方应明确标注与质控流程,建立标注业务的组织框架,明确数据输入输出的节点、人员选拔、人员分工的步骤,以及标注过程中的质控措施。标注与质控流程将影响标注责任方的资源投入和管理制度,在质量管理体系核查中需要形成对应的规程和记录。

第四,本标准也给出了标注工具的推荐要求,包括功能要求(数据操作、标注操作、业务组织等)、安全要求(网络安全、数据安全等)。鉴于数据标注工具对数据标注质量和数据安全有重要影响,这些推荐要求有助于确保标注工具的质量,引导相关的研发活动。

第五,标准中对各项要求给出了对应的评价方法,总体思路与数据集质量评价一致,集合了过程验证、文档检查、抽样检验等方式,从而为标注任务的验收提供依据。

在实践环节,不同的标注任务在数据模态、标注对象方面差异较大,需要结合实际案例进行理解。

二、典型案例

(一)胸部CT肺结节标注

1.标注任务分类

根据数据模态,本标注任务属于图像标注,数据模态为胸部CT影像;执行主体为人工标注。本标注任务属于结构化标注。标注结果以表格的形式存储,包含数字、字符型数据,可使用csv、xml或json格式进行存储。标注结果给出胸部CT肺结节每一层的中心点坐标、包围盒端点坐标、边界端点坐标、肺结节的分类,作为参考标准使用。

2.标注规则

本标注任务的标注对象是胸部CT肺结节的检测、分类、分割、测量。

肺结节及各个子类的含义如下:

(1)肺内实性结节:肺实质内圆形或类圆形(球体或类球体)边界清楚的局灶密度增高影,且病灶内支气管、血管边缘不能识别,最大径≤3cm。本次标记先在肺窗中主观判断结节部位,从而将结节分为肺内结节和胸膜结节。再根据肺窗中结节是否含有磨玻璃成分,将肺内结节分为肺内实性结节或肺内亚实性结节。

(2)肺内部分实性结节(肺内混合磨玻璃密度结节):肺实质内圆形或类圆形(球体或类球体)边界清楚的局灶密度增高影,且部分病灶内支气管、血管边缘可识别,最大长径≤3cm。

(3)肺内纯磨玻璃密度结节:肺实质内圆形或类圆形(球体或类球体)边界清楚的局灶密度增高影,且整个病灶内支气管、血管边缘可识别,最大径≤3cm。

(4)肺内钙化结节:肺实质内圆形或类圆形(球体或类球体)边界清楚的完全钙盐沉积灶,最大径≤3cm,CT值通常在100HU以上。此处要澄清部分钙化与钙化结节的区别:肺内实性结节内部出现部分钙化成分,分类为实性结节;肺内完全钙化灶,分类为肺内钙化结节。

(5)胸膜结节与胸膜斑块:胸膜结节为起自胸膜的圆形、类圆形(球体、类球体)或不规则形的局灶性密度增高影,常与胸膜广基底相连,最大径≤3cm。胸膜斑块为胸膜局限性、广基底的不规则扁平状突出,表面不规则。这里应注意,胸膜结节与胸膜斑块内含有部分钙化成分者,分类为胸膜结节与胸膜斑块。

(6)胸膜钙化结节:起自胸膜的圆形或类圆形(球体或类球体)边界清楚的完全钙盐沉积灶,最大径≤3cm,CT值通常在100HU以上。与胸膜结节和胸膜斑块的主要区别是,病灶完全钙化者才可归类为胸膜钙化结节。

标注对象的定义和标注规则参考了《胸部CT肺结节数据标注与质量控制专家共识(2018)》,由中国食品药品检定研究院和中华医学会放射学分会心胸学组合作发表。其中标注专家的职称为副主任医师或主任医师,从事临床工作的年限为15年以上。

标注任务的执行单元是标注小组。每个标注小组由1名标注组长带领2名标注医师承担初始的标注工作。标注任务分为4个主要环节。

(1)检出环节:3名标注医师背靠背独立标注,然后用计算机自动判断检出的一致性,以所有人标注结果的并集作为结果。

(2)分类环节:3名标注医师背靠背进行分类,分类结果同样由计算机自动判断一致性和进行合并,同时保留不同意见。

(3)审核环节:由其他标注组长和仲裁专家各自独立对检出和分类结果进行审核与修改,纠正漏诊、误诊和误判。如果遇到疑难问题,仲裁专家可以进行集体讨论与确认。本环节过后,每个病例至少由5名医师进行过阅片,其中至少由2名具有高级职称的医师进行过审核。

(4)边界分割与尺寸测量:在检出与分类完成之后,由于边界分割相对简单,建议普通病例的边界分割由1名标注医师执行,1名审核专家进行审核。遇到复杂征象时,可酌情增加审核人数,以保证标注质量。结节的尺寸根据手工边界由计算机自动生成,标注医师和仲裁专家可以手动修改。

3.标注人员

标注工作需要标注医师、标注组长和仲裁专家3种级别的医师参加。标注医师面向全国以考试的形式选拔,建议资质要求为三甲医院从事阅片工作5年以上,职称为住院医师以上。考试内容为胸部CT肺结节的检出、分类、分割,以权威专家的标注结果作为“金标准”,以精确度、灵敏度、特异度、交并比作为主要指标,建议要求不低于80%。标注医师入选后进一步接受标注规则和标注软件的培训。标注组长由工作经验10年以上的副主任医师担任,仲裁专家由工作经验15年以上的副主任医师或主任医师担任。

4.标注工具

标注时使用的软件为自研软件,主要功能包括医学数字成像和通信(digital imaging and communication in medicine,DICOM)格式的图像读取、平移、多平面重组、最大密度投影、放大、添加标注(几何框、手工框、分类)、标注审核与修改、保存和导出标注结论、数据备份、标注任务分配、标注人员调度、标注进度显示等。

5.标注环境

标注任务在某专业阅片室进行,使用医用灰阶显示器及办公电脑进行。

6.数据

待标注的数据应获得伦理委员会的批准并完成脱敏。使用标准DICOM格式的原始数据,图像矩阵不低于512 × 512,有条件的医院可使用1 024 × 1 024。不得进行任何修改、编辑,不得进行有损压缩。每个病例的图像应当保持连续完整,不得出现缺层、错层等情况。每个病例的扫描范围至少从肺尖到肋膈角(包括全肺),不相关的部位可以删除(如下颈部或上腹部)。图像重建视野应当覆盖整个胸部横截面。成像过程应当符合其他临床规范和专家共识,患者吸气末一次屏气完成扫描,避免运动伪影、误操作等。成像过程使用的扫描仪应当是处于产品有效期内、符合质控要求的合格设备。

标注前,需对数据本身的参数进行检查,推荐考虑如下要求:

(1)层厚与层间距:

推荐扫描层厚0.50~1.25mm,层厚≤1.00mm时,可以无间隔连续重建;层厚>1.00mm时,重建间隔选择准直层厚的50%~80%。推荐图像重建层厚≤5.00mm。

(2)设备厂家:

符合DICOM3.0协议标准数据、有医疗器械注册证的国内外厂家。

(3)探测器:

16排以上。

(4)扫描参数:

低剂量扫描和/或标准剂量扫描(管电压70~140kV,管电流10~400A组合)。

(5)辐射剂量:

按照可合理达到的最低量(as low as reasonably achievable,ALARA)原则,根据不同机型及扫描目的选择。

(6)窗宽窗位:

推荐肺窗(窗位-700~-600HU;窗宽1 500~1 600HU)和纵隔窗(窗位30~70HU;窗宽350~400HU);其他窗宽、窗位可以根据需要用于辅助读片,例如骨窗等。

(7)重建算法:

纵隔窗采用标准算法或软组织算法,肺窗采用标准算法和/或肺算法。

7.标注业务架构

标注软件设计和标注任务的实施主要参照图2-3-1所示的标注业务架构图。按照时间的先后顺序,图2-3-1显示了标注小组、审核与仲裁专家的协作关系、标注人员与标注工具之间的协作关系,以及标注决策的确立过程。同时,图2-3-1显示了数据输入输出的主要节点,以及各个阶段产出的标注结果的范围、形式,有助于指导数据备份和数据追溯。

(二)肝脏局灶性病变CT和MRI标注

1.标注任务分类

本标注任务按照数据模态属于图像标注,数据模态为CT和MRI图像。本标注任务的执行主体为手动或半自动标注。标注任务属于结构化标注,标注结果以Nifity,即nii格式进行存储。标注结果给出该研究的目标区域,作为参考标准。

2.标注规则

本标注任务的标注对象是肝脏局灶性病变(FLL)的检测和分类。肝脏局灶性病变通常是有对应病理学改变的真病灶。在影像上可通过对比背景显示的肝脏占位性病变,主要是指肝内单发、孤立的病变,或虽为多发病变,但病变本身并不造成肝实质广泛或显著的形态学和病理学异常,并对周围的肝实质、血管、胆管等组织产生推压移位,包括肝肿瘤、脓肿、寄生虫和囊肿等,不包含异常灌注或伪影。

具体标注规则:①对于形态规则/不规则、边缘清晰的病灶的标注,确认病灶及邻近结构关系后,使用标注软件的边缘描绘工具,沿边界轮廓进行逐层勾画,也可直接使用标注工具进行逐层填充。对于病灶与周围组织对比明显的情况,可尝试利用半自动的标注方法,并结合手动边缘调整,达到最佳标注效果。②对于形态规则/不规则、边缘模糊的病灶的标注,先寻找边缘清晰的期相进行辅助判断,以便对边缘模糊的期相进行判断和标注。建议将确定病变区域包含在标注范围内,亦可尝试利用软件中的阈值设定法寻找病灶边缘。对于边缘模糊的数据,可结合初步训练好的分割算法模型进行半自动标注。

图2-3-1 胸部CT肺结节标注业务架构

3.标注人员

标注人员对标注质量起着决定性作用,建议由标注医师、审核医师和仲裁医师组成标注团队。根据研究目的和实际情况,亦可建立仅包含标注医师和审核医师的标注团队,仲裁医师的仲裁工作可由审核医师代替完成。设立标注团队时推荐优先考虑有肝脏CT或MRI诊断经验的医师,具体要求见表2-3-1。

4.标注工具

建议采用目前在医学领域公开的平台进行数据标注,如3D Slicer、ITK-SNAP,以及各厂家先后推出的涵盖标注功能的AI平台,如GE公司的Artificial Intelligence Kit平台、Philips的IntelliSpace Discovery等。

表2-3-1 标注人员组成及要求

5.标注环境

标注任务在某医院内或采用远程标注的方式,无特殊环境要求。

6.数据

数据需满足如下要求:①研究设计方案获得伦理委员会批准,充分保障患者及数据安全性;②根据研究方案建立纳入标准和排除标准,纳入符合要求的患者数据,详细记录数据来源、设备型号、图像层厚、对比剂种类、FOV和矩阵等参数;③根据研究任务提供相应的检查数据(期相或序列),以DICOM格式保存,确保不出现缺层、错层等情况,不可对原始数据进行任何修改和编辑,不可进行有损压缩;④对原始DICOM格式数据进行脱敏,脱敏信息包括但不仅限于姓名、年龄、性别、医院信息等。

7.业务架构示例

图2-3-2所示为本标注任务的业务架构,展示了从制定实验方案到完成标注的全过程,包括数据的筛选、不同身份标注人员之间的协作关系,以Dice系数(Dice coefficient)作为衡量标注准确性的指标。

图2-3-2 肝脏局灶性病变CT和MRI标注业务架构

(三)结直肠癌CT和MRI影像标注

1.标注任务分类 本标注任务按照数据模态属于图像标注,数据模态为CT和MRI图像。本标注任务的执行主体为手动标注。标注任务属于结构化标注,标注结果的保存格式应统一,如Nifity(nii格式)。为方便查阅,推荐固定命名方式和格式,例如原始数据文件夹命名为“ZHANGSAN”,标注结果建议保存为“ZHANGSAN.nii”。标注结果给出该研究的目标区域,作为参考标准。

2.标注规则 本标注任务的标注对象是结直肠癌(colorectal cancer,CRC)。CRC是原发于结直肠黏膜上皮的恶性肿瘤,病理大体分型分为溃疡型、肿块型和浸润型,其中以溃疡型多见,组织学分类包括腺癌、腺鳞癌和未分化癌,主要影像表现为肠壁明显增厚,肿块沿着肠壁浸润性生长或向腔内、外突出生长;肿块较大时常常合并坏死。

具体标注原则:

(1)结肠CT精细标注序列选择及方法:结直肠癌病灶标注通常选取静脉期图像作为标注对象,主要原因在于病灶在静脉期显示清晰,易于观察病灶边缘,有利于病灶的标注。选取肿瘤静脉期图像进行肿瘤分割,根据研究目的勾画病灶最大横截面积的三维容积感兴趣区(VOI)或整个肿瘤的感兴趣区(ROI)。勾画前将图像调整至最佳观测窗宽、窗位,确定病灶位置及范围;勾画时沿肿瘤轮廓进行手动分割,避免将肠腔内气体、肠壁周围脂肪等纳入ROI范围内。勾画过程中,病灶边界难以判断时可通过调整窗宽、窗位或多层面、多维度观察以确定其边界。

(2)直肠MRI精细标注序列选择及方法:直肠癌重点标注序列包括轴位T 2 加权成像(T 2 WI)和弥散加权成像(DWI)。①在T 2 WI图像上进行标注,应尽可能包含所有可见肿瘤信号区域,沿着病灶边缘进行勾画,避免将肠腔内气体、肠壁周围脂肪等纳入ROI范围内。根据研究目标不同,可选择是否包含周围的索条和毛刺影。病灶边界难以判断时,可通过调整窗宽、窗位及结合冠状位、矢状位图像以确定其边界。可选择勾画肿瘤所有层面或肿瘤最大层面;新辅助治疗后可出现不同程度纤维化,但鉴于其内可能存在肿瘤残余,因此在新辅助治疗后ROI标注时,需结合基线MRI影像,包含瘤床区域的所有信号。②在DWI图像上进行标注,通常选择高b值DWI图像进行标注,肿瘤信号较邻近正常肠壁信号高,需尽可能标注所有的高信号区域;新辅助治疗后成像明显纤维化,高b值DWI图像未见明确高信号时,建议结合基线图像,在原瘤床区域进行勾画;亦有少许文献建议在表观弥散系数图(ADC map)上进行ROI勾画。

3.标注人员组成及要求见表2-3-2。

表2-3-2 标注人员组成及要求

4.标注工具 建议标注医师采用目前在医学领域公认的开源平台进行数据标注,比如3D Slicer、ITKSNAP等,以及各厂家先后推出的涵盖标注功能的人工智能平台,如GE公司的Artificial Intelligence Kit平台、Philips的IntelliSpace Discovery等。

5.标注环境 标注任务在某医院内或采用远程标注的方式,无特殊环境要求。

6.数据 数据应满足如下要求:①安全,通过伦理委员会批准,保证数据脱敏和患者隐私安全。②完整,数据应当使用标准DICOM格式的原始数据,不得出现缺层、错层等情况,不得对原始数据进行任何修改和编辑。③规范,规范的扫描流程、扫描范围,符合临床规范和扫描规范。

7.业务架构示例见图2-3-3。

图2-3-3 结直肠影像CT和MRI标注业务架构

(四)中枢神经系统肿瘤的MRI影像标注

1.标注任务分类

本标注任务为图像数据标注,数据模态为MRI图像序列。本标注任务的执行主体属于手工标注。本标注任务为结构化标注。标注结果以Nifity(nii)、DICOM等格式保存。标注结果为中枢神经系统(CNS)肿瘤在各模态图像上的肿瘤边界及其组成成分。

2.标注规则

本标注任务的标注对象是MRI图像序列中的中枢神经系统肿瘤,需要逐层标注各模态图像上的肿瘤边界及其组成成分。标注内容主要参照BraTS的肿瘤分割标准,包括:

(1)“全肿瘤区域”,包括肿瘤瘤体及肿瘤周围水肿。大部分脑肿瘤在液体抑制反转恢复序列(FLAIR)上呈现明显的高信号,可通过抑制脑脊液信号将肿瘤与脑室或其他含水结构区分开来。

(2)肿瘤瘤体部分,覆盖肿瘤的瘤体区域(去除水肿部分)。肿瘤瘤体相对于周围水肿呈低信号,在T 2 WI上较容易分辨。

(3)肿瘤强化区域,通过T 1 加权成像(T 1 WI)增强序列与T 1 WI平扫序列的对比,观察注射对比剂后信号明显升高部分。

(4)肿瘤非强化区域,即T 1 WI增强序列显示的肿瘤瘤体内无强化的区域,包括肿瘤实性无强化部分,肿瘤内发生坏死、囊变或出血的部分。

标注按照两阶段进行。

第一阶段建立标注团队,组织有资质的标注医师和审核医师,培训对标注内容的认识,明确标注范围,选择标注软件及储存方式,培训期间由标注医师共同完成同一批图像的一致性评估,考核达到优秀及以上。

第二阶段进行标注,每位医师独立对数据进行标注,由审核医师对标注结果进行审核,对于标注合格的结果进行归档保存,对于不合格结果进行修改或重新标注,至结果达标。

3.标注人员

标注人员为具有5年及以上临床或影像医学工作经验的高年资住院医师或主治医师。审核人员为具有10年及以上工作经验的副主任医师或主任医师。对标注及审核人员均需进行统一培训并接受考核,考核标注一致性达优秀后方可进行后续标注工作。

4.标注工具

标注软件为开源软件,主要包括3D Slicer、MITK、ITK-SNAP等。主要功能包括MRI图像序列数据的读取、显示、半自动辅助标注、标注结果修改、标注结果保存等。具体功能可参照各软件使用说明。

5.标注环境

标注任务使用办公电脑进行,无特殊环境要求。

6.数据

采集设备为MRI,场强1.5T以上,需要序列包含T 1 WI、T 2 WI、FLAIR、DWI、T 1 WI增强,具体技术参数可参照MRI检查操作规范,如三维采集的层厚≤2mm,二维采集的层厚≤6mm,层间距≤2mm。图像格式为DICOM。标注前,需要根据图像的分辨率、对比度、图像伪影等进行数据洗脱,剔除难以标注的图像序列。

7.业务架构示例

CNS肿瘤MRI影像标注简要流程如图2-3-4所示,主要分为标注和审核两个环节,按照标注医师与审核医师进行人员配置。标注任务的输入为DICOM格式的CNS多模态MRI影像。

(1)标注环节:

由标注团队内标注医师平均分配任务,对多模态影像的每个模态进行逐层标注。分别在不同模态MRI影像上标注“全肿瘤区域”、肿瘤瘤体部分、肿瘤强化区域和肿瘤非强化区域。标注人员为具有5年及以上临床或影像医学工作经验的高年资住院医师或主治医师。

(2)审核环节:

由标注团队内审核医师对标注结果进行审核,纠正错误、误判,对标注不合格结果进行退回重新标注。对合格的标注结果进行归档保存。审核人员为具有10年及以上工作经验的副主任医师或主任医师。

图2-3-4 中枢系统肿瘤MRI影像标注业务架构

(王浩 付宇 尹波 张惠茅) +CEsHLc6FENFP0wg4n2UhV6/i+5ecaWtViUcbLGWs+nj47v1+7Hli/SDd+N0lTD5

点击中间区域
呼出菜单
上一章
目录
下一章
×