分枝杆菌(mycobacterium)作为人类历史上重要的病原微生物群之一,主要包括结核分枝杆菌复合群(mycobacterium tuberculosis complex,MTBC)、非结核分枝杆菌(nontuberculous mycobacteria,NTM)和麻风分枝杆菌(mycobacterium leprae)。微生物分类中,分枝杆菌属于原核生物界、厚壁菌门、裂殖菌纲、放线菌目、分枝杆菌科、分枝杆菌属。分枝杆菌属由超过170种菌种组成,大多数是环境分枝杆菌,为条件致病菌。分枝杆菌的分类方法很多,例如:数值分类法;按分枝菌酸的碳原子数(50~100)顺序排列分类;种系发育分类等。既往分枝杆菌的分类法主要依赖于表型特征,最初用来区分分枝杆菌各个物种特征的是生长速率和细胞染色。快速生长的物种(少于7天)是自由生长、依赖环境的腐生物种,而生长较慢的则通常是细胞内专一性的、致病的种类。快速生长和缓慢生长的区分,实际上是依赖于一个或两个rRNA的操纵子,从而表现出系统发育的相关性。
1959年,美国Runyon氏收集了来自30多个国家400多名患者的分枝杆菌分离株,进行了详细的研究,并根据其产色情况和生长速度不同,将分枝杆菌分为以下四群:Ⅰ群:光产色分枝杆菌,如猿分枝杆菌( M.simiae )、堪萨斯分枝杆菌( M.kansasii )等;Ⅱ群:暗产色分枝杆菌,如苏加分枝杆菌( M.szulgal )、蟾蜍分枝杆菌( M.xenopi )、瘰疬分枝杆菌( M.scrofulaceum )、戈登分枝杆菌( M.gordonae );Ⅲ群:不产色分枝杆菌,如鸟分枝杆菌复合群、玛尔摩分枝杆菌( M.malmoense )、土分枝杆菌( M.terrae )、溃疡分枝杆菌( M.ulcerans );Ⅳ群:快速生长分枝杆菌,在3~5天内有肉眼可见的菌落,如偶然分枝杆菌( M.fortuitum )、龟分枝杆菌( M.cheloane )、脓肿分枝杆菌( M.abscessus )、耻垢分枝杆菌( M.smegmatis )等。
在参考上述方法的基础上,1974年出版的第八版Berger's细菌鉴定手册把分枝杆菌分为慢生长、快生长和特殊营养要求三种类型,结核分枝杆菌复合群即属于慢生长类型。1882年,Robert Koch首次分离出导致人类结核病的结核分枝杆菌(tubercle bacillus),次年由Zoof命名为Bacterium tuberculosis。10多年后,Lehmann和Neumann正式更名为Mycobacterium tuberculosis。1896年,Robert Koch发现人类结核分枝杆菌的14年后,Theobald Smith发现引起动物结核病的杆菌与对人类致病的杆菌不同,由此发现牛型结核分枝杆菌( M.bovis ),后期相关研究者又发现了山羊分枝杆菌( M.caprae )。除此之外结核分枝杆菌复合群还包括非洲结核分枝杆菌( M.africanum )、田鼠分枝杆菌( M.microti )、歧分枝杆菌( M.pinnipedii )、卡氏分枝杆菌( M.canettii ),部分结核分枝杆菌根据首次分离的菌株宿主来源来进行分类和命名。
随着分子生物学理论和技术的发展,对分枝杆菌的分类从表型分类逐渐过渡到基因型分类,使分类结果更加准确科学,也进一步加深了对分枝杆菌进化关系的了解。在分枝杆菌的三大类别中,麻风分枝杆菌和结核分枝杆菌的致病性较高。目前临床上麻风病已较罕见,而结核病仍然是全球面临的重大公共卫生问题。本部分内容以结核分枝杆菌复合群的基因型分类为重点进行介绍。结核病作为一种古老的疾病,其致病菌为结核分枝杆菌复合群,该复合群包含了多种遗传相似度很高的种或亚种。成员间的基因组平均相似度在99.7%~99.9%,呈现高度的同质性。这种高度的相似性被认为是祖先菌株群体在万年前经历了一次瓶颈效应以及在后来的进化过程中缺乏同源重组和基因水平转移所致。
1990年以后逐步建立了一些根据核酸序列进行菌株鉴定的高度特异的基因分型方法,主要包括:限制性片段长度多态性(restriction fragment length polymorphism,RFLP)、DNA指纹图谱分析以及以聚合酶链反应(polymerase chain reaction,PCR)技术为基础的基因分型方法等。基因分型方法结合现代分子生物信息学技术,使MTB菌株进入了一个全新的领域——单株水平的鉴定。常用的分型方法简单介绍如下:
IS6110由1355个碱基对组成,是MTBC特有的插入序列。1990年Thierry等最先描述了IS6110,全长1355bp,其上有PvuⅡ、BamHI等酶切位点,末端含有不完整的28bp反向重复序列,是插入序列IS3家族的一个成员,完整的序列特异性存在于MTBC中。目前对于MTB来说,已知的IS6110拷贝数从0~25个不等, M.bovis 有1~3个拷贝,卡介苗菌株含单一拷贝,而非结核分枝杆菌尚未发现IS6110拷贝。MTB不同菌株间,IS6110在基因组中的位置也不同,因此IS6110-RFLP通过检测IS6110的拷贝数与其在基因组中的位置来区分不同的菌株,该分型方法被推荐为金标准。
此方法是基于直接重复区(direct repeat,DR)的多态性。DR区包括10~50个直接重复序列,每个重复序列包含36个碱基对,直接重复序列被大小在34~41bp范围内不同的间隔区寡核苷酸序列分隔。任意2个直接重复序列间的寡核苷酸序列具有很高的保守性,由于不同MTB菌株中间隔区的个数和序列不同,导致该区域多态性,以此作为分子标志。
在高等真核生物进化及种群的遗传进化研究中,小卫星DNA和微卫星DNA都是重要的研究工具。结核分枝杆菌基因组存在很多散在分布的重复单位(mycobacterial interspersed repetitive units,MIRUs),这些是MTBC的多位点串联重复序列,多数长度为51~77bp。MIRUs以串联形式散在分布于MTBC基因组中,其重复序列的拷贝数在不同菌株中存在多态性,根据这一特点可以区分不同的结核分枝杆菌。
SNP是生物体中普遍存在的一种基因组中的多态性差异,主要指在基因组水平上研究由单个核苷酸变异而引起的DNA序列多态性变化的一种技术,具体指基因组上单个核苷酸的变异,包括置换、颠换、缺失和插入等。研究SNP的方法主要就是测序。随着研究的逐步深入,发现可以使用这些多态性位点来进行基因分型。结核分枝杆菌基因组SNP有多种鉴定方法,依据其基本原理可分为两大类:一类是DNA测序相关方法,主要包括全基因组测序和目的基因片段测序两种;另一类是基于PCR扩增的非DNA测序方法。利用各种技术确定的SNP被广泛应用于菌种鉴定、药物敏感性试验、菌株分型及进化分析和流行病学检测等。
自20世纪70年代Sanger发明了第一代测序技术以来,测序技术得到突飞猛进的发展,现在WGS已广泛应用于科研、医疗和分子流行病学等研究领域。通过测序可以获得结核分枝杆菌的全基因组序列信息并进行菌种鉴定和分型。此外也可以根据表型耐药和基因型耐药的关系,查找新的耐药基因位点;通过菌株间SNPs信息的差异分析结核分枝杆菌的传播源、代系、区域间传播规律等。
早在1995年,Van Soolingen等采用两种基因分型方法(IS6110-RFLP和Spoligotyping)分析来自北京地区的结核分枝杆菌,结果发现了一个遗传关系较为接近的结核分枝杆菌家族呈高水平流行,这些菌株遗传相似度极高,菌株间的IS6110-RFLP图谱相似度高达80%以上,Spoligotyping分型显示这类菌株缺失了1~34个间隔区,将其命名为“北京家族”(后更名为北京基因型MTB)。随后的研究显示,北京基因型结核分枝杆菌在世界广泛流行,且与耐药存在不稳定的联系。早期在美国广泛传播的耐多药菌株根据其型别也被鉴定为北京基因型,因此又被称为W/Beijing菌株。Mokrousov等依据北京菌株基因组NTF区域IS6110插入序列的多态性将其分为古老和现代两个亚型。Luo Tao等采用8个SNP位点将北京谱系MTB分为8个亚谱系。这些工作均为深入研究结核分枝杆菌的分型、分类以及流行分布奠定了基础。
近年来,随着测序数据的增多,越来越多的SNP位点被鉴定并用于研究结核分枝杆菌的进化结构。和早期的LSP相比,SNP具有数量上的优势能更细致地研究菌株群体的进化过程。大量研究报道,根据分子标记SNPs等可将人型MTBC(结核分枝杆菌和非洲分枝杆菌)再细分为6个分枝Lineage 1~6。流行病学调查研究发现,不同分枝型别的结核分枝杆菌具有明显的区域分布特征或适应于特定人群。基于这些型别的结核分枝杆菌主要流行的地理分布情况,将它们命名为:环印度洋分枝(Lineage1)、东亚分枝(Lineage2)、东非印度分枝(Lineage3)、欧美分枝(Lineage4)和非洲分枝杆菌(Lineage5和Lineage6),后期又增加Lineage7。目前为止,普遍认可的是人型MTBC分为上述7个家系。其中L2和L4在全球范围广泛流行,东亚地区的流行家系以L2为主,北京基因型就归属于东亚谱系;L1和L3主要在印度洋地区流行;L5和L6较为严格地局限于西非地区;L7几乎仅流行于埃塞俄比亚地区。
随着WGS技术和生物信息学的发展,测序有望实现低成本和高效率兼得。通过深度挖掘WGS信息,未来SNP技术以及WGS技术将会全面应用到MTB的监测和分型等研究领域,从而从片面的基因分型跨入全基因组研究,有利于加深人类对MTB耐药、传播、致病机制以及家系起源的认识。此外,新的分枝杆菌还在不断发现,所以无论是分枝杆菌的传统分类还是基因分型分类仍会得到补充。
(贺文从 赵雁林)