由于基因组较小,支原体属于最早被基因组测序的微生物物种之一。1995年10月,完成了第一个支原体即生殖支原体G37株的基因组测序。支原体包含许多种类,其中包括人类致病性支原体(如生殖支原体)、动物致病性支原体(如猪肺炎支原体)和植物致病性支原体(如洋葱黄化病植原体),目前还没有发现花状中原体、嗜酸性温原体和火山温原体有致病性。
生殖支原体( Mycoplama genitalium , Mg)是少数几种由泌尿生殖道分离得到且唯一明确与男性尿道炎相关的支原体。Mg G37是第一个被全基因组测序的支原体,也是第二个被基因组测序的原核细胞微生物(第一个是流感嗜血杆菌)。除Mg G37外,另有4株自具有尿道炎症状的男性分离到的Mg菌株的全基因组序列于2012年上传至NCBI。其中, M2288和M2321来源于丹麦, M6282分离自日本, M6320分离自澳大利亚(表8-1)。Mg G37基因组全长580kb, G+C(%)含量32%(G、C各占16%, A、T各占34%)。Mg只有一条染色体,含有大约480个基因,是迄今为止已知能在无生命培养基中繁殖的最小原核生物基因组。480个基因主要负责编码与DNA复制、转录、翻译、修复、细胞转运以及能量代谢等相关的蛋白质。将其基因组按每5 000bp划为一个区段,各区段的G+C(%)含量从27%到37%不等,复制子起始位点含有很多重复DNA序列,这些序列A+T(%)含量比例很高。然而, Mg基因组的转运RNA(transport RNA,tRNA)因具有2个核糖体RNA(ribosome RNA,rRNA)操纵子(operon)致其所含G+C(%)含量比例较高,这表明一定比例的G+C(%)含量可能与rRNA和tRNA二级结构的形成有关。
肺炎支原体( M. pneumoniae , Mp)已获得全基因组测序菌株48株(表8-2),其中最早完成测序的M129基因组全长816kb, G+C(%)含量40%,双链丰余度为2.95。预测含有688个开放阅读框(open reading frame, ORF), 42个RNA编码基因,发现一个具有200个寡核苷酸(nucleotide, nt)的RNA。75.9%的ORF与其他细菌(主要是Mg)基因组具有同源性。在所有ORF中,已明确458个编码功能蛋白。42个特征性功能域,包括亮氨酸拉链序列、典型原核细胞脂蛋白序列和ATP/GTP的结合位点。用结构域分析程序对蛋白质结构进行分析,发现275个属于跨膜蛋白, 29个具有高度螺旋结构,提示膜蛋白占50%以上。大约8%的基因组具有重复片段,这些重复DNA片段主要为RepMP1、RepMP2/3、RepMP4和RepMP5。Mp基因组具有偏嗜性, AUU(Ile, 4.6%)、AAA(Lys, 4.6%)、UUU(Phe, 4.3%)、GAA(Glu, 4.2%)和UUA(Leu, 3.9%)是最常使用的密码子,而UGC(Cys, 0.2%)、CGA(Arg, 0.29%)、AGG(Arg, 0.4%)和UGU(Cys, 0.55%)是最少使用的密码子。蛋白质中含量较丰富的氨基酸是Leu(10.3%)、Lys(8.5%)、Ile(6.6%)和Val(6.5%)。G+C(%)比例高的区域通常编码P1基因、P1操纵子元件的ORF6、重复DNA序列或tRNA。G+C(%)含量少的区段主要编码一些脂蛋白(lipoprotein)或HSD修饰/限制系统。
解脲脲原体( Ureaplasma urealyticum , Uu)ATCC 33699菌株是第三个被破译全基因组的支原体,也是迄今为止能在无生命培养基中培养的第二个具有最小基因组的微生物。2000年10月, Glass JI等人在 Nature 上发表文章,采用一种新的方法——完全随机和有序的鸟枪法测序(complete random and ordered shotgun sequencing, CROSS)策略完成了自人体最常分离到的Uu3型的全长基因序列分析。
表8-1 已完成基因组测序的生殖支原体
表8-2 已完成基因组测序的肺炎支原体
Uu3型具有环状染色体,基因组大小为751 719kb,大于Mg基因组,小于Mp基因组,G+C(%)含量25.5%。基因组含有613个蛋白质的编码基因,39个RNA编码基因,这些基因序列长度占全基因组的93%。目前认为53%蛋白编码基因具有生物学功能,19%为功能不明基因,28%为不同于其他微生物的假定基因(hypothetical gene)。根据两条链的基因分布和G+C(%)倾斜分析(一种预测复制起始位点的方法),认为Uu的复制起点位于Dna A的上游,将其命名为 UU001 基因。Uu与其他支原体一样,有一个异常的密码子使用现象,即利用终止密码子UGA来编码色氨酸。编码氨基酸的所有62个密码子均出现在Uu基因组中,基因组可能只编码30个不同的tRNAs,有2个rRNA操纵子。
穿透支原体( M. penetrans , Mpe)HF-2菌株具有单个环状染色体,基因组全长1 358kb,平均G+C(%)含量25.7%,预测有1 068个编码子(coding sequence, CDS),一套rRNA编码基因和30个tRNA编码基因。1 068个CDS中,264个为与其他支原体共有基因,而463个为Mpe特有基因。穿透支原体 dnaA (Mpe10)、 dnaN (Mpe20)、 gyrB (Mpe30)和 gyrA (Mpe40)基因紧密相连,在大多数细菌基因组中特异性识别结合蛋白dnaA的 dnaA 盒( dnaA Box)接近复制起始位点,但Mpe的 dnaA 盒没有接近复制起始位点,而poly(C)序列位于基因组696 255bp到696 269bp之间。在 dnaA 和poly(C)附近有两个倒置位点, G+C倾斜转换分析结果显示,复制起点位于接近 dnaA 的一个倒置位点,而接近另一个倒置位点的poly(C)可能是复制终止点。Mpe基因组中缺少尿嘧啶核苷激酶编码基因,但具有丰富的核心蛋白质编码基因以及大的基因家族,因此,其基因组相对其他支原体的基因组要大一些。Mpe基因组中有25.4%的CDS属于大基因家族,其中最大的 p35 基因家族编码Mpe表面脂蛋白,后者是Mpe的主要抗原。Mpe有44个基因参与编码P35蛋白,目前已有35个基因被证实,其中有30个基因在染色体上形成基因家族。对 p35 基因家族的遗传进化树分析结果显示,基因家族是在生物的进化过程中发生染色体重排(chromosomal rearrangement)而产生的,因此, Mpe的抗原很容易产生变异,抗原的变异性可以逃避机体的免疫作用,使Mpe可以重复感染。
发酵支原体( M. fermentans ,Mf)作为艾滋病的协同刺激因子,其作用机制至今未明。研究发现Mf膜表面有一种膜脂蛋白抗原物质,称M161Ag,它可激活单核细胞/巨噬细胞,从而释放多种促炎性细胞因子,如IL-1β、TNF-α,IL-6、IL-10、IL-12和一氧化氮;还可通过旁路途径激活补体系统,致宿主细胞产生炎症反应和天然免疫,另外,M161Ag还促使未成熟树突状细胞(DC)成熟,通过DC的抗原呈递作用,介导宿主细胞的特异性免疫应答。目前已有2株获得全基因组序列的Mf菌株,G+C(%)含量26.9%,基因组大小1Mb左右(表8-3)。
表8-3 已完成基因组测序的发酵支原体略表
肺支原体( M. pulmonis )是导致鼠科动物呼吸道疾病的主要病原体。肺支原体UAB CTIP株基因组全长963 879bp, G+C(%)含量26.6%,预测有782个CDS,占全基因组91.4%。在782个CDS中,486个的长度和功能已经明确,92个与假定蛋白的基因序列相匹配,另有204个与数据库中的其他序列无同源性。基因组还包括一套rRNA编码基因和29个tRNA编码基因。通过基因序列和G+C倾斜的转换,定位了复制起始位点 oriC 。基因组中重复序列的多态性产生了相差蛋白抗原,有一种催化特异位点DNA倒置的重组酶可能是肺支原体的主要表面抗原。溶血素和糖蛋白酶可能是主要的毒力因子(表8-4)。
表8-4 肺支原体基因组主要特点
目前,已完成8株猪肺炎支原体( M. hyopneumoniae )的基因组测序(表8-5),它们是菌株232、7448、168、168-L、7422、J、KM014和NCTC10127。猪肺炎支原体232菌株基因组全长为893kb,平均G+C(%)含量28.6%,推测有692个CDS,编码的蛋白质大小平均约388个氨基酸。692个CDS中,304个编码具有功能作用的蛋白,261个编码保守的假定蛋白,127个编码特征性假定蛋白。有一个独立的16S-23S rRNA操纵子基因,30个tRNA编码基因。基因组中含有很多基因家族,占总编码序列的26.3%,其中纤毛黏附基因有6个基因家族,但只有一个纤毛结合位点。其中黏附因子编码基因 P97 编码纤毛黏附素,是猪肺炎支原体最早被证实具有黏附作用的黏附因子。而 P102 常位于 P97 基因的下游,作为 P97 的伴性基因,与 P97 共同组成双基因操纵子,也有6个基因家族。最大的基因家族是含34个基因成员的ABC转运家族基因。参与蛋白质分泌的基因是 SecA 、 SecY 、 SecD 、 PrsA 、 DnaK 、 Tig 和 LepA 。细菌中一些高度保守的蛋白质编码基因如 GroEL 和 GroES 在猪肺炎支原体中明显缺失。有一套完善的 DnaK-DnaJGrpR 基因系统控制蛋白质的折叠。猪肺炎支原体有许多蛋白酶充当毒力因子,有53个编码子与原核细胞脂蛋白和脂质黏附位点有关。猪肺炎支原体基因组中含有较少的衔接重复序列,因此抗原变异小。
表8-5 已完成基因组测序的猪肺炎支原体
与其他支原体基因组比较发现,猪肺炎支原体与火鸡、鱼类致病的滑液支原体( M. synoviae )基因组WVU 1853T存在不同程度的生物进化,基因组中一些特异性区域包括基因组重排、连接序列的变换以及基因整合等与支原体的潜在致病性有关。支原体基因组大小与代谢途径的数量有关,如猪肺炎支原体具有其特有的肌醇代谢途径,在猪鼻支原体和无致病性的猪絮状支原体中则不存在。基因组减小提示支原体的代谢途径可能减少,尽管如此,不同种支原体保持了各自的特异性代谢途径。
猪鼻支原体( M . hyorhinis )最早由Carler和Mckay于1953年从患传染性萎缩性鼻炎猪的鼻腔内分离获得,故定名为猪鼻支原体。猪鼻支原体是临床猪场中常见病原菌,通常由母猪或大猪传染给小猪,一般可通过飞沫或直接接触由上呼吸道感染传播。猪一旦被感染,该支原体在上呼吸道迅速传播并且能从感染猪的肺脏和鼻咽管中分离到,而后可经呼吸道移行至全身。猪鼻支原体能够引起猪多发性浆膜炎、关节炎、耳炎、肺炎等病症,其中以多发性浆膜炎和关节炎最为常见。其临床感染率在不同国家地区普遍可达60%~70%。同时猪鼻支原体亦可与其他病原菌形成混合感染,加重疾病的发生率和严重程度。近年来的研究发现猪鼻支原体属于人兽共患性疾病病原体,其感染与多种人类癌症有明显的相关性。此外猪鼻支原体也是细胞培养中引起培养污染的最常见支原体之一。目前已获得全基因序列的猪鼻支原体菌株7株(表8-6),其基因组大小为830~930kb。猪鼻支原体HUB-1株基因组全长为839 615bp, G+C含量25.88%,染色体为一闭合环状结构,共有654个基因,其中包含20个假基因,30个tRNA编码基因,1个5S rRNA编码基因和1个16S rRNA-23S rRNA操纵子。基因组编码区占85.2%,平均编码长度为364个氨基酸。蛋白分泌系统十分简单,由SecA、SecD、SecY、PrsA、DnaK、Tig和LepA构成。猪鼻支原体含有一个特殊的vlp(variable lipoproteins)系统,这一系统构成了猪鼻支原体主要的被膜蛋白,并为猪鼻支原体逃避宿主免疫系统提供了策略。不同的猪鼻支原体菌株含有 vlp 基因的数目是多变的, HUB-1的vlp系统包含7个 vlp 基因,并以5′- vlpD - vlpE - vlpF IS- vlpG - vlpA -IS- vlpB - vlpC -3′的顺序排布。
表8-6 已完成基因组测序的猪鼻支原体略表
丝状支原体( M. mycoides )主要导致牛肺炎,丝状支原体SC型PG1T株基因组全长为1 212kb, G+C(%)含量24%,是目前已测序支原体中G+C(%)含量最低的支原体。基因组中有高密度的插入序列(占基因组的13%)。预测有985个编码基因,其中有72个转位酶编码基因,属于插入序列。G+C(%)含量倾斜的不规则和大量重复序列的出现提示丝状支原体基因组具有可塑性。目前已获得全基因组序列的菌株共14株(表8-7)。
表8-7 已完成基因组测序的丝状支原体略表
运动支原体( M. mobile )最早从丁鱥(Tinca tinca)中分离得到,从种系发生史看,与肺支原体和Mp同属于人型支原体,在20℃生长状况良好,因具有巨大的游动能力而得名。Mm163K菌株基因组大小77 7kb, G+C(%)含量24.9%,略高于丝状支原体。预测有635个CDS,其中有557个通过蛋白质基因组图谱分析(proteogenomic mapping)确证得到有效表达。运动支原体含有单拷贝16S-23S-5S核糖体DNA(ribosome DNA,rDNA),有趣的是,5S rDNA没有位于16S-23S rDNA操纵子中,而是与16S-23S rDNA偏离0°~180°,提示5S rDNA可能是运动支原体的大部分染色体重排的发生位置。
鸡毒支原体( M. gallisepticum , MG)R株的基因组大小为996kb, G+C(%)含量31%,预测有742个CDS,占全基因组的91%。469个CDS编码的蛋白质功能已经明确,其中150个编码保守的假定蛋白,123个编码特征性的假定蛋白。基因组中包括2个拷贝的rRNA编码基因以及33个tRNA编码基因。复制起始位点位于 dnaA 基因。 vlhA 基因家族占全基因组的10.4%(103kb),家族中的43个基因分布于染色体上5个不同的位点,每个位点上各含8、2、9、12、12个基因。 gapA 和 crmA 下游的两个蛋白质编码基因与细胞黏附素编码基因 gap A和 crmA 具有同源性。根据功能域分析,预测有80个脂蛋白编码基因和149个具有多个跨膜蛋白功能域编码基因。此外,鸡毒支原体基因组也包含75个转运生物大分子的编码基因和12个转运酶蛋白的编码基因以及多个潜在的毒力因子编码基因。截至目前已获得23株全基因组序列的菌株(表8-8)。
表8-8 已完成基因组测序的鸡毒支原体
山羊支原体( M. capricolum )是引起山羊、绵羊和母牛致病的支原体,对山羊致病力最强,可以诱发山羊严重性多发性关节炎而导致永久性残疾,是引起山羊死亡的重要病原体之一。最早获得的山羊支原体27 343株基因组大小1 010kb, G+C(%)含量23%,预测编码812个蛋白质和42个RNA。目前已获得7株全基因组序列的菌株(表8-9)。
牛支原体( M . bovis )是一种能够引起肉牛和奶牛多种疾病的重要病原体,也是引起牛呼吸道综合征的重要病原体之一。牛支原体除了可导致肺炎、乳腺炎外,还可导致关节炎、角膜结膜炎、生殖道炎症、流产与不孕等多种疾病。目前已获得11株全基因组序列的牛支原体菌株(表8-10),基因组大小在1Mb左右,G+C(%)含量27.8%~32.9%,牛支原体与牛无乳支原体基因组非常相似,在16S rRNA上有99%的同源性。
表8-9 已完成基因组测序的山羊支原体略表
表8-10 已完成基因组测序的牛支原体略表
犬支原体( M . canis )可以感染包括犬在内的多种哺乳动物宿主,主要引发犬的脑膜脑炎。目前已获得两株全基因组序列的菌株(表8-11),其基因组大小在890~970kb之间,编码700多个基因。
表8-11 已完成基因组测序的犬支原体略表
植原体( Phytoplasma )是一种常见的导致植物发病的支原体,寄居在植物的韧皮部,通过昆虫咬食韧皮在植物之间传播疾病,可以导致700多种植物发病。目前完成了洋葱黄化病植原体(onion yellows phytoplasma)OY-M株的基因组测序。植原体OY-M是导致洋葱、橘树等植物枯黄病的支原体,其基因组除了1条环状染色体外,还包含2条额外小染色体,染色体大小为861kb, G+C(%)含量28%,预测有754个CDS、2个rRNA操纵子编码基因和32个tRNA编码基因。一条额外小染色体EcOYM大小为5 025bp, G+C(%)含量25%,含6个CDS,另一条额外小染色体pOYM大小为3 932bp, G+C(%)含量24%,含5个CDS。
目前已经完成基因组测序的非致病性支原体有花状中原体( Mesoplasma florum )包括L1株共9株、嗜酸性温原体( Thermoplasma acidophilum )DMS1728菌株、火山温原体( T. volcanium )GSS1菌株、猪絮状支原体( M . flocculare )。花状中原体L1株广泛存在于哺乳动物、昆虫和植物中,是Mp和Mg相关支原体,属于条件致病性支原体。其基因组大小为793kb, G+C(%)含量27%,预测有682个CDS和35个RNA编码基因。嗜酸性温原体DMS1728菌株基因组大小为1 565kb, G+C(%)含量45%,是目前已知G+C(%)含量最高的支原体,推测有1 482个CDS和48个RNA编码基因。火山温原体GSS1菌株基因组大小为1 585kb, G+C(%)含量39%,预测有1 499个CSD和49个RNA编码基因。嗜酸性温原体和火山温原体特别适应高温和酸性环境,可能与其G+C(%)含量非常高有关。猪絮状支原体Ms42菌株基因组大小为779bp, G+C(%)含量29%,有581个CDS。