弓形虫基因组大小约65Mb,由线粒体基因组、顶质体基因组和染色体基因组组成。线粒体基因组是一个6~7kb的多拷贝元件,编码呼吸链的三种蛋白和广泛片段化的核糖体RNA(Feagin,2000)。这三种蛋白分别是细胞色素b(cytochrome b,Cob)、细胞色素c氧化酶Ⅰ(cytochrome c oxidase Ⅰ,Cox1)和细胞色素c氧化酶Ⅲ(cytochrome c oxidase Ⅲ,Cox3)。顶质体基因组是一个约35kb的环状DNA分子,每个单倍体基因组约有22~25个拷贝(Matsuzaki等,2001;Reiff等,2012)。顶质体基因组与已知的线粒体基因组无显著的相似性,但与藻类的叶绿体基因组类似,含有核糖体RNA基因的反向重复序列和通常在叶绿体中存在的基因,如rpoB/C、tufA和clpC(图3-1)(Weiss等,2019)。
除合子(zygote)外,弓形虫生活史中的其他时期个体的染色体均为单倍体,共14条,分别命名为Ⅰa,Ⅰb,Ⅱ,Ⅲ,Ⅳ,Ⅴ,Ⅵ,Ⅶa,Ⅶb,Ⅷ,Ⅸ,Ⅹ,Ⅺ和Ⅻ号染色体,大小在2~7Mb,GC含量为52.2%。14条染色体的遗传连锁图谱(genetic linkage map)见图3-2(Khan,2005)。弓形虫基因组规模的数据,如表达序列标签(expressed sequence tags,EST)、细菌人工染色体(bacterial artificial chromosome,BAC)克隆测序和全基因组鸟枪测序,从2001年开始首次通过ToxoDB提供(www.toxodb.org)。此后,又出现了其他基因组规模的数据库,包括大规模群体测序项目的基因组序列和转录组数据。弓形虫的亲缘物种哈氏哈蒙球虫( Hammondia hammondi )和犬新孢子虫( Neospora caninum )的基因组大小分别为65Mb和62Mb,均包含14条染色体(表3-1)。神经肉孢子虫( Sarcocystis neurona )的基因组几乎是先前所描述的两倍,约130Mb,但它们的GC含量相近。弓形虫与哈蒙球虫和犬新孢子虫之间有高度的基因共线性关系,而与神经肉孢子虫的基因共线性关系不高(Lorenzi等,2016)。
图3-1 弓形虫顶质体基因组示意图(Weiss等,2019)
注:根据转录方向的不同,基因被分别标记在线的上方或下方。在线的上方,表明转录方向是从左到右;反之,则在线的下方。编码蛋白的基因用灰色表示;带星号的基因表明含有内部TGA密码子。未知功能的ORF用一个小写字母来标识。大、小亚单位核糖体蛋白基因( rpl 和 rps )被命名为L和S。非编码RNA基因用白色表示;tRNA基因由其位置上下的单字母代码识别。LSU-rRNA和SSU-rRNA分别是大、小亚单位rRNA。数据来源于GenBank参考序列NC_001799。
关于弓形虫基因表达的调控机制近年不断明晰,其中植物相关的AP2转录因子家族成员在调控核心启动子活性方面发挥重要作用,尤其是在弓形虫的发育过程中。此外,通过系列的组蛋白修饰引起的染色质重塑亦参与基因的表达调控。
目前,针对弓形虫,已开发出强大的正向和反向遗传工具,如目的基因和报告基因的诱导表达、条件性基因敲入/敲除、化学和插入突变结合基因组测序,以及在终末宿主猫体内进行的遗传杂交。这些工具的运用,结合多个虫株的高质量基因组序列,使弓形虫成为其他遗传上不易操作的顶复门原虫的最常用的模式生物。
表3-1 刚地弓形虫和代表性顶复门原虫的基因组特征
注:NA:未确定; a GenBank Assembly ID GCA_000006565.2; b NCBI accession:SUB554996,参考文献:MBio.2015,6,02445-14; c 参考文献:PLoS Pathog. 2012,8,e1002567; d GenBank Assembly ID GCA_000258005.2; e Scaffolds>10,000 bp; f 960 Scaffolds,any size; g Contigs>2000bp; h GenBank Assembly ID GCA_000208865.2; i 外显子和内含子,不包括UTRs; j 不包括UTRs。
图3-2 弓形虫14条染色体遗传连锁图谱(Khan,2005)