基因国度：基因网络如何改变生活最新章节_塞尔吉奥·皮斯托伊著

第一章
如何成为唾液受测者

我集中意念，脑海中想象着各种让人垂涎欲滴的美食：香醇美味的芝士蛋糕，清爽可口的冰激凌，新鲜出炉的佛罗伦萨牛排，装满鲜桃、菠萝和酸橙的果盘等。我绞尽脑汁，希望自己能像巴甫洛夫的狗一样不停地流口水。但事实上，我的唾液只装了半管，而我已经口干舌燥，无法再分泌一滴唾液。

采集唾液是踏上DNA国度探索之旅的关键步骤，要抵达目的地，我必须不停地往那个巨大的带有漏斗和超大盖子的无菌塑料容器中吐口水，直到唾液量达到上面标示的液位刻度为止。然后，我的唾液样本将被分析和研究，神奇的尖端技术将揭开我的遗传秘密。而此时此刻，我正在努力吐出足够的唾液来装满那根收集管。这是我在整个DNA之旅中需要付出的唯一体力劳动。

唾液收集管是与邮件一起寄来的，装在一个精致漂亮的彩色包装盒里，看起来像新手机盒子。我是在23andMe.com网站上花了99美元购买的检测服务，这是一家为消费者提供在线基因检测服务的公司。包装盒里装着一根唾液收集管和一张卡片，上面有几条简单的说明：请您往管内吐口水、盖上盖子，然后将唾液样本寄回指定地址。

你可以从任何体液或身体部位上采集DNA：血液、头发、精液、眼泪、汗水、皮肤、手术过程中采集的组织样本，甚至指纹。然而，要想从活人身上采集遗传物质，那么唾液是最简单、最无痛且最安全的方法。每分钟都有一些细胞从你的口腔黏膜上脱落到你的唾液中，每个细胞中都含有一份你DNA的精确副本，你体内的37万亿个细胞都是如此。因此，一根装满唾液的收集管含有足以用来提取和读取的遗传物质。

23andMe网站详细说明了唾液样本到达实验室后的处理步骤：技术人员将样本放置在作业线上，进行首次化学处理，即打破细胞的微小薄膜，释放里面的DNA，然后其他技术人员进行提纯处理。接下来，样本被放置到一台机器中，扫描字母序列并生成档案。在两周内，实验室将发送一封电子邮件，通知客户结果已经出来，然后客户就可以登录网站并查看结果。此后，客户的DNA信息将被制作成数字化档案，被存入一个数据库，其中包含数百万份来自世界各地的唾液受测者的档案。每个人都渴望了解其染色体，想知道自己基因中隐藏的秘密。

探索之旅固然令人兴奋，但第一次研究自己的染色体还是颇感尴尬。我曾在世界各地多家研究人类基因和遗传物质的实验室工作，研究来自匿名捐赠者、患者、生物样本库的DNA，甚至是从人体中分离出来并在各个实验室转移的单个基因。像我的任何一个同事一样，我可以告诉你很多种从地球上的活体中提取、操作、读取或剪切粘贴DNA的方法，而且我对人类基因组学很了解。尽管如此，每当想到某人（或某物）要研究自己的DNA时，我就会感到有些不舒服。我感到脆弱无助，就像一个已经拥有上百次手术经验的外科医生，此刻正茫然地躺在手术台上，等着别人给自己开刀。尽管这个基因检测网站竭尽全力，试图让客户相信此类DNA检测是一种非常新奇而有趣的体验，但是，当我签名时，条款中的几行小字仍让我感到惴惴不安，上面写着“在此过程中，你可能会发现一些有关你自己和/或你的家庭成员令人沮丧或焦虑的事实，而你无法对其控制或改变”。

不仅仅是23andMe，所有检测机构都会在其条款中添加类似的警告条款，提醒唾液受测者DNA检测可能带来的副作用，就像药物说明书中的警示语一样。但不同的是，我现在并不是在买药。消费者基因组学公司对此声明，他们采集基因信息并非用于医学或诊断程序，而是作为自我探索的教育工具。用他们的话来说，当你把唾液吐进DNA收集管时，你就开始了自我探索之旅，甚至能窥探自己的未来。尽管如此，这些警示语仍让人感到非常不舒服，而且，后来我发现很多人都有同样的感受。

蓬勃发展的市场

如今，专门从事唾液DNA检测的公司不在少数。有数十个网站提供个性化基因检测，价格低至50美元，有的甚至提供免费检测。你不仅可以获得一个价格实惠的基因档案，而且足不出户即可轻松完成，无须去医院或去实验室。这是一个直接面向消费者销售基因组学产品的全新领域，是一个蓬勃发展的市场，融合了科学、医学、系谱学、最新的DNA技术与电子商务策略。消费者基因组学的出现，削减了很多DNA检测的医疗服务人员，如医生、遗传学家和研究人员等。唾液受测者不同于患者，他们和你我一样，都是普通的消费者。他们通过电视广告、户外大型广告牌、社交媒体等途径得知，或者经朋友介绍后，购买了DNA检测套件。

2019年，超过2 600万人在网上或实体店购买了DNA检测套件。Ancestry.com占据的市场份额最大，它原来是一个系谱网站。2012年，该公司推出了AncestryDNA服务，该服务将基因检测纳入系谱搜索中，并开始直接面向消费者销售DNA检测套件。第二大公司是23andMe，拥有约800万客户（“23”是指人体染色体的对数）。谷歌是23andMe的主要投资者，两家公司的总部都在加利福尼亚州山景城，仅一路之隔。23andMe的联合创始人、生物学家安妮·沃西基（Anne Wojcicki）嫁给了谷歌公司的联合创始人瑟吉·布林（Sergey Brin）。其他约250家小型检测公司共享了剩余的400万客户。市场中还有更多的潜在用户。根据毕马威会计师事务所（KPMG）的一项调查，60%的消费者有意尝试使用DNA检测套件，2020年该领域的市场收入超过10亿美元。不过，这个数字具有一定的误导性，因为对于许多公司而言，唾液受测者提供的资料将会带来极为丰厚的利润，而DNA检测套件的销售收入只占其中的一小部分。我们将在后文进行阐述。

DNA超市并非在一夜之间激增的。23andMe网站在2007年推出第一个商用DNA检测套件时，想要参与唾液检测的人必须支付1 000美元，这只有富人和名人才能负担得起。随着检测价格的不断下降，唾液受测者的数量呈指数级增长。一年后，价格就下跌到原来的三分之一。现在大多数公司的检测价格还不到100美元。

如今，此类服务的商业广告随处可见。你很容易就能在街边药店、楼顶广告牌或电视广告中看到DNA检测套件的宣传广告。基因检测正向我们飞奔而来，融入我们的生活。

蕴含生命密码的“面条”

如果你可以放大体内的某个细胞，在充满细丝、黏膜和细胞器的迷宫中前进，你将会看到一个截然不同的气泡——细胞核，即细胞的遗传控制室。进一步放大细胞核，你会看到一个细长的“面条”——DNA（脱氧核糖核酸），它包含着地球上几乎所有生物的基因信息。

DNA是由4个被称为脱氧核苷酸的化学单元组成的长序列，每个化学单元都包含一个不同的化合物：腺嘌呤（A）、鸟嘌呤（G）、胞嘧啶（C）和胸腺嘧啶（T）。这四种化学成分组成了基因字母。它们就像页面上的字符一样，通过组合形成了细胞可以读取和解析的一系列指令。由于脱氧核苷酸A、G、C和T是DNA的字母，因此从现在开始，我将它们称为“字母”，不再使用它们的专有学术名称。每个人的DNA都包含32亿个字母，这些字母构成了用遗传密码书写的短语、章节和海量信息。现在，我们进一步放大DNA，观察它的详细结构。我们会发现，这是一个人类进化的完美例证。这个看似简单的字母链实际上是一个双螺旋结构，就像是一个两股平行排列并盘旋缠绕的楼梯，相对股的字母配对后形成了台阶。1953年，詹姆斯·沃森（James Watson）和弗朗西斯·克里克（Francis Crick）在罗萨琳德·富兰克林（Rosalind Franklin）和莫里斯·威尔金斯（Maurice Wilkins）的开创性工作的基础上，发现了DNA分子的双螺旋结构，并阐述了其奇妙的特性。例如，对应股上的字母配对遵循严格的规则：一股上的“A”仅与另一股上的“T”配对，而“G”仅与“C”配对。由于这种强制性配对，双螺旋的两股具有互补性。如果在一股上具有某个字母，那么在另一股上就会自动出现对应的字母。例如，如果在一股上有字母序列ATTTCGA，那么在另一股上就会出现TAAAGCT，以此类推。基于此规则，双螺旋可以创建自身的副本，这是单股分子链永远也无法实现的功能。细胞开始繁殖并需要复制其DNA时，双螺旋将会打开。细胞会将每一股用作模板，从中构建与模板配对的互补字母序列。此过程结束时，会产生两个相同的原始双螺旋副本，等待被分配到每个新细胞。正是如此简单而优雅的机制构成了这个星球上所有生命的基础。

染色体和基因

除了在成熟过程中失去细胞核的血红细胞外，我们体内的每个细胞都包含一份完整的DNA副本。如果你拉开单个细胞的DNA，你会发现它的长度会达到两米。但是，这个细长的“面条”竟然能被塞进一个只有几微米的细胞核中。这是因为双螺旋缠绕在“组蛋白”的“线轴”蛋白质周围，堆积并盘绕多次以形成染色质。这种染色质是一种由DNA和组蛋白制成的极其致密的纤维。

染色质可分成若干块状物，即染色体。每条染色体都是遗传材料的一部分。遗传物质是一个紧密包装的内含数百万字母的DNA字符串。染色体的数量和大小因物种而异。人类有23对总共46条染色体，分别来自父亲和母亲。在细胞分裂前不久的阶段，可在显微镜下观察到染色体，它们在细胞核内以不同大小的棒状形态出现。其中两条被称为X和Y的染色体组合起来后决定了性别：雌性为XX，雄性为XY。其余染色体根据其大小从1到22进行编号。

每条染色体包含几千个被称为基因的信息单元。每个信息单元由几千个DNA字母组成。如果你将染色体视为一本遗传学书的分卷，那么基因就是其中由字母构成的具有精确和一致信息的章节。根据最新的研究，我们体内有大约21 000个基因。根据传统定义（目前已发现很多例外情况），每个基因都是可以编码出不同蛋白质的一段信息。蛋白质是所有细胞和有机体的基本组成要素。虽然基因在细胞核中默默存在，但它们编码的蛋白质却完成了生命所需的所有工作。细胞、器官和组织的骨架均由蛋白质组成。被称为“酶”的蛋白质催化所有生化反应和代谢循环。激素、各种化学信使、毛发、皮肤、蚕丝、蜘蛛网和许多动物毒素都是蛋白质。某些蛋白质的工作是调节基因编码的活性，产生反馈效应。人体内的每一个基因，都有相应的蛋白质为其辛勤地工作。

有趣的是，基因只占我们DNA的2%～3%。也就是说，我们的大部分遗传物质不编码任何蛋白质。这让研究人员困扰了数十年。我们经历了数百万年的自然选择，怎么可能一直携带这么多毫无用处的DNA呢？如果这些DNA没有任何用处，那为何我们体内的细胞还要制造和维护这么多昂贵的化学物质呢？从进化论的角度来看，这是非常荒谬的行为。这就像是每天有几十亿员工带着笔记本电脑、午餐，还有200千克的垃圾走入办公室。科学家们实在无法理解这些物质在人体中能起到怎样的作用，于是干脆将这些非编码序列不客气地称为“垃圾DNA”，这种称呼一直沿用至今。然而，根据最近的研究，我们了解到，这种所谓的“垃圾DNA”并非毫无用处；事实上，这种物质中含有大量的控制元素，可用于调节基因甚至整个染色体。我们将在“唾液样本的未来”中进行阐述。

由于我们继承了每条染色体的两个副本——一个来自母亲，一个来自父亲，因此我们也拥有每个基因的两个副本。这些基因的版本并不总是相同的，因此它们会对生物体产生不同的影响。这样，我们就会想到另一个经常在DNA报告中看到的术语：等位基因。每个等位基因是族群中存在的相同基因的不同变体。例如，在4号染色体上有一种名为ADH的基因，可以编码出一种能分解体内酒精的肝酶。某些版本的ADH基因（等位基因）可产生更具活性的酶，而其他版本则产生活性较低的酶。如果你继承了两个“快速”的等位基因，你的肝脏就会产生更多的活性酶，因此会比拥有两个“慢速”等位基因的人更快地代谢酒精。继承一个“快速”和一个“慢速”等位基因的人的酒精代谢情况大致介于前述两者之间。这个例子并不完全准确（实际上，总共有七个ADH基因，每个基因都有不同的等位基因，这样就使事情变得更加复杂），但它说明了遗传学中的一个规则：我们继承了每个基因的两个等位基因，它们的组合会影响我们的性状。这条规则也存在例外情况，那就是位于性染色体中的基因。你还记得吗？雄性染色体是XY，雌性是XX，因此很显然：雌性在X染色体上的每个基因都有两个等位基因，但并没有来自Y染色体的基因；而雄性在X染色体或Y染色体上的每个基因均只有一个等位基因。基因检测考虑了这些情况。

此外，在细胞核外还存在一小部分DNA，可在线粒体中找到。线粒体是一种微小的细胞器，就像是细胞的化学发电厂。专家认为，线粒体实际上是一种古代的细菌，在14亿～18亿年前与第一批细胞相互融合，并与这些细胞一起进化。每个线粒体都有一个与细菌结构类似的环状DNA，尽管其在整个基因信息中占比很小，但具有非常重要的作用。人类线粒体只有37个基因，但系谱学家非常关注这些微小细胞器的DNA，这是因为它们只能从母亲那里继承，因此有助于追踪母系血统。

超强图谱

如果没有科学家们的努力探索，成功完成人类首张完整的DNA图谱，那么很难想象后来会出现消费者基因组学。早在1989年，诺贝尔奖获得者雷纳托·杜尔贝科（Renato Dulbecco）就率先提出有关解码整个人类DNA的计划。用他的话来说，该计划类似于将人类送到月球上的太空计划：这两个计划在拟订之初，听起来似乎完全不可能实现，但一旦成功实施，都将使我们的知识水平向前推进好几代。

杜尔贝科提出该设想后，业界经历了一段沉寂期。随后，以英美两国为首的国际联盟开始着手实施“人类基因组计划”（HGP）。解密人类DNA成为人类历史上最雄心勃勃和最昂贵的科学项目之一。成千上万的研究人员投身其中，历时15年之久，总耗资估计超过30亿美元。它还引发了竞争集团之间声势浩大的“基因组战争”，有时甚至会引发政治冲突。HGP于2000年完成图谱初稿，并于2003年正式发布了人类基因组的首张完整图谱。这是人类首次解码包含32亿字母的完整DNA，并将副本编入档案，任何人都可以在线搜索和使用。

我们绝对没有高估此项工作的重要性。自21世纪初期以来，几乎所有最新读取的人类基因组和基因都会与该图谱进行比对，该图谱可用作解读DNA信息的参考。如果没有像杜尔贝科这类科学家的远见卓识和世界各地成千上万的研究人员的辛勤工作，我们根本不可能通过网络来探索我们的DNA，基因组学仍将是一个无法实现的梦想。而有了这张图谱，研究人员就像是拥有了人类基因组的谷歌地球（Google Earth）软件。他们可以使用染色体导航，用基因组浏览器来定位基因或插入DNA中任何位置的坐标，并可随时放大观察。有许多工具都可以在互联网上免费获取，如Ensembl（欧洲生物数据库）和Genome Data Viewer（基因组数据浏览器），而其他工具则包含在消费者基因组学套件包中。

HGP计划的领导人、美国科学家弗朗西斯·柯林斯（Francis Collins）曾说过一句名言：“人类DNA图谱‘只不过是初期阶段的研究成果’。”他的意思是，尽管DNA图谱是一项伟大的历史性成就，但它只是遗传研究的一种工具，而非终点。HGP的另一位关键人物，来自英国的诺贝尔奖获得者约翰·萨尔斯顿（John Sulston）爵士开玩笑地说，这张DNA图谱可能会让科学家们再忙乎一个世纪。差不多20年过去了，柯林斯和萨尔斯顿的言论显得无比贴切。DNA就像一个尚未开启的宝盒，充满着无限神秘与惊喜，等待我们探索！

从基因到基因组

DNA图谱不仅是技术上的飞跃，而且为我们以全新视角来观察基因信息奠定了基础。DNA检测并不是什么新鲜事物，自20世纪70年代末以来，遗传分析已被广泛用于许多遗传性疾病的诊断和法医调查，正如美剧《犯罪现场调查》（ CSI ）爱好者们所熟知的情节。但是，这些检测仅限于单个基因或由几个基因组成的基因组。就像资源有限的探险家一样，研究人员在进行漫长而昂贵的DNA分析之前，必须谨慎选择目标，否则研究就可能走入死胡同。由于检测昂贵且耗时，而且具有技术难度，因此其只能用于受遗传性疾病困扰的家庭，或用于某些肿瘤的分子诊断。

21世纪伊始，随着技术的发展和DNA图谱的问世（可用于参考），使得同时读取和分析个人的所有DNA信息成为可能。因此，“基因组”和“基因组学”这两个术语开始流行起来。你会在许多现代生物学论文中发现很多后缀为“-omics”、“-omic”和“-ome”的词语，它们都表示“整体性”。根据这种趋势，术语“基因组”表示某个生物体的全部遗传物质，而“基因组学”则表示研究基因组的科学。基因组学的整体理念代表了一种范式转变：遗传学主要研究单个基因，而基因组学则研究所有染色体。

基因组工具就像一架带有X光相机的无人机。在检查DNA潜藏的问题时，科学家和医生们无须检查每一条染色体和基因，而是可以通过鸟瞰图快速扫描整个基因组，将突变快速锁定。或者，他们可以比较不同人的整体DNA，以寻找影响个人性状、疾病易感性，以及让我们与众不同的其他特征等方面的个体差异。通过研究基因组而非单个基因，研究人员现在可以观察到以前未知的遗传机制，并且可以同时研究数百个基因的作用。为方便起见，在本书中，我将术语“遗传学”与“基因组学”用作同义词。这也是非常合理的，因为我描述的所有应用都是同时分析全部DNA，因此属于基因组学的范畴。

基因组学的研究方法日益强大和完善，正在逐步取代研究和诊断遗传疾病的传统技术。同时，它也开辟了一个全新的市场，为那些身体完全健康但是对自己的DNA感到好奇的人士提供服务。然而，尽管DNA图谱非常重要，但它并未反映出人类的所有遗传变异性，也无法解释为什么我们每个人都完全不同。相反，它的设计并不具有个体性，而是建立在若干匿名捐赠者的DNA的组合之上，它呈现的是典型的人类基因组（用于整体物种而非个体参考）。要想让基因组学应用到个体，我们必须从单个图谱转移到多个图谱，将整体式参考变成可以解释个体差异的工具。

有差异的科学

我曾经做过只有那些遗传病人才会做的梦。我常常梦见自己与漂亮的超级名模亲密相处，她会突然问我：“哦，亲爱的，你实在是太优秀了。你告诉我，我需要改变多少DNA，才能变得和你一样优秀？”

正如你们所见，我长得一点也不像选美皇后，但是这个议题是有意义的，因为我的梦境引出了一个遗传学难题：在我的DNA中，究竟是哪部分让我与超级名模、体育冠军或好莱坞明星不同？你可以做一个类似的实验，想象一个看起来和你截然不同的人，然后思考，你们之间存在如此明显的差异，那你们之间究竟有多少DNA字母不同呢？通过解码和比较数千人的DNA信息后，遗传学专家给出了令人惊讶的答案：如果你随机抽取两个人，他们的DNA有99.5%到99.9% 都完全相同，这意味着平均每1 000个字母中只有1到5个字母不同（根据不同的估算方法，具体数字有所不同）。如果我可以回到生命的初始阶段，知道要交换哪些字母不同，我就可以通过改变这些基因组，把自己变成莱昂纳多·迪卡普里奥（Leonardo Di Caprio）、伊德里斯·艾尔巴（Idris Elba）、斯嘉丽·约翰逊（Scarlett Johansson）或任何其他人的遗传副本。

遗传相似性也普遍适用于其他生物。我们与黑猩猩、老鼠和香蕉分别拥有98%、85% 和50%的相同基因。这实在是令人难以置信，因为我们人类和其他生物拥有各种各样的面孔、肤色、外观和其他性状。每个人都可以轻松区分香蕉与猴子、猴子与人类、我与超模。但是，当你对个体DNA进行放大观察时，情况就不同了。比较不同人的基因组就像在玩“大家来找茬儿”的游戏。两个不同人的基因序列看似完全相同，但仔细观察就会发现其中存在着数百万个微小差异，就像在茫茫大海中隐藏着无数基因的细针。遗传学家痴迷地寻找这些差异，因为它们有助于解释为什么每个人都是独一无二的。而个人基因组学的目标就是识别这些差异，了解它们如何影响我们的性状、秉性与健康。

下面，我们来探讨SNP（Single Nucleotide Polymorphism，单核苷酸多态性，发音为“snip”），它是个人和消费者基因组学的生存基石。其名称看似复杂，但原理其实非常简单：SNP就是不同个人的基因组之间存在字母差异的位置点。例如，如果我的DNA在某个位置具有字母“C”，而莱昂纳多·迪卡普里奥的DNA在同一位置具有字母“A”，那么这就是一个SNP（术语“变异”是SNP的同义词，我在后文将两者互换使用）。如果你比较多人的DNA，就会发现有些变异比其他变异更常见。我们来看一个示例（以下序列仅出于演示目的而创建）（图1.1）：

图1.1 基因序列中的SNP示意图

从图1.1中，我们可以清楚地看到，不同人的DNA都存在一些变异（SNP1和SNP2），此外还有一些较为罕见的变异（已标注星号）。如果你将分析范围扩展到整个基因组，并且研究几千个人的DNA（这正是许多研究项目的实施步骤），你就会发现一个类似的现象：某些SNP出现的频率明显高于其他SNP。这就意味着不同人的DNA在这些位置上可能会存在差异。HapMap（人类基因组单体型图）计划和千人基因组计划等国际计划比较了来自不同族裔的数千人的DNA，并协助编制了dbSNP（单核苷酸多态性数据库），这是迄今为止最大的SNP数据库。这里面列出了每个已知的变异及其在不同人群中的出现频率。SNP仅占人类总体DNA的一小部分，但却拥有庞大的信息量，这实在令人难以置信。根据定义，它们是人类基因组中最容易发生变异的部分。我们再次以“大家来找茬儿”这个游戏为例，使用SNP就像是与一个试图暗示答案的人一起玩游戏：每当SNP出现时，就有一支无形的笔在DNA的对应字母上圈起来，以标记它与众不同。

罕见遗传变异（被称为突变）总共有数百万种。突变与SNP之间并无本质区别，只是在语言表达上有所不同。因为突变、变异和SNP其实是一回事，是指不同个体之间存在的DNA字母差异，而它们之间的唯一区别就是在族群中出现的频率。

我们在哪里可以找到SNP呢？事实上，我们可以在基因组中的任何角落找到SNP。有些位于基因内部或附近，有些则位于染色体的非编码区域，甚至位于线粒体DNA中。SNP是当代DNA研究的主要内容，并被广泛用于消费者基因组学，因为它们可以让科学家在寻找个体遗传差异时快速扫描基因组。

SNP分析的结果通常称为基因型（genotype）。该术语具有更广泛的含义，适用于我们能从个人DNA中获得的任何数据集。但在消费者基因组学中，它通常指的是你拥有的变异。例如，具有SNP rs6152的AG基因型的男性秃头风险更高（AG表示某人在一个等位基因中有字母“A”，而在此位置的另一个等位基因中有字母“G”）；而具有AA等位基因的人则不容易秃顶。

随着研究的进展，我们逐渐清楚，SNP并非人类遗传变异的唯一原因。插入缺失（Indel）是由少于1 000个DNA字母的额外（插入）和遗失（缺失）字符串构成的个体差异。拷贝数变异（CNV）与插入缺失类似，但是包含较长的DNA字符串（大于等于一千个字母），可容纳一个或多个基因。拷贝数变异和插入缺失曾被认为是无关紧要的变异，但现在被认为与SNP一样，是导致个体变异性的重要原因。

另一种新出现的变异机制是所谓的表观遗传修饰，这是一系列改变染色体结构的高层级变化。如今，有越来越多的证据表明这些机制在生物学中的重要性。我将在后文“唾液样本的未来”中探讨这个话题。