购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第1章
零号患者

“今天我们正在学习上帝创造生命时所用的语言。”

——比尔·克林顿,美国前总统

“我们有51%的基因与酵母相同,98%的基因与黑猩猩相同。基因并非人类和其他生物的主要区别。”

——汤姆·莎士比亚博士,英国纽卡斯尔大学

林恩·贝洛米察觉出有些事情很不对劲。林恩来自加州海岸风景秀丽的大阿罗约市。2011年8月,她生下一个漂亮的男婴,取名帕克。起初一切似乎都很正常,但几个星期后,她开始心生疑虑。大多数婴儿很快就能学会的事情,帕克学起来却很困难,比如喝奶和睡觉。他每晚只睡几个小时,而且总是哭闹。2012年3月,帕克6个月大,已经发育迟缓了很多——他并没有像这个年龄段的大多数孩子一样,对周围的事物表现出好奇,也不会翻身,更别提坐起来了。为此,林恩先后带帕克咨询了儿童发育专家、眼科医生、脑科医生和遗传学家。更糟糕的是,帕克9个月大的时候出现了规律性癫痫。尽管医生为帕克做了许多检查和数十项测试,包括很疼的抽血,但始终没能弄清问题所在。林恩回忆说:“我们不断地去约诊各类专家,始终在路上,但总感觉有些病急乱投医,毫无针对性可言。” 月月复年年,帕克一家就这样煎熬着。

2016年,我们第一次见到林恩和五岁的帕克,他被转诊到我们斯坦福大学的未确诊疾病中心。该中心是美国疾病侦探网络的一部分,其宗旨是解决医学领域最具挑战性的病例。很多时候,我们的成功来自分析一个家族的基因组,因为这些基因组中含有至关重要的DNA指令,能帮助我们研究细胞和各个系统。于是,2016年6月28日,我们从帕克身上抽取了血液,以便提取其白细胞中的DNA,列清楚其基因组中的每一个碱基。当然,我们也检测了其父母的DNA。

三个月后,10月4日那天,遗传咨询师克洛伊·罗伊特和埃利·布林布尔打电话告诉林恩,他们发现帕克身上有一种基因突变,这种突变似乎既不是从她那里遗传来的,也不是从帕克父亲那里遗传来的。帕克身上出现的是一种全新的基因突变,这种突变似乎破坏了一个名为FOXG1的基因。 而且,帕克和其他在这个基因上发生破坏性变异的患者有着非常相似的健康问题。这一定就是病因所在。自五年前发现帕克有发育问题以来,这是林恩第一次对病因有了初步了解。她立即在脸书(Facebook)上创建了一个群组,聚集世界各地患有FOXG1综合征的家庭(据最新统计,该群组现有650名家长)。而且,了解了帕克的病因后,我们带他去看了一位运动障碍专家,这位专家立即调整了帕克的药物治疗方案,显著缓解了其症状。林恩最近告诉我:“他还是会偶尔癫痫发作,但现在已经没那么频繁了。虽然仍需定期去看医生,但他很乐观、很快乐。”

帕克和他的父母对未来抱有很大希望,因为现在他们可以和世界各地的医生、科学家以及数以百计的患者家庭并肩作战,互相分享经验,交流见解,期待着有朝一日能攻克这种疾病。科学家对基因组的研究让我们对它的理解有了长足的进步,也深刻影响了我们检测和治疗人类疾病的方式。如果没有他们过去几十年在基因组研究方面的努力以及获得的进展,我们的未来将截然不同。这些突破性进展还要从2009年说起。

那是很普通的一天,早会结束后,我没去吃午饭,而是去了斯蒂芬·奎克的办公室,他是斯坦福大学的物理学教授,也是一名生物工程师,后来我们成了很好的朋友。斯蒂芬以其在微流体领域的开创性研究成果而闻名。他发明了带有开关的微型生物电路板,这种电路板类似于铁路上的站点,可以将细胞或分子引导到特定目的地,然后对其进行分析。我和斯蒂芬当时正准备在斯坦福大学为遗传学领域的教员举办一个研讨会。斯蒂芬·奎克的办公室在斯坦福大学的一栋以詹姆斯·H.克拉克的名字命名的大楼里。克拉克是一位电气工程师,也是美国硅图公司和美国网景公司的创始人。克拉克研究中心大楼由英国著名建筑师诺曼·福斯特设计,其外形像肾脏,外墙由玻璃构成,有着流畅的红色线条,到了晚上,灯火通明,看上去就像一艘外星飞船降落在校园中央。在某种程度上,好像确实可以这么说,因为修建这座大楼的目的就是孵化一个新的学科——生物工程学,即生物学和工程学相结合的交叉学科。大楼坐落在医学院和工程学院之间,距离斯坦福医院也很近。大楼周围种了棕榈树,在加州蓝天和阳光的映衬下,看上去很是美丽。路过大楼时,你可以透过窗户看到一排排灯光明亮的实验台,上面放着工程学的实验工具,旁边是分子生物学的湿法工作台,以及正在用移液管做杂交试验的机器人。大楼房间编号奇怪、复杂,如果你足够幸运的话,或许可以在白天找到斯蒂芬位于三楼的办公室。

斯蒂芬先后就读于斯坦福大学和牛津大学,是著名的物理学教授,也是一位杰出的反传统主义者。他学识渊博,不修边幅,完美契合当时人们心目中大学教授的形象。在斯蒂芬的办公室里,杂乱无章的学术期刊堆积如山,铺满了每个角落,就像他那装满知识的大脑一样。他弓着腰坐在中间,不停地敲击键盘,创造新的知识。即使在人才汇聚的大学校园里,斯蒂芬也很突出。我那天去是为了讨论我们即将举办的一个研讨会,这个研讨会计划把不同大学的人类遗传学家聚集在一起,但我们最终并没有讨论这个话题。

“来看看这个。”他说。我在成堆的学术期刊中找了个地方坐下,随后他招手示意我过去看他的电脑屏幕。起初我不知道他具体要我看什么,只见他打开一个网页浏览器,屏幕上显示出一张表格,表格顶部写着“Trait-o-matic ”。 这是早期网站上一种没有格式的简陋表格,外观并不好看,但是吸引我的并不是表格的外观,而是里面的内容。表格中有很多列数据,包括基因名称、基因符号,以及腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)、胞嘧啶(C)四种构成基因基本单位的物质。

“这是什么?”我问道。

他接下来的回答对我们俩的研究都产生了颠覆性影响,这是个具有里程碑意义的时刻。他以其标志性的陈述语气据实以告,这听起来既低调朴实又颠覆常规:

“这是我的基因组。”

那是2009年初,全世界范围内做过基因组测序的人屈指可数,每一个基因组都被按测序通量排列,或者按测序成本降序排列。美国能源部和国立卫生研究院为人类基因组计划投入了30亿美元。 尽管人们通过一次次努力极大地降低了测序成本,但测序费用仍然令人望而却步。克雷格·文特尔是一个喜欢尝试新事物的企业家,为了成为人类基因组测序的第一人,他参加了一项公共基因组计划,花费了大约1亿美元对自己做了基因组测序。 2008年,一位姓名不详的中国人也花费了大约200万美元进行基因组测序。 詹姆斯·沃森曾与弗朗西斯·克里克共同发现了DNA的双螺旋结构(两人后来与莫里斯·威尔金斯共同获得诺贝尔奖),并与罗莎琳德·富兰克林一起揭示了DNA结构。詹姆斯·沃森也在2008年初通过贝勒医学院的一个研究团队进行了基因组测序,这次费用相对较低,花了大概100万美元。 每一次基因组测序都需要数百名科学家工作数千小时,付出大量时间和精力。2009年,斯蒂芬与博士后学者诺玛·内夫和博士生德米特里·普什卡廖夫合作,在自己的实验室里用自己发明的技术对其本人的基因组进行了测序,只花了4万美元,耗时一个星期。

我对实验室和科室的测序流程都了然于心。我们会把患者的血样送去做DNA测序,希望通过这种医学基因检测找出其患遗传性心脏病的病因。有5~10个基因与患者心脏状况有直接联系,而这些检测能确定构成这些基因的碱基字母(A、T、G、C),从而找出引发疾病的罪魁祸首(通常是由于其中某个碱基字母发生了变化)。当时,对这5~10个基因进行测序的成本为5000美元左右,需要2~4个月才能拿到结果。因为当时的基因与疾病匹配鉴定技术还处于发展的早期阶段,所以这项检测结果的准确率也只有三分之一左右。这就是我当时的境况。想象一下,我们或许可以接触到人类的整个基因组:不是5个,不是500个,不是5000个,而是整整20000个基因,还有基因与基因之间另外98%的基因组……这是一个非常令人吃惊的数字。

当时,随着基因组测序成本急剧下降,我们中的一些人开始怀疑,是否有一天患者会在走进我们的办公室时,手中“紧紧握着自己的基因组”(他们可能真的已经拿到了基因组测序结果,又或者我们可以马上对其进行测序)。在硅谷,我们喜欢把一切事物和计算机做比较,但喜欢将测序成本和计算机成本迅速下降做比较的,不仅仅是我们这些旧金山湾区的人。科学家普遍将测序成本的下降与摩尔定律进行比较。戈登·摩尔是湾区土生土长的物理学家,他和罗伯特(“鲍勃”)·诺伊斯为集成电路的发展奠定了基础,创办了硅谷极具影响力的半导体公司——英特尔。在1965年的一篇关于科技快速进步的文章中,戈登·摩尔曾提到集成电路上可容纳的晶体管数量几乎每18个月就能翻一番,这意味着每隔一年,处理器的价格也会随之减半。不过他后来认为可能每隔两年翻一番比较现实,但无论如何,这个“定律”已经成了科技快速进步的代名词。 人们普遍发现,基因测序的价格也在以同样惊人的速度下降,至少2008年之前是这样,当时测序成本的下降速度连摩尔定律都望尘莫及。美国国家人类基因组研究所发布的一张断崖式下降的图表充分说明了这一点。 我很喜欢这张图表,和许多基因组研究者一样,我经常在展示中用到它。但我很快就找到了一个更具体、更能引起共鸣的方法来说明这种价格下降趋势。阿瑟顿位于硅谷中心,是亿万富翁的聚集地。当时,我的通勤路线会经过阿瑟顿附近的一个法拉利-玛莎拉蒂车行。等红绿灯时,我常常会瞟一眼那些车。有一天,我在等红灯时简单算了算,基因测序成本在人类基因组工作草图案(即初步粗略绘成的人类基因组图谱)公布后的八年里大幅下降,如果车行里法拉利价格的下降幅度也这么大,那么其售价将从35万美元跌至不到40美分。40美分的法拉利!价格降幅几乎达到百万级。这似乎史无前例。所以,我把这个想法也加到了要展示的幻灯片上。有时候,人们告诉我这样的解释更令他们印象深刻。

不可否认,2009年斯蒂芬做基因组测序的成本降到了4万美元,但让患者自愿到诊所来进行基因组测序似乎仍然是一种荒谬的未来主义设想,就像我会拥有一辆法拉利一样荒谬。但这种未来主义的设想是创造性思维的重要推动力,我们难道不应该开始为那天的到来做准备吗?是的,我们将面临计算能力上的挑战和巨大的知识鸿沟,但是,如果我们能成功解码基因组,而不仅仅是测序;如果我们能完全理解这本书,而不仅仅是阅读;如果我们能把数据转化为知识,并将其应用在临床患者身上,那实际效果会如何呢?

在斯蒂芬的办公室里,他问了我关于各种基因的问题。他指着屏幕上自己的DNA碱基字母与参考序列中不同的地方(我们将在第6章中讨论参考序列及其来源),问道:“你看到什么认识的东西了吗?”我快速浏览了一遍,注意到一个我非常熟悉的基因:心肌肌球蛋白结合蛋白C。这个基因编码的一种蛋白质是心脏正常运作的重要组成部分。多年来,科学家一直没能弄明白其真正的功能,但现在我们知道,这个基因的变异体是遗传性心脏病——肥厚型心肌病(一种与心力衰竭和猝死相关的疾病)最常见的病因。这就是斯蒂芬所指的其基因组中的那个基因变异体。这种变异可能会危及生命。所以,作为一名心脏病专家,我很自然地开始询问其身体状况:“你有哪里不适吗?有什么症状吗?胸痛吗?呼吸急促吗?心悸吗?”那一刻,我不再是一个走进同事办公室的科学家,而是一个与患者交流的医生,是一个极为不同的调查员,在探查一个非常私人的真相。斯蒂芬没有任何此类症状,也没有任何不适,我松了一口气。

所以,我把注意力转向了他的家族病史。家族病史对于不同的医生来说意义也不一样。对某些医生来说,家族病史像一个回答是或否的勾选框:“家族中没有什么疾病史,是吗?”好的,下一个问题。但是,对于遗传学家或罕见疾病诊断专家来说,家族病史是一个充满治疗线索的宝库,需要仔细地研究、拆解、检查和解构。他们对待家族病史就像夏洛克·福尔摩斯对待犯罪现场一样:从每一个角度细致入微地检查家族病史情况,详细询问患者,然后反思并研究。然而,很少有人真正了解自己的家族病史。你现在也可以自己试着列一张家族成员所患疾病的清单,把每种疾病患病亲属的名字和他们首次确诊时的年龄逐一对应起来。这并不容易。我问斯蒂芬有没有家族病史,他和大多数患者一样,很爽快地回答:“没有,没有家族病史。”然后,他回想了一下过往,就像是在柜子的另一端翻阅积满灰尘的文件似的,随即说道:“等等,我爸爸心脏有点儿问题,心律方面的问题,室性……”

“心动过速?”我提出这个问题时并不希望得到肯定的回答,但也本能地做出了最坏的打算(这是医生的习惯)。室性心动过速是一种心律异常现象,可能发生在肥厚型心肌病患者身上。

“嗯,好像是这个。”

这样一来,我在好奇的同时又多了几分担忧。因为室性心动过速患者心脏的上腔和下腔会出现快速且不协调的心跳节律,这种危险的节律可能导致大脑供血不足,而流向大脑的血量太低会导致人失去意识或直接猝死。这是一种让大多数医生感到恐惧的心跳节律,因为一旦发作,患者几乎都会被送去急诊。接诊此类患者的医生也要加快脚步,争分夺秒地赶去抢救。“室性心动过速”这个名字本身听起来似乎就带有一种短促刺耳的感觉,让人联想到医院心电监护仪上断断续续、毫无规律的心电图。这个名字就好像是在大声呼喊“立即抢救!”。它发作迅速,令人胆寒,有时甚至会一击致命。

回想一下,我和斯蒂芬见面是想讨论关于组织遗传学研讨会的事,但这位世界著名的科学家告诉我,他父亲可能患有室性心动过速——一种与猝死有关的疾病。作为一个专门研究引起猝死的遗传性心脏病的专家,我就坐在这儿盯着他基因组里与肥厚型心肌病有关联的一个特定基因变异体看。肥厚型心肌病具有遗传性,并且可能导致猝死。“那么,你家有没有人猝死过?”我问道。这个问题能提供极为重要的诊断线索。对于内科医生来说,此类问题及其后续回答就像外科手术工具对于外科医生一样重要。每个外科医生都有其最喜欢的手术工具,有些工具甚至是专门定制的。这样的工具用起来很顺手,手感也恰到好处。外科医生知道如何使用这些工具,知道如何用它们进行切割,也知道一刀下去器官会有什么反应。如果方向正确,在诊断疾病时我们问患者的这些问题就会像外科医生的手术刀一样好用。

“实际上……我堂兄的儿子前几天突然去世了,没有人知道原因。”

果然!

有线索了:家族中有人突然死去,且死因不明。最危险的红色警报小旗在我面前招展,扑在我的脸上。我努力表现得不那么凝重,同时也在脑子里仔细推算斯蒂芬与其堂兄的儿子有相同基因情况的可能性,我问道:“哦,是吗?他多大了?”

“唉,他才19岁,是一名空手道黑带,我从来没有想过他这辈子会有病倒的一天。”

他堂兄的儿子引起了我的注意。年轻人猝死最常见的原因是遗传性心脏病,比如肥厚型心肌病。随后我请斯蒂芬去科室,以便对其进行心脏检查。此时他不仅是我的同事和朋友,还是我的患者。之后,我大脑飞转,思考着我需要以多快的速度,以及在谁的帮助下,才能尽快筛查出斯蒂芬心脏的问题。我意识到他即将成为世界上首个走进医生办公室接受整个基因组检查的患者。

是的,检查整个基因组!

而做检查的医生就是我。

回到办公室,我脑子里不停思考着各种可能和不可能的情况。我们到底该如何分析基因组呢?当时,解读一个人的整个基因组这一想法听起来似乎既不成熟,又很荒谬。当时人们对公开发布的为数不多的几个基因组仅进行了统计分析——例如,总共发现了多少变异体存在单个碱基突变。贝勒医学院的研究小组更进一步研究了詹姆斯·沃森的基因组中与医学疾病相关的基因变异体。但是,目前我们认识的人当中,还没有人想出一种可行的医学方法来研究整个基因组,包括每个基因的变异体。

于是,我找到了我的一名心脏病学实习生马修·惠勒,他现在是我的长期合作伙伴,也是我的朋友,是一位天赋异禀的临床科学家。马修来自纽约州北部,来斯坦福医院之前曾在芝加哥实习。他高大魁梧,划起船来冲劲十足,而且四肢灵活,滑雪玩得也比我好得多。事实上,我和马修的会面是由我俩的妻子在她们划船俱乐部的“船员”聚会上安排的,我俩一见如故,我们都热衷于研究心脏病学、遗传学、体育运动和遗传性心血管疾病。那天,我们谈到了一个宏伟的计划——建立一个遗传性心血管疾病中心。五年后,我们再次在我的办公室(后来成了他的办公室)见面时,我告诉了他斯蒂芬的事,包括斯蒂芬的基因组、家族病史,以及我从其办公室回来后产生的一个想法:对人类的整个基因组进行临床分析,包括每一个部分、每一个基因、每一个变异体。听了我的想法后,马修面无表情,只是轻描淡写地小声说了句话,似乎预示着我们将要踏上一场冒险之旅:

“很高兴看到你仍怀有当初的雄心壮志。”

人类基因组几乎存在于身体的每一个细胞中。我说“几乎”每一个细胞,是因为某些细胞,比如红细胞,在成熟后会失去细胞核,这样就可以有更多的空间运输氧气。大部分基因组在细胞的“内部保险库”——细胞核中;还有一些在细胞的“动力工厂”——线粒体中。前面提到过,基因组由极长的DNA分子组成。单链DNA由一长串核苷酸分子组成,其中含有特殊的糖和一种碱基。碱基包括腺嘌呤、鸟嘌呤、胸腺嘧啶和胞嘧啶四种。每一个碱基的英文首字母——A、G、T、C——组成了多达60亿个字母的遗传密码。组成基因组的DNA分子非常长,如果把一个细胞中的DNA提取出来,就会有两米那么长,所以DNA需要被压缩后才能进入细胞核。DNA在被压缩时会被包裹在一种名为组蛋白的蛋白质周围,变成一种被称为染色质的致密结构,构成单个染色体。正常人的基因组有23对这样的染色体:22对常规染色体和一对性染色体,性染色体由X和Y两种染色体组合而成(女性有两条X染色体,男性有一条X染色体和一条Y染色体)。有些疾病是由整条染色体复制引起的,例如,21-三体综合征(也称唐氏综合征)就是因为有三条21号染色体。所以,简单来说,基因组就像是存储在人体几乎每一个细胞里的一本食谱。基因组里面共有60亿个字母,全都由A、T、G、C组成,并被压缩成染色体存在于细胞中,正常人都有23对染色体。

这本食谱包含配料及其使用说明,这里所说的“配料”就是基因。基因的大小千差万别:最小的只有8个字母,最大的有2473559个字母。 大多数基因有指导蛋白质合成的编码。编码过程中,DNA被转录成一种叫作核糖核酸(RNA)的相关分子,该分子将编码作为信息带出细胞核,然后以每组3个字母的方式翻译成氨基酸——细胞蛋白质的组成部分。蛋白质可以是结构性的,将细胞固定在一起;也可以是运动性的,用来运输自身或其他物质;还可以是酶,将一个分子转化为另一个分子。控制蛋白质合成的基因大约有两万个,却只占基因组的2%,那另外98%呢?多年来,基因组的这部分被称为“垃圾DNA”,意味着没有人真正知道其用途,现在看来这几乎无法想象。我们曾天真地认为大自然为我们创造的基因组中绝大多数的基因毫无用处,但随着我们对未知基因的了解越来越深入,这一想法也越来越荒谬可笑。事实证明,基因组中的“非编码”部分对基因的功能起着至关重要的作用。而且,基因组的这一部分中大约一半的基因有与之相关的假基因——丧失正常功能的基因拷贝(或者,就像我们过去认为的那样——现在我们知道假基因也可以调节其他基因,特别是其伴侣基因)。其中有一些看起来很像垃圾基因,基因组中有一半是由重复的DNA片段组成的,而我们至今仍未真正了解这些DNA片段。最后,也许最不可思议的是,人类基因组中大约有10%的基因实际上来自很久以前就嵌入我们基因组的病毒。下次你感冒时请记住这一点。

多年来,破译像基因组这样复杂的东西,似乎是不可能的事情。20世纪70年代,人们提出了两种读取DNA的方法,但最受欢迎的还是弗雷德里克·桑格发明的方法。桑格是一位英国生物化学家,他是仅有的四位获得过两次诺贝尔奖的人之一,并指导过两位获得诺贝尔奖的博士,但他常把自己形容为“一个在实验室里瞎混的家伙”。 桑格测序法主导了基因测序数十年,至今仍然发挥着重要作用,这种方法主要是利用一种存在于我们细胞中的名为DNA聚合酶的物质,这种物质可以复制分子。

为了理解桑格测序法,我们要稍微讲一点儿技术知识。 [1] 想象一下,我们有四个标有A、T、G、C的试管,在每个试管中都放入可以复制DNA的聚合酶、要复制的DNA分子本体,以及组成DNA的碱基(A、T、G、C)。现在,我们按照每个试管上的不同字母标签,相应加入一种特殊碱基。该碱基具有特殊的放射性,会阻止DNA聚合酶进一步延长特定的DNA分子。 [2] 此外,重要的是,与常规的碱基数量相比,我们添加的碱基数量很少。现在想象一下,当每个试管中的DNA聚合酶发挥作用时,它会随机与混合物中的碱基结合。当然,它与常规碱基结合的概率要比特殊碱基大,因为常规碱基的数量要多得多。然而,它也可能会和一个具有放射性的特殊碱基结合。这时,DNA聚合酶活动被中止,该分子被标记为具有放射性。但DNA聚合酶会继续在试管的其他地方制造新的拷贝,就这样循环往复。最终,这四个试管都含有不同长度的基因拷贝。“A”管含有标记为“A”的拷贝,“T”管含有标记为“T”的拷贝,以此类推。为了读取序列,我们从每个试管中取出DNA,并利用电荷将分子按其长度沿凝胶板展开。然后,通过将凝胶曝光在X射线胶片上,我们可以检测出放射性元素。结果发现这四张又薄又长的X射线胶片,每张看起来都像是一个缺少很多横档的梯子。然而,神奇的事情发生了。如果你把四张X射线胶片排列在一起,你会看到每个横档只在其中一张胶片中出现。而且出现横档的梯子的位置分别对应字母A、T、G或C。

如果你没看懂,请继续耐心地听我说。这一费力的过程能被加速并商业化,主要得益于三个方面的进步:(1)发光分子取代放射性物质;(2)整个过程都可以在一个试管中完成;(3)我们可以根据电荷更快、更高效地分离分子。美国应用生物系统公司开发了一项新技术,该技术每次可以读取大约500个字母长的基因拷贝,成为人类基因组计划的主要测序方法。

第二个基因组测序也使用了同样的技术,大约与人类基因组计划同时完成,测定的是克雷格·文特尔的基因组序列。文特尔是一位科学家,成立了一家基因测序公司,并试图申请人类基因专利。他曾向公共项目发起挑战,并引发了一场轩然大波(最后被宣布为平局)。文特尔的基因组测序花费了大约1亿美元(这意味着法拉利的价格从最初的35万美元下降到了仅1.2万美元)。

生物学上有许多这样的突破,就像科幻小说一样,即便没有小说情节那么曲折离奇,后世描述时所用的语言也一定激动人心。这也许就是所谓“下一代”测序方法诞生的原因,也许不是。《星际迷航》里的让-卢克·皮卡德也会为此感到骄傲。当然,由于“下一代”这个词是相对的而非绝对的,自桑格测序法以来,几乎所有的技术都一度被称为“下一代”,这也许是不可避免的。的确有一个礼物在不断启发我们,这个礼物就是困惑。但所有“下一代”技术的共同点是,它们都能优化测序过程。以往的测序都专注于想要进行测序的那部分基因组,只对该部分进行多次拷贝,然后进行桑格测序。而下一代测序法是将整个基因组切成100个碱基左右的小片段,然后同时对所有片段进行测序。这使得我们可以对基因进行大规模测序,而且效率很高。

这样的技术进步需要时间。直到7年后,另一个人的基因组才被公布。 2007年,澳大利亚遗传学家理查德·吉布斯领导贝勒医学院的一个团队,利用由连续创业者乔纳森·罗思伯格创立的454生命科学公司的一项技术 ,对诺贝尔奖得主詹姆斯·沃森的基因组进行了测序。因为454生命科学公司的技术能对很长的DNA片段进行测序(最初是400~500个碱基长的片段,后来更新为可以读取长达1000个碱基的片段),所以罗氏集团于2007年购买了这项神秘的技术。根据贝勒医学院团队的分析,沃森的基因组显示出他有患癌症的倾向。沃森还特意修改了其公开的基因组信息,以掩盖一种使其易患阿尔茨海默病的基因变异体,此事广为人知。沃森的基因组测序耗时两个月,花费了100万美元。这意味着那辆法拉利打折到了116美元。

2008年底至2009年初,世界各地的不同研究团队又接连公布了3个人(均匿名)的基因组信息。这些团队用的都是因美纳公司 的测序技术,过去10年的大部分时间里,该公司都是测序领域的主导力量。重要的是,这些测序的基因组开始更全面地代表世界的多样性:一个是中国的汉族人,一个是韩国人,另一个是西非人。有一份出版物包含了一些对基因组的医学注释,甚至使用了我第一次在斯蒂芬的办公室看到的Trait-o-matic软件的早期版本。每项测序都用了6~8周的时间,成本为数十万美元——相当于买下那辆法拉利跑车只要50美元。

斯蒂芬的基因组如此引人注目有几个原因。首先,他发明了用于基因组测序的技术,并创建了赫利克斯公司,以便销售其发明的仪器,该仪器被巧妙地命名为赫利克斯镜。赫利克斯的测序技术与桑格和因美纳公司的不同,因为它是对单个DNA分子进行测序的。荧光标记的DNA碱基被注入流通池,锚定靶序列DNA片段。当每一个碱基被DNA聚合酶——我们所说的复印机——整合到一个新的DNA链中时,一个非常灵敏的相机就会拍摄一张照片,有点儿像给一个小灯泡拍照。然后,前一个“小灯泡”被切断后,下一个会跟着进入再拍一张照片,就这样循环下去。当然,每张照片并不仅仅有一个灯泡。这台相机一次可以读取10亿个灯泡,这意味着一周内就可以生成足够的数据,覆盖整个人类基因组,而成本仅为4万美元。这也意味着,那辆法拉利将在一小时内组装完毕,并且降价到6美元。

正如你所想象的那样,所有这些“下一代”测序方法都输出了数以百万计的短基因组“单词”,这些单词与输入测序仪的DNA小片段相对应。这些单词并不是以特定的顺序出现的,所以为了理解它们,需要把它们组织起来——就像拼图一样。这通常是通过一个计算机程序来完成的,该程序扫描人类参考序列(由人类基因组计划创建的序列),并为每个新词找到正确的位置。这样的程序现在已经标准化了,但当时,我们必须从零开始编写软件。这份工作落到了斯蒂芬实验室的德米特里·普什卡廖夫身上,他身材高挑,体形清瘦,是一名来自俄罗斯的研究生,无论是深夜编程,还是白天探险,都有着令人羡慕的耐力。德米特里编写了最早期的一批程序,可以将DNA片段拼接成基因组,并找到它们与人类参考序列的不同之处。我们的工作正是从这些数据和算法开始的。


[1] 桑格和下一代测序:Heather JM, Chain B. The sequence of sequencers: The history of sequen-cing DNA.Genomics.2016;107(1):1-8;Goodwin S,McPherson JD,McCombie WR.Coming of age:Ten years of next-generation sequencing technologies.Nat Rev Genet.2016;17(6):333-351.

另一种技术是沃尔特·吉尔伯特提出的,与桑格测序同一时期发明。吉尔伯特是哈佛大学的物理学家,后来成为生物化学家,与詹姆斯·沃森密切合作了很多年。其技术涉及对DNA的化学修饰和切割,但也使用了大量的放射性物质,因此,尽管最初在受欢迎程度上超过了桑格的技术,但很快就被改进后的桑格技术所取代。

[2] 最早的下一代测序方法被称为聚合酶克隆测序,由哈佛大学乔治·丘奇的实验室发明。Shendure J, Porreca GJ, Reppas NB, et al. Accurate multiplex polony sequencing of an evolved bacterial genome.Science.2005;309(5741):1728-1732.

聚合酶克隆测序是由杰伊·申杜尔和格雷格·波瑞卡在罗伯·密特拉的工作基础上率先进行的。详见:Open Source Next Generation Sequencing Technology. Harvard Molecular Technologies. http://arep.med.harvard.edu/Polonator/. Accessed December 28, 2016.

其名称一部分取自 DNA 聚合酶(DNA polymerase)中的“polymerase”一词,一部分取自“colonies”(菌落)一词,菌落源自从数百万个分子中读取 DNA 序列的原理,每个分子都在油乳液(相同 DNA 分子的菌落)里的微小水滴中扩增。杰伊·申杜尔随后开发了大量基因组技术;特别是,在与先驱德博拉·尼克森的一系列合作中,他是第一批将外显子组测序应用于患者(四名患有相同遗传综合征的患者)的人之一。Ng SB, Turner EH, Robertson PD, et al. Targeted capture and massively parallel sequencing of 12 human exomes.Nature.2009;461(7261):272-276.Another early pioneer of exome sequencing was Richard "Rick" Lifton: Genetic diagnosis by whole exome capture and massively parallel DNA sequencing Proc Natl Acad Sci U S A. 2009 Nov 10; 106(45): 19096-19101. I5zEOzgoTArtCCrovi4eZSfdN1LuT0uiseBFA+04qgtyuVz8sHelakuEgzmtsuiq

点击中间区域
呼出菜单
上一章
目录
下一章
×