乔治·丘奇(George Church)
美国哈佛大学医学院遗传学教授,基因工程领域领袖,分子工程师和化学家。创立了第一家向个人提供完整基因组序列的公司,一直是诺贝尔奖的热门人选
亚当·马布尔斯通(Adam Marblestone)、雷萨·卡尔霍(Reza Kalhor)合著
就像许多生物系统一样,我们对大脑的研究越多,便发现它越复杂。首先,神经元聚集在三维矩阵中,密度能达到每立方毫米的脑组织中包含10万个神经元和9亿个突触连接。另外,从功能上看,神经元具有几百甚至几千种不同的类型,每一种都有着独特的结构和分子特性。
突触连接可以是兴奋性的或者抑制性的,它可以用100多种不同的神经递质分子来传递信息。一段时间后,这些连接的强度会改变,会断裂并重组,甚至能够改变自己使用哪种神经递质来做出反应。此外,气态信使能够精准地透过细胞膜,与远程的电活动相互作用,使得神经元能超越化学突触和电突触进行通信。
神经元还不是最复杂的,其他细胞,比如胶质细胞,过去曾被认为是支持新陈代谢的基础结构,现在大家认为它在动态的信息加工过程中发挥着重要作用。例如,神经元把突触搭建到胶质细胞上,胶质细胞释放出神经递质,神经递质调节着相邻神经元之间的信息流。
更深入地说,每个细胞,无论是神经元、胶质细胞或者其他细胞都由一个自我构建的分子机器网络构成,分子机器的动力不仅被用于构建电化学计算要素——神经元,还被用于动态地存储和操纵遗传逻辑回路和突触蛋白质组件中的信息。
在儿童大脑发育和学习期间,比较不规整、缺乏结构性的大脑会进行自我组织。如果我们知道了大脑支配自我组织时的规则,便能开始了解在不同的规模和不同类型的神经计算中,大脑复杂性的哪些方面是有意义的,以及哪些是没有意义的。我们很可能会发现大脑的复杂性在不断增加,而我们对大脑和心智背后的原理也有了更多的了解。这样我们就知道应该寻找什么、应该期待什么。对于目前的神经科学来说,这就像“先有鸡还是先有蛋的问题”。为了了解大脑可能隐藏的简单性,进而治疗大脑的疾病或者建立高带宽脑机接口,我们必须更全面地研究大脑的复杂性。
近期启动的大规模神经科学项目主要集中在三个方面:第一,描绘哪些神经元通过突触与其他神经元相连接的连接组学;第二,描绘大脑活动,即观察“突触高速路”上的电“交通”;第三,大规模大脑模拟,即整合神经科学各个领域的数据,构建可以与实验相媲美的生物物理学方面的现实模型。虽然每个项目都非常有价值,但相对于大脑多维度的复杂性,任何一个单独的项目都无法与之相匹配。此外,我们没有明确的方法可以将这些项目整合起来,即使有,实际操作起来也很困难,因为每个项目都存在其他项目无法填补的缺陷。
例如,没有描述连接组的脑活动图谱虽然能让我们知道神经网络中发生了什么,但不足以重构出相应的神经回路。连接组学能够让我们了解神经回路的架构,但不一定能确定突触是兴奋性的还是抑制性的。而且,它只表征了大脑静态的情况,最初构建神经回路时的发展规则和可塑性依然是一个谜。虽然知道不同时点的许多连接组对研究有帮助,但这很难在同一个动物的大脑中实现。模拟就是把各种类型的信息整合成可以与实验媲美的预测模型,它比神经活动图谱和连接组更全面,但这些模拟的约束太不充分,无法反映大脑功能性结构的重要方面。
在对大脑的复杂性感到绝望并彻底放弃研究之前,我们要问一个孩子气的问题:无论研究的可行性如何,能够有助于我们理解大脑生物层面的结构连接和功能连接,从而形成一个整合系统的理想数据集应该是什么样的?
在最低程度上,我们可以观察同一个大脑在如上所述所有层面中呈现的信息。我们首先可以想象一个理想的实验,它能够报告:
☉ 细胞类型;
☉ 神经连接;
☉ 连接的力量和类型;
☉ 大脑发展谱系;
☉ 一段时间内电活动模式的历史;
☉ 一段时间内分子改变的过程。
大脑新趋势
为了想象这个数据集能表征什么,我们采用一个不同领域的类比。罗塞塔石碑重约770千克,碑文同时用3种文字上下对应着刻成,它用古埃及的象形文字、古希腊文和世俗体文字向托勒密五世致敬。由于石碑同时用三种不同的文字呈现相同的内容,其中两种语言已知,另一种未知,因此它就成了解读已经失传千余年的古埃及象形文字的关键资料。与石碑类似,罗塞塔大脑传递了多个现象学层面的信息,我们可以对这些层面直接进行比较,准确性达到了单个细胞的程度。这样罗塞塔大脑中的每个神经元不仅能报告自己的电活动模式和连接,还能报告自己的发展谱系。
在本文接下来的部分,我们提出了一种将所有想象变得可能的方法。我们希望从罗塞塔大脑不同层面上获得的观察数据最终用于标记和计算。例如,连接组位于巨大的矩阵核心,规定了细胞X是否与细胞Y存在突触连接,其中,细胞X和细胞Y可以是1亿个神经元中的任何一个。正如安东尼·扎多尔和他的同事在有关连接组测序的文章中提出的,如果每个细胞都有一个独特的名字串,我们不妨把它看成细胞的身份证或条形码,那么对于每一个名字串,我们只需要问:
(1号名字串,2号名字串……)
是否在已知连接的清单里?以确定相应的突触连接是否存在。
从概念上看,神经元的发展谱系同样很简单:只是给每个细胞一个独特的条形码。这样,拥有细胞X的子代就具有了以下形式的条形码:
子代(细胞X的条形码)
而这些细胞的子代具有以下的条形码:
子代[子代(细胞X的条形码)]
依此类推。
早些时候,卡米洛·高尔基和圣地亚哥·拉蒙-卡哈尔通过显微镜对轴突和树突进行了观察,尽管许多神经细胞的类型在传统上是由复杂的轴突与树突形态界定的,但细胞类型也可以由不连续的计数过程来确定。身体中的所有细胞共享着相同的基因组,它们之间的差异源自基因表达的不同水平。我们从分子生物学的中心法则中知道,造成遗传上完全一致的细胞存在表现型差异的基因表达过程如下:
DNA→(转录)信使RNA→(翻译)蛋白质
因此,通过计算细胞中信使RNA的数目,我们便能确定细胞的类型。
在细胞中追踪分子表达的历史也是如此。例如,为了观察伴随着学习与记忆的基因表达的变化,研究者除了需要数出分子的数量,还要用时间印章标记这些分子,而时间印章就是代表当下时间的数字串。这个过程类似于杂货店记录所售商品的方式:每当商品在收银台被扫描条形码时,时间便被记录下来,这时带有时间印章的条形码就进入了数据库。
如何借此计算神经连接的强度和类型,并没有一个显而易见的答案,但从原理上看,通过计算突触两端不同蛋白质的丰度我们可以进行推断,神经递质受体的分布和其他突触蛋白质最终决定了突触的性质。进一步影响连接强度的变量是由细胞X发射到细胞Y上的不同突触的数量,它反映了轴突终末到树突棘的联系。因此,计算突触的数量能够粗略地指示出连接的强度。
如果我们能够触及罗塞塔大脑的另一个层次——电活动历史,那便还有另一种确定连接强度的方法。如果我们能够记录下细胞X和细胞Y的时间分辨率足够高的电活动历史,那么在这些时间痕迹中,我们会“看到”在某些时刻来自细胞X的电冲动通过突触被传递到细胞Y,不久之后引发了细胞Y中的电冲动。电冲动是细胞Y与来自其他许多细胞的输入联合产生的,这些细胞都通过突触与细胞Y连接。通过追踪电冲动在网络中传递的统计数字和相对时序,我们能够确定每一对神经元之间的有效“功能连接”。通过将功能连接的信息与解剖结构的连接矩阵信息结合在一起,我们便有可能计算出突触连接着的两个相邻细胞之间的突触强度。实际上,通过将足够丰富、数据过剩、相互联系的数据集结合起来,我们有可能填补任何一个这类数据集中的“空洞”。尽管这会导致重要的统计难题,但在通过最小神经回路中的活动来重建解剖结构方面,我们已经取得了进步。
我们在概念上把构建罗塞塔大脑简化成了大量复制一个简单的操作:读取并数出“条形码”或“标记”的数量。我们已经看到,如果每个细胞、每个突触或每个分子都能拥有独一无二的“条形码”,并且这个“条形码”还带有时间印章,那么通过记录“条形码”的数量并将它们与对细胞电活动历史的独立测量数据联系起来,我们便有可能推导出有关大脑结构与动力学的大量论断。但是我们该如何在亚细胞层面制作并读取“条形码”呢?
这个时候就需要DNA了。尽管学校里的教学内容告诉我们,DNA是细胞存储基因组的媒介,但DNA作为信息存储模块的能力远远不止这些。DNA分子可以是由4个化学字母A、T、C、G排列组成的任何序列,比如ATATAGATAGATCACCCAGAAGATAGGAT便是一个DNA链。DNA可以存储任何序列,不一定只存储现存有机体的基因组所使用的生物图谱。这个观察结果对科学与技术的许多领域具有惊人的影响力,因为它提供了将信息技术扩展到分子层面并与生物系统相结合的策略。
与此同时,测序技术在学术界与工业中的发展使它的性价比发展轨迹超出了摩尔定律的速度。摩尔定律是支配硅晶体微处理器技术发展的定律,在仅仅20年中,微处理器技术从“大哥大”发展到了“谷歌眼镜”。摩尔定律的许多概念也适用于DNA合成,现在DNA合成技术处在类似的发展轨迹上。现在我们已经可以轻松地在DNA上读取或写入信息了,这是史无前例的。最近,研究者用2 012个DNA对《复活》这本书的文本进行了编码,之后还进行了读取。
假设有一条由25个脱氧核苷酸组成的DNA链,那么我们如何将相同长度的不同DNA序列的数量,与大脑中突触的数量进行比较呢?
25个脱氧核苷酸组成的DNA序列数=4 25
人类大脑中的突触数=10 14 ~4 23
因此,25个脱氧核苷酸组成的DNA序列数量是人类大脑中突触数量的近100倍。此外,我们很容易对4 25 种可能的DNA序列进行检验,把A、T、C、G这4个字母互相混合、相互作用,可以形成所有的两两组合,比如AA、AT、AC、AG、TA、TT、TC、TG、CA、CT、CC、CG、GT、GA、GC、GG。在这项组合中加入4种脱氧核苷酸,便形成了各种三元组。按照上面这样重复25次,就有了所有由25个脱氧核苷酸组成的DNA序列。
现在我们拿着装有许多这类随机DNA序列副本的试管,且将其称为“DNA条形码”,它们由40个脱氧核苷酸组成。假设可以把这样一个序列随机插入小鼠大脑中大约10 8 个神经元里,那么出现两个具有相同条形码的小鼠神经元的可能性有多大?从数学角度看,这个问题等同于著名的“生日问题”:在 k 个人中,两个人生日相同的概率是多少,假设一年中有 n =365天。在这里 k =10 8 ,而 n =4 40 。在这种情况下,两个神经元具有相同DNA条形码的可能性小于1:10 11 亿。
通过给小鼠大脑中每个神经元分配一个随机的DNA条形码,我们便给每个神经元设定了一个独一无二的标记。与之类似,完成罗塞塔大脑所需的标记和计数的诀窍在于,尽可能多地编码DNA信息。但是在实践中,我们该怎样在大脑完好无损的情况下读取这些DNA序列呢?
当我们对DNA进行测序时,它通常是自由散布在试管中清澈液体里的分子。我们把试管放入机器,便产生了一行行DNA字母组成的长长的文本文件,以及相应的元数据。
我们描述的项目需要在大脑切片中进行类似的测试。在测序机器中,DNA分子被随机地放在玻璃平板上,就像是在显微镜的载玻片上似的,然后它们会被固定在适当的位置。之后,用来制造DNA副本的DNA聚合酶会被添加到化学反应中。DNA聚合酶用自由漂浮的字母A、T、C、G构建出DNA链的副本,它会将许多相同的DNA分子副本带到表面,这些副本被困在某处,在某点上形成一簇或一群相同的DNA分子,这时我们可以在显微镜下看到它们。如此,另一个DNA副本便形成了,这个时候,我们会采用化学的方法让A、T、C、G这4种脱氧核苷酸都附带着不同颜色的荧光染料:A是红色,T是绿色,C是黄色,G是蓝色。这样当DNA聚合酶制造DNA链副本时,DNA字母会沿着链一个接一个地移动,当红色的A被加入链时,DNA分子群便会显现出红色,其他3种也类似。通过记录各点上颜色的变化,测序机器便能同时读出整个玻璃表面上的DNA分子序列(见图5-1)。这个测序机器实际上是一个显微镜加一些在适当时候能够吸入A、T、C、G和聚合酶的生产线。通过这种方式进行DNA测序可以让测序技术变得比较便宜,因为显微镜能够让我们在同一表面的不同位置同时看到许多被染色的点。
图5-1 荧光原位测序
a.通过合成测序,聚合酶将荧光DNA字母加入不断增长的DNA链中,显微镜记录下DNA各点上颜色的改变。每个点由单个“母”分子的许多副本构成。
b.由此形成了一系列被标记的点,每个点的标记就是相应的序列。
取出已经死亡的动物的大脑并把它切成几乎透明的薄片,这样便能用显微镜看透每一片脑组织了。我们首先会用化学物质处理脑组织,这样它便不会随着时间而退化,这对机械要求很严格。接下来,不是对干净玻璃平板上的DNA链进行测序,而是用显微镜对大脑切片中已有的DNA或RNA链进行测序。我们把这种新技术称为荧光原位测序(Fluorescent In Situ Sequencing,FISSEQ),因为它是用荧光显微镜对“原位的”,也就是对完好大脑组织切片中被染色的脱氧核苷酸进行测序。
随着原位测序技术的不断改进,我们创建“带注释的连接组”的手段将会变得非常强大。换种方式来说,带注释的连接组就是大脑图谱,我们会知道每一个神经元的细胞类型。为了做到这一点,需要3样东西:
☉ 把独一无二的DNA“条形码”发送到每个神经元上。使用随机DNA序列法,借助经过基因改造的无害病毒可以把随机DNA序列运送到每个神经元上,插入它的基因组中。
☉ 与特定突触紧紧相伴的荧光标记。借助它,我们能透过显微镜看到突触的位置。
☉ 高空间分辨率的原位测序显微镜。因为突触排列得非常紧密,只有少量可见光的波长能够介入它们之间的缝隙中,这或许要求我们使用“超级解析版”的光学显微镜。
为了确定连接,我们可以通过显微镜查找突触的位置,用原位测序来读取突触两边的“条形码”。这样就能知道哪个细胞“条形码”与通过突触连接的另一个细胞的“条形码”是相匹配的。更复杂、尖端的方法可以参考主题1中的第4章。在扎多尔的方法中,使用病毒在突触连接的两个神经元之间运送DNA“条形码”,这使得我们可以用成本比较低廉的DNA测序技术来读出连接组。另外,通过使用原位测序技术在显微镜中对“条形码”直接进行测序,我们就不需要使用突触在细胞间运送“条形码”了。
为了确定细胞类型并对其注释,可以直接对每个细胞中的信使RNA采用原位测序法,这能为我们提供细胞基因表达的“概况”或“模式”,因为它们是细胞类型很好的指示物。除了细胞类型之外,为了确定细胞谱系,我们需要DNA“条形码”在每次细胞分裂时稍微有些改变。通过追踪这些微小的改变,我们便能确定每个细胞的“家族树”。这类似于研究者已经采用DNA测序来确定人类家族的家谱,只是它应用在一个大脑中的不同细胞上。
采用比标准的光学显微镜分辨率大约高100倍的电显微镜方法,同样能够将功能研究与细致的回路连接研究结合起来。在这些采用电子显微镜的方法中,突触连接与细胞类型要通过高分辨率的显微镜成像来推断,因为电显微镜不太容易将多种颜色的报告分子与DNA测序结合起来。由于电子显微镜只能在一大堆成像和突触连接中跨越长距离地追踪轴突,而细胞结构必须从高分辨率的图像数据中推导出来,因此这种方法比较有挑战性。这样做就需要把大脑切成微米级的薄片,这意味着,所需的3个维度的数据密度都要比通过光学方法得到的高。正如苍蝇和小鼠视网膜完整神经回路重建项目所显示的,电子显微镜连接组学非常有效力,而且我们在硬件和图像分析上也取得了很多进步。然而,由于DNA具有指数级的信息编码能力,而且可以通过测序简单地读出信息,因此我们认为,罗塞塔原位测序方法能够起到补充作用,尤其是它能够自然地整合多种形式的数据。
到目前为止,我们还没有详细说明确定突触强度和突触类型的好方法。所幸,采用与原位测序中相同的显微技术,我们可以利用来自免疫系统的抗体来标记突触蛋白质。免疫显微技术依靠的是抗体染色方法这种特殊形式的分子识别法,会将特定颜色与特定突触蛋白质绑定在一起。突触蛋白质的分布是突触强度和突触类型的指示器,因此我们可以将这种方法与原位测序结合起来,进一步用突触参数来注释连接组。我们甚至可以通过连接DNA链与特定的抗体,将这种抗体染色方法与原位测序结合起来。这样我们就能够同时读出4 n 种颜色,而不只是4种颜色。
我们是否有可能从原位DNA测序中读出与时间有关的现象,也就是每个神经元中最重要、变化也最快的电活动呢?尽管听起来好像不太可能绘制出动态细胞活动与静态DNA链之间的地图,但我们预测至少存在一种可以实现的方法。
请再次想象DNA聚合酶复制一条DNA长链的情况。为了达到目的,DNA聚合酶从链的一端忙到另一端,有效地读出了沿着链的每一个脱氧核苷酸的特性,然后从溶液中抓取互补脱氧核苷酸,在代表副本的长链中形成下一个碱基对。现在想象一下,我们能够短时间“搅乱”这个复制过程,这样它就会出错,DNA链中就出现了错误的字母。如果我们知道聚合酶什么时候从一段开始复制,那么我们便能通过查看错误出现的位置来大致追踪出这种扰乱是什么时候发生的。如果扰乱发生得比较晚,那么聚合酶就会在链上比较远的地方,大量错误也会出现在离起始端较远的地方。
现在想象一下,如果我们能根据瞬间的电活动水平来让聚合酶制造出更多或更少的复制错误,那么DNA链上的错误模式便像“电传打字机的纸带”一样,可以记录下一段时间里神经元电活动的模式(见图5-2)。实现这个设想的潜在方法基于一个事实,即当神经元电活动发生时,钙离子会突然闯入细胞内。这些钙离子能够设法找到聚合酶,扰乱它的复制,导致错误发生。
图5-2 分子记录设备
注:神经元电活动期间穿过细胞膜的动态离子流,能够通过调节聚合酶制造的复制错误而被记录到DNA中。事后可以通过DNA测序来读出神经元电活动的历史,这样不需要外部设备就能实时地对每个神经元进行记录了。
尽管在实验室里运行这种分子纸带还需要克服许多挑战,但这个想法已经产生了比较容易执行的替代法,比如,在较慢的时间尺度上将事件记录到一个DNA存储媒介上,以备日后通过测序读出。这样我们便有可能将细胞中随时间变化的分子事件记录在静态的媒介DNA上,然后用原位测序读出这些历史。
有一点很重要,即使在这些技术出现之前,我们也可以用现有的方法读出少量细胞上的神经元电活动模式,比如用带电线的电机直接感知与神经冲动相关的电压。我们也可以对这些实验中使用的大脑进行罗塞塔原位测序,读出细胞结构与动力学的其他显著特征。
把上文介绍的这些方法综合到一起,我们可以想象出以下实验。
部分Ⅰ 有机体动物
☉ 发送适当的DNA“条形码”或其他分子标记物;
☉ 对有机体动物做尽可能多的实验;
☉ 尽可能多地刺激它们;
☉ 通过传统方法实时地记录尽可能多的神经元电活动。
部分Ⅱ 原位测序
☉ 用化学物质处理大脑,将大脑切成几乎透明的薄片;
☉ 进行原位测序,对突触蛋白质进行原位显微镜观察;
☉ 在最后一步中,通过原位显微技术和原位测序,尽可能多地收集有关神经系统的信息,包括细胞类型、发展谱系条形码、连接组条形码、突触蛋白质的抗体染色,以及在分子纸带上显示的一系列神经元电活动数据。
从罗塞塔大脑上获取大量互相关联的数据集只是第一步。我们应该让创建罗塞塔大脑变得足够简单容易,这样许多小型实验室便能制造它们自己的罗塞塔大脑,并在不同的实验条件下检验各种各样的影响与假设。我们应该比较动物之间的罗塞塔大脑,了解不同大脑的异同。我们还有可能采取系统化的方法,因为罗塞塔大脑是与假定的大规模大脑模拟进行比较的理想数据集。我们可以在真实的大脑中用这些系统的方法一次性解答很多问题,因为这在计算大脑模型中已成为可能。我们还可以探究每个变量与其他变量存在怎样的关系。