美丽之问：宇宙万物的大设计最新章节_弗兰克·维尔切克著

和谐理论

到这个时候，故事才讲了头一段，我现在讲讲第二段。耳膜与耳骨相连，耳骨是三块小骨头——锤骨、砧骨和镫骨的总称。按照次序，耳骨连着耳蜗，耳蜗的结构酷似一个蜗牛壳，在和耳骨的连接处开出了一扇“椭卵窗”，这扇窗还糊着一层薄膜状的“窗户纸”。耳蜗是听觉的重要器官，它的作用大致相当于眼睛之于视力。耳蜗充满了液体，“椭卵窗”一旦被“敲击”，液体随之立即活跃起来。液体中还浸泡着一条长长的螺旋状膜质管，称为基底膜，在耳蜗的迷路里蜿蜒旋回。螺旋器（柯蒂氏器）则与基底膜并置，而弦响之音经过了多次转换后正是通过螺旋器最终转化成神经冲动。所有这些转换过程中的细节相当复杂，也十分令研究者着迷，但大的图像是简单的而且不依赖这些细节。这个图像可以一言概括为最初的声波振动频率刺激神经元产生了相同频率的神经冲动。

声波转换还有一个重要的环节尤其巧妙而且遵循了毕达哥拉斯学派的精神。这个环节还使得盖欧尔格·冯·贝凯希在1961年荣膺诺奖。由于基底膜厚度会呈螺旋状沿纵向渐变，它的不同部位倾向发出不同频率的振动。膜越厚的地方惯性越强，因此更倾向于缓慢的振动；薄处则倾向做高频率的振动。（整体声调上男女有别也是出于类似的原因。男性声带在青春期会明显变厚，因而导致振动频率下降，声音就变得低沉了。）因此，当一个声音经过了三关五卡之后开始搅动基底膜周围的液体时，基底膜将会沿其长度在不同的部位做出不同的反应。低频率的声调会让膜度厚的部位产生有力的运动，而高频率的声调则会调动膜度薄的部位运动活跃。通过这种方式，频率的信息即可被破译为位置的信息！

如果耳蜗在听力方面起到相当于眼睛的作用，那么螺旋器就是这个眼睛的视网膜。螺旋器与基底膜平行，位置也非常靠近。螺旋器的结构细节相当复杂，但大致说来它由毛细胞和神经元组成；每一个毛细胞对应一个神经元。基底膜的运动通过中间的液体介质发生耦合作用，向毛细胞施加作用力，触动毛细胞产生反应；毛细胞的运动又触发了与其对应的神经元产生放电现象。放电的频率和刺激源的运动频率相同，这个频率也和源声调的频率相同。（在专家看来，放电的模式很嘈杂，但这些模式中主要还是信号频率的成分。）

由于螺旋器毗邻基底膜，其神经元便承袭了基底膜因为位置分而治之的反应特性。这一点对于我们感受和弦非常重要，这意味着如果几种声调同时响起，它们发出的信号并不会搅成一锅粥。不同的神经元会针对不同的声调做出优先的选择！这个生理机能使得我们掌握了一项绝活——分辨不同声调。

换句话说，我们的内耳接受了牛顿的忠告，在他对光进行解析之前，抢先对传来的声音进行了完美的解析，将声音解析成各种纯音。（后面将讨论我们的感官对光信号频率的解析，也就是光的颜色。人类在这方面的能力逊色许多而且依据了不同的原理。）

我们的故事也要进入第三个阶段了。在这个阶段，螺旋器的初级感觉神经元发出的信号将汇集在一起并往后传递到我们大脑的神经层。一旦涉及人脑，我们所掌握的知识就没那么准确了，但也正因为如此，我们马上要与我们的主要问题正面交锋了。

|为什么频率比值为小整数的音调合在一起就好听？| ^[1]

我们先想想当两种不同的音频同时播出时，我们的大脑都接收到什么？我们就会有两组初级神经元积极地发出响应，每一组神经元的激发频率都会和引发这些活动的琴弦振动的频率相同。这些初级神经元再将信号向大脑发射，将信号传输给“更高一级的”神经元，“更高一级的”神经元再将信号收集整合。

有些更高级的神经元会同时接收到两组初级神经元发射的信号，如果初级神经元发射的声波频比为小整数，那么它们发射的就是同步信号。（为了便于讨论，我们暂且简化真实发生的反应，忽略噪声并权且视这种响应具有准确的周期性。）举个例子，如果两个声调形成一个八度音，那么一组神经元发射的信号要比另一组快一倍，落后的一组每次发射都和提前的一组之间存在着同样可预知的关系。因此，对这两个频率的信号都敏感的神经元便具有一种重复的行为模式，不仅可预测且易解读。出于之前的经验，也许出于天生的本能，那些二级的神经元——或者接着解读它们的更高级的神经元——会“读懂”这些信号。这样通过多次振动之后便可以用简单的方式预测到之后将要输入的信号（即更多的重复）以及证实之前的假设，直到这个声音改弦更张。

需要提醒一下，我们人类所能听到的声波频率范围从每秒几十次到每秒几千次，因此即使很短的一声也会产生很多次重复，除非声音在低频率端，那样就意味着停止。在声音低频的一端我们的和谐感会逐步丧失，这和我们正在讨论的和谐感的想法一致。

高一级别的神经元要将低一级神经元合成过的信息再进行合成，因此输入的信号必须连贯才能使它们开展合成的工作。如果我们体内的合成器发出的信息合理，特别是当它们的预期经受住了时间的考验，那些高级别的神经元就有理由给予某种积极的反馈，至少它们不至于对低一级的神经元进行干扰。相反，如果合成器进行了错误的预期，这种错误就会往上传到高一级的合成器，最终会产生不适感和想要停下来的欲望。

那么合成器会在什么时候产生错误的预期呢？当原始信号几乎同步但又不完全同步的时候就会发生这种情况，因为在最初的几个周期两组振动还会相互配合，于是合成器便推测这就是它们的运动模式；合成器预测运动将会按照这样的模式持续下去——但是合成器却打错了主意！事实上，稍有偏差的音调，譬如C调和C#调一起演奏时最折磨我们的耳朵。

如果这个说法正确的话，那么和谐的根本就是在感觉的早期阶段进行成功的预测。（这个预测的过程不需要也常常做不到有意识的关注。）这种成功就是快乐和美的体验。相反，不成功的预测则是痛苦和丑陋的根源。一个推论的必然结果便是随着我们不断地学习和增长见识，我们能够听出以前听不见的和谐之音，而且会消除痛苦之源。

纵观历史长河，在西方的音乐体系中，人耳可接受的音调“调色板”随着时间的推移已经有所扩大，我们每个人也在通过广泛接触学着欣赏以前在刚出现的时候听着不那么悦耳的和声。确实，如果我们生来就享受学习的过程，学着做出成功的预测，那么预测如果来得太容易也就不可能为我们带来最大程度的享受，那样的话我们也就得不到开悟的新鲜感了。

[1] 为什么那些频率比是小整数的音调合在一起就好听？关于乐感，即便是最基本的现象也能提出引人遐思的问题。在我看来，两个较为简单的观察有助于帮助我们解答毕达哥拉斯留给我们的谜题：为什么一对音调的频率比是小整数时会让我们感到和谐好听呢？
概括
当我们说以中音C为下方音的八度音，那意思就是指中C调和刚好在其上方而且有两倍频率的C调同时奏响。为了将这种现象精简到使其露出本质，我们假设可以运用电子的手段制造出严格的单音调，然后再假设这两个声调的强度（响度）是相等的。做了这些规范化处理之后我们并没有为总的波形做出一个独一无二的配方，这样计算机就一定能按方抓药地制造出那种波形并将它传递到我们的耳朵。因为这两个正弦波无须同步：一个波的波峰可能和另一个波的波峰保持一致，也可能并不一致。我们称这两个音调之间存在一个相对相位。如果把总的波形构想成一个时间函数，那么不同的相对相位会给出不同的波形，但是它们听上去却没有两样！我在自己身上做过这个实验，还拿自己做过很多相关的实验。基底膜的反应在空间上把这两个音调分离了，但在反应中仍然保留了相对相位的信息。（这至少是我阅读了很多天书般复杂的文献后的理解，拿内耳结构做实验并不容易，实验基本上都得在试管里进行。）然而不知怎地我们还是将所有这些可能性一概而论，对它们进行一种低层次的处理后就认定所出的结果就是C八度，然后就没有然后了，然后是休止符，情况就是这样。我们将物理性质在一个范围内连续变化的所有信号合并成一种单一的感觉，形成了一个有用的信息概括。
同样的原理适用于其他音调的八度音，也适用于复调和弦，只要这两个调的频率不要太接近。（作为一个极限的例子，我们可以将两个具有相同频率和相同强度的音调合在一起，让它们的相对相位不同——这其实已经不是一个八度音，而是一个和音。尽管我们改变相对相位，我们听到的却总是一个具有单一频率的组合音，只是相位和响度会发生变化。这种响度的变化很容易被耳朵察觉。）
有意地不加区分或者进行概括作为一种处理信息的策略是很好理解的。在自然界中，以及在简单乐器（包括声音）的领域，同样的声源在不同的场合发出的八度音的相对相位往往是不同的而且基本是随意的。如果不同的波形导致不同的感觉，那些多半无用的信息就会让我们不堪重负，那我们就更难以学习、识别和欣赏一般概念下有用的“八度音”了。进化想必很乐意为我们减轻了这个负担。
同样，那些五音不全的人——而且是绝大多数人——分不清由不同音调组成的、在物理上截然不同而且范围广泛的“八度音”（请参考下一条关于记忆滞留的讨论）。于是他们抑制了关于相位和绝对频率的信息，只保留了相对频率。
我们看到抑制不相关的信息有益于构建有用的概括，如何实现这个过程变成了一个关键问题。这是一个有趣的逆向工程问题，我想到了三个简单的、在生物学上看似合理的方案可能会帮助我们实现这个过程：
*对基底膜不同部位的振动产生反应的神经细胞（或者小的神经细胞网络）之间存在某种机械的、电的或是化学的耦合，以至于它们的反应在相位上同步。这个现象在物理学和工程学中被称为“锁相”。还有一个与上述稍有不同的可能是有一类神经细胞会从两个前述的神经细胞接收振动信息（或者直接从内耳的毛细胞接收振动信息），这个神经细胞被驱动反应的方式不依赖于相对相位。
*一个人可能有一群神经细胞对基底膜任何一点上的振动做出反应，但它们的反应有相位偏离。当对应两个不同位置输出的两排信号混合在一起时，总会有一些信号是同步的。下一级的神经细胞接收到输入的信息，就会对那些结成对子的同步信息反应强烈。
*对应每个频率人可能建立了其标准的代表：神经细胞输出的信息由一个全局调时机制确定。那么无论输入信号的相对相位如何，它们的标准代表之间的相对相位就总会是一样的。
我在这里并没有列出一个简单而有些激进的方案。这个方案里只需记录基底膜上振动强烈的位置，完全放弃振动中峰谷变化的时间结构。（这类似于视觉中对电磁振动的反应。）这样的编码肯定会丢失相位的信息，但我认为这样太过极端了，这使得我们无从解释毕达哥拉斯的发现，因为频率的比率不再和编码信号中的规则振动相对应。
听觉暂留
本杰明·富兰克林对音乐有浓厚的兴趣，他完善了玻璃琴，这种乐器可以发出虚幻缥缈的声音，莫扎特曾经专门为这种乐器谱写过优美的乐曲。（《K356玻璃琴曲》，有几个网站允许免费下载。）在一封给凯姆斯勋爵的信里（1765年），富兰克林谈到了自己对音乐的独到见解，其中的一个观点尤为深刻：
其实大家普遍承认，只有持续的声音令人感到愉快才称得上是旋律，而且只有和谐一致的声音同时响起才称得上和声。虽然声音已经消失，但其尾音的声调可以被记忆暂留一段时间，将这个声调和随后的声音相比来判断这两个声调是否真的和谐或者不和谐。所以在当前的声音和过去的声音之间可能也确实产生了一种和谐感，这和两个同时奏响的音调之间形成的和谐一样令人感到愉悦。
如果演奏的时间邻近，我们能比较演奏的音调的频率，这个事实有力地说明存在这样的细胞网，它们能重复并短暂地保留振动模式。这种可能性正好符合我们刚才所提的标准代表模型，因为这样的细胞网可以实现标准代表模型。值得注意的一点是我们感觉到的相对频率对应于它们的标准代表之间的简单比较，而这项工作和识别绝对频率不一样。
同样值得注意的是，按照这一套观点，我们能够将一个多少有些固定的节奏保留很长一段时间。这再次说明了在我们的神经系统里存在着一个可谐调振动的网络，只不过这里是针对更低的频率。
我这个人就五音不全，这让我感到很不舒服。我试图利用一种人工联觉来规避自己在听觉提取相对音调方面的缺陷，我写了一个程序，随机地对应特定的音色播放特定的音调。然后，我测试自己能否预测某个输入的搭配对象。经过了许多单调乏味的尝试之后，我也只能比随意猜测做得好一点。也许还有更高效的办法做这件事，也许我太老了，如果我更年轻点儿可能效果会好一些。
为了确定这些关于和谐的想法是否靠谱就需要进行繁重的实验。但是，历时两千五百年，我们要是最后能把毕达哥拉斯的伟大发现弄个水落石出，那样该多好啊！我们还可以此向德尔斐神谕献上我们的敬意，那句被我们奉为神谕的铭文说：认识你自己。