声音改造大脑最新章节_尼娜·克劳斯著

第1章
大脑外部的声音

本章让我们先认识头脑之外的信号，即声音。

声音其实只是空气分子来回运动的结果。有意思的是，这一简单的运动机制催生了无限种声音，从巴赫的音乐到煎培根的滋滋声，从披头士乐队的《固执浣熊》（ Rocky Raccoon ）到在垃圾桶里觅食的浣熊发出的声音。有的声音响亮，有的声音柔和；有的声音高，有的声音低；有的声音和谐，有的声音不和谐；有的声音节奏快，有的声音节奏慢。此外，声音也可以是粗糙、尖利、杂乱、有韵律变化、急快或平静的。接下来，我们一起来品味声音属性的魅力，即我们探索听觉大脑时会不断提及的声音要素。

声音是一种运动。 当我们拨动吉他弦时，其周围的空气会随之移动，图1-1展示的是一根吉他弦的不同弹拨状态。最左边是一根静止的吉他弦，此时，一些空气分子悬浮在它的右边，其周围的局部气压约为101.35千帕，相当于海平面的气压。拨动吉他弦后，它会瞬间向右移动，其周围的空气分子会受到挤压，局部气压增强。

图1-1　拨动吉他弦后，其周围的空气分子会发生移动

然后，在极短的时间（0.01秒甚或0.001秒，取决于音符的音高）内，吉他弦回到初始位置，接着越过初始位置向左偏移。这时，右边的空气分子散开，气压降低。此时散开的空气分子间距略大于拨弦之前的间距，也就是说，空气分子更分散了，气压要低于拨弦之前。此后，空气分子随着吉他弦再次反弹而聚集，或向外扩散，如此循环，但每次的变化幅度都会减少一点，直到吉他弦的运动停止，空气分子的移动也随之减弱直至消失，声音消失。 这种运动过程就是声音的存在方式，而当运动停止时，声音也会消失。

声音的3大要素

大多数声音都可以用一些要素来描述（见图1-2），就像我们可以根据物体的形状、颜色、纹理和大小对其进行分类一样。因为声音是无形的，所以声音要素并不是直观的，但它们对于理解声音至关重要。在我看来，通过组成要素来辨识声音，也就是识别空气分子移动时发生的复杂变化，可以在理解大脑加工声音的过程时更有趣。我发现一种十分有效的思维框架可以更好地追踪这些神奇的声音要素，即从音高（pitch）、时值（timing）和音色（timbre）的角度来理解声音。

图1-2　声音要素

变化无穷的声音源于空气流动，可以用几种要素来描述声音。

音高

音高，也称音调，描述的是声音频率的高低。例如，我们把长笛的声音描述为高音，而把大号的声音描述为低音。我们把听到的声音标记为高音或低音，依据的是声音的物理性质之一——频率（frequency）。如果高气压和低气压之间的波动变化非常快，也就是波动频率高，那么我们听到的声音的音高是高的；相反，如果高低气压间的波动变化较为舒缓，也就是波动频率较低，那么我们听到的声音的音高是低的（见图1-3）。音高是一种感知，而频率则是一种可测量的物理指标。我们需要仔细区分音高和频率，因为它们并不总是完美匹配的。

图1-3　音高波形图

在相同的时间内，灰线表示的声音波形比黑线多几个周期，其频率更高，也意味着其音高更高。

如果不把频率作为声音的一种科学度量指标，而仅作为一个词语，那么它的意思是，在一段固定的时间内，某件事发生的次数。比如，公司每个月会给你发一次工资，美国佛罗里达州的坦帕市平均每年出现78场雷暴，我每周会收到22封垃圾邮件。在1秒的单位时间里，某件事发生次数的单位术语是赫兹（Hz）。人耳能辨识的气压波动频率范围为20～20 000Hz。因此，我们可以根据气压每分钟振动的次数，来区分长笛与大号的音高。高音长笛演奏的音符的频率范围为250～2500 Hz，而低音大号演奏的音符的频率范围则为30～380 Hz，这两种乐器演奏的音符的频率范围有部分重合。

不过， 声音的频率和我们听到的音调高低并不总是完美对应的。 如果我们可以“哼唱”出某种音高的声音，那么我们哼唱的频率即为基本频率（简称基频，fundamental frequency）。如图1-4所示，上下两个波形的波峰和波谷数量相同，所以表面看来它们应被称为具有相同的基频。然而，这两个波形各自以不同的速率开启和关闭，即进行了调幅处理，此时，我们听到的音高与调幅的速率相匹配，而与基频不匹配。

图1-4　调制速率与音高波形

黑色波形与灰色波形频率相同，但二者的调制速率不同。也就是说，灰色波形表示的声音会以更快的速率循环开启和关闭，其音高比黑色波形表示的声音听起来更高。通常，女声的调制速率比男声快，因为女性的声带振动比男性快，因此说同样的话时，女性的音高更高。

以人类的声音为例，人类说话的音高（即基频）在50 Hz与300 Hz之间。言语的基频取决于呼吸引起的声带开闭的速度。通常，男性声带的开闭速度比女性慢，因此声音低沉；儿童声带的开闭速度最快，因此音调高。有趣的是，音高的差异不仅体现在个体和性别上，也体现在其他一些令人意想不到的方面。一般来说，使用不同语言的人群之间 ¹ 以及使用同一语言的不同人群之间 ² ，均存在基频差异。例如，我们在他人身上或自己身上常常能感觉到，讲一种语言时的音高往往比讲另一种语言时要高 ³ 。

音色

在音乐中，当两种不同的乐器演奏相同的音符时，主要通过音色对这二者进行区分。在语言中，音色是区分不同语音（辅音和元音）的主要线索。当一位男士与一位女士说同样的一句话时，我们可以根据基频来区分二者。而当一位女士说出了两个不同的英文单词时，如so（所以）和sue（诉讼），我们可以根据音色来区分这两个英文单词。 正如基频是感知音高的基本物理量，谐波，也称泛音，则是感知音色的基本物理量。 谐波的频率要高于基频。

了解给定声音的频率组成是非常有用的，这也是声音的频谱（spectrum）。音叉的频谱里有且只有一种频率，所以它的频谱图是一条细长、垂直的线，如图1-5中的上图所示。音叉的频谱没有谐波，只有基频。当我们换成另一种自然的声音，如由长号或单簧管演奏的中央C，其在中央C的基频（262 Hz）上有一个峰值，而在基频的整倍数频率（524 Hz、786 Hz……）上也有峰值。这些波就是谐波。从图1-5中的中图、下图可以看出，并不是所有谐波的能量都相等。长号和单簧管都有各自特殊的能量分布频谱，这也是我们能听出它们之间差别的原因。 独特的谐波信号是由发声乐器的形状和结构决定的。 类似地，如果我们口、舌、鼻的形状和位置发生改变，就会产生不同的谐波模式，以区分不同的语音。

图1-5　音叉、长号和单簧管的谐波模式对比

音叉的频谱是一条表示单个频率的垂直线，上图所示的是262 Hz，也就是中央C。用乐器演奏中央C时，频谱会在262Hz产生一个峰值，同时在262 Hz整倍数频率上出现谐波。长号和单簧管演奏中央C时，由于两种乐器的共振特性不同，因此会产生不同的谐波模式。我们通过声音的频谱可以了解，为什么不同的乐器演奏相同的中央C时，听起来会不同。

我们可以通过改变唇、舌的位置和穿过口、鼻的空气量，来改变声音的频谱，使谐波得到加强。如图1-6所示，声音的基频是100 Hz，也就是说，这两个元音的频谱每间隔100 Hz就会产生一个峰值，不过，灰线表示的峰值大小不同。此图表示的是对长号的声音和单簧管的声音的语音模拟。对于元音“ee”，灰线在300 Hz和2 300 Hz上各出现了一个波峰；而对于元音“oo”，波峰大约分别出现在400 Hz和1 000 Hz上。语音的频谱在某些频率上会出现波峰，这其实是频谱能量集中的区域（称为“共振峰”）。有趣的是，在不同人群中，这些声音能量的频谱分布是相似的。比如，音高高的人与音高低的人在发元音“oo”的时候，其语音频谱分别在约400 Hz和1 000 Hz上会出现峰值。

图1-6　声音能量的频谱分布

上图、下图分别为英文单词beet中“ee”的频谱与boot中“oo”的频谱。这两个音节具有相同的基频，但谐波能量集中的位置不同。

因此，音色是对声音中谐波成分的感知。谐波在频谱中的位置以及彼此之间的关联是声音的物理特征，它能帮助我们通过音色特征区分两种乐器或两种语音间的差异。对于语音，特定单词或音阶的频谱会呈现出特有的谐波组合形式。图1-7展示的是几种乐器或声音的全频范围（包括基频和谐波频率）。

图1-7　几种乐器或声音的全频范围

左边为基频范围，右边为谐波范围。

时值

到目前为止，我们讨论的基本都是音叉、单个音符和元音，它们产生的声音在一段时间内是稳定的。而时值作为某类声音信号的基本特征，指的不是音节或音符那种人为定义的声音开始和停止的时间特征，而是指 声音本身随着时间何时以及如何产生变化。 比如对某些辅音来说，时值的信息是最重要的。

当我们大声读出“bill”和“gill”这两个英文单词时，你能发现自己的唇舌动作有什么差异吗？很容易就能发现吧：读bill时，嘴唇开始是闭合的，而舌头处于口腔中间；读gill时，嘴唇是微微张开的，舌头后部则抵住上颚。那么读单词bill和pill时，又会有什么不同呢？这个问题就比较复杂了。发辅音字母b和p的音时，很难从唇舌动作上看出来差别。这时，舌头和嘴唇的位置几乎完全相同，主要差异体现在时间上，也就是声带开始发出元音字母i的时间。读单词bill时，你是在发出辅音b的音之后马上发元音i的音；而读单词pill时，你的嘴唇分开后，会间隔一小会儿，才开始发元音i的音。如图1-8所示，上面的波形是读单词bill的声波；在下面的波形中，则多出了一段0.05秒的停顿（左边空白）；除此之外，两个波形的每个波动都是相同的。实际上，发元音“i”之前出现的小停顿，足以让第二个音听起来像单词pill的发音。短短不足一秒的时间，在语言上就会表现出很大的不同。这就是我们需要一个超速运算的听觉大脑来加工声音中如此微小变化的原因之一。

图1-8　时值不同带来的语音差异

读单词bill时在发元音i之前增加0.05秒的停顿，就使读音变成了单词pill的音。

查看频率随时间产生的变化

我们从图1-8所示的波形图中可以很容易地看出，读单词bill和读单词pill时，二者在“时值”上的差异；在图1-6的频谱图中，我们可以很容易地看出元音“ee”和“oo”的音节在“频率”上的差异。然而，这两幅图都无法有效地区分辅音字母b和g的发音，因为要区分它们，需要弄清楚频率随时间的推移而出现的变化。为了更好地描述辅音字母b和g的发音的差异，我们需要另一种图：声谱图。

图1-9中上图显示的是，随着时间的推移，一个从低频变为高频，然后再变回低频的音高，很像典型的狼哨声。我们可以将此想象为汽笛或手指划过钢琴键弹奏出的声音的音高变化过程。

由于声波能量频带的扫频方式不同，因此ba和ga两个音节在辅音上会有区别（见图1-9的下图）。ba和ga这两个音节的上频带走势是相同的，都有一段随时间推移从低频移动到高频的谐波频带，在发元音字母a的音时，频带走势变平了。然而，这两个音节的下频带走势是不同的：ba的下频带是从低频移动到高频，随后变平；而ga的下频带在开始时处于高频位置，继而向低频移动。术语“调频扫频”（FM sweep）是声音的一个重要组成要素，它指的就是这种频率随时间变化的现象。

图1-9　描述频率随时间变化的声谱图

上图表示先向上，再向下扫频。下图是音节ba和ga的声谱图。这两个音节的声波能量频带的频率随时间发生变化，直到发出元音字母a的音后稳定下来。

所以，对于b和p以及b和g这两对辅音来说，时值是将彼此区分开来的关键要素。在音节ba/pa中，时值是区分二者的充分必要条件；在音节ba/ga中，时间和频率的相互作用是导致二者产生差异的原因。我们可以放慢速度来检测声音，捕捉并分离使声音产生差异的要素。但在现实中，由于这一切发生得太快了，因此我们意识不到究竟是什么造成了这些差异。想想看：在这之前，你知道ba和ga在哪些声音要素上有区别吗？你知道需要通过几次快速扫频可以把muddy dog（泥巴狗）变成muggy bog（泥巴潭）吗？事实上，我们仅靠听力是无法得知某个频谱的能量是像音节ba的发音那样上升，还是像ga的发音一样下降的。由于存在这种急速而微妙的变化，我们在感知辅音时容易受到干扰，因此，我们需要使用一些音标字母来进行辅助，如alpha、bravo、charlie、delta……接下来，我们会介绍，这些复杂而微妙的差异以及一些难以甄别的过程会对语言甚至阅读产生怎样有趣的影响。

上文我们一直聚焦于讨论语音中的时值要素。其实这并非偶然。事实上，语音的速度比包括音乐在内的其他声音要快得多。比如，快板的节奏是120～170拍／分钟（单位：bpm）。为了方便计算，我们设定一段以150拍／分钟的速度演奏的快板音乐。这相当于每秒两拍半的节奏，也就是每秒一个四分音符。所以，每个四分音符的持续时间是400毫秒，每个八分音符是200毫秒，每个十六分音符是100毫秒。而《野蜂飞舞》（ The Flight of the Bumblebee ）的演奏速度则更快。通常我们需要100毫秒才能区分出两个音符，而里姆斯基-科萨科夫（Rimsky-Korsakov）正是利用了这一原理，使主旋律的每个十六分音符按80～85毫秒的速度演奏，从而产生了类似蜜蜂嗡鸣的声音。而语音则是一种与蜜蜂不同的动物产生的声音。人类语音中的辅音通常都可以达到这种速度，甚至更快——发一个辅音用时仅需20～40毫秒。我们几乎还可以无限制地用辅音制造密密匝匝的语音。所幸《野蜂飞舞》这首曲子并不长，让任何演奏这首曲子的音乐家都松了口气。

大脑外部与内部的信号成分

大脑会用头脑内部的信号（神经脉冲放电）来解析外部的信号（声音）。

所有的科学家在做研究时都会选择某种方法来收集相关信息，有的使用调查问卷，有的使用基因表达，还有的使用血液生物标记物，而我选择使用的是信号。我发现，无论是头脑外部的信号还是头脑内部的信号，都是可靠的，因为这些信号具体且明确，在某些方面，它们比转瞬即逝的声音本身更可靠。我们可以放心地对它们进行测量，并用公认有效的方法来描绘和分析它们。我还惊奇地发现，头脑外部的信号与头脑内部的信号之间存在惊人的相似之处。这太美妙了，简直就是奇迹！因此，我开始研究音乐训练对大脑的影响、保持节奏感在培养读写能力中的作用以及脑震荡是如何影响声音加工的，等等。信号引导我开拓思路，发掘真相。

为什么世界上每个人听到的声音会存在差异？当听觉大脑与我们的感觉、思维、情感和行为方式交织在一起时，我们对声音的体验是如何发生改变的？要理解这些问题，关键在于弄明白声音要素。

作为一名神经科学家，我能将这种声音要素运用到研究声音以及大脑加工声音的过程中。我可以单独地研究音高、时值和音色的处理过程，也可以把它们视为一个整体来研究，从而弄清楚，对专业听音者和患有听觉障碍的人来说，哪些要素是正常的，哪些要素出了问题。 在加工声音和感知声音方面，声音要素是可分离的。 例如，有些人在区分音高上存在障碍，但在区分音色上却没有问题，有些人则相反。此外，也有一些人只在处理时值上存在障碍。虽然音乐家和双语者都算得上倾听专家，但他们在声音信号处理上有何种超凡技能，取决于他们处理哪种声音要素。

接下来，我们将探讨：当吉他弦产生的声音进入耳道时，即当头脑外部的声波激荡起脑电波时，会发生什么。

第1章
大脑外部的声音

声音的3大要素

音高

音色

时值

查看频率随时间产生的变化

更多声音特征

音强

调幅和调频

相位

大脑外部与内部的信号成分

第1章 大脑外部的声音

声音的3大要素

音高

音色

时值

查看频率随时间产生的变化

更多声音特征

音强

调幅和调频

相位

大脑外部与内部的信号成分

第1章
大脑外部的声音