我们再来看看那些可怕的考场。在学习的过程中,学生们实际上学到了什么?记住了什么?需要通过什么样的试题来确定他们掌握了哪些知识?这就是问题的关键吗?考试应该测试考生是否知道学校规定应学习的知识,还是考查考生是否具备相应的思考能力,看看他们能否在需要的时候获取相关知识?自儿童接受教育以来,有关此类问题的争论就从未停止。不过,有一点可以肯定,那就是考试已经重要到足以改变人生,几乎所有参加过考试的人都会永远记得相关细节。
时间越久远,我的记忆越模糊。与20世纪50年代在英国长大的大多数人一样,我在1955年夏天参加了名为11+考试的短暂而残酷的选拔考试。当时,这项考试已经存在了10年,它是由政府设立的,旨在决定英国每个孩子的教育前景。考试分为四个部分,分别是数学、语言推理、英语理解和非语言推理。除了数学之外,另外三个部分与知识的关系不大,更多的是考查思考能力。与其说这是一次对知识的考查,不如说是一次智商测试。没通过考试的孩子将被送到所谓的现代中学,这基本上意味着他们可能上不了大学,注定要在下层社会谋生。通过考试的孩子将进入所谓的文法学校,可能会在15岁和17岁分别再参加一次考试,然后可以申请上大学,并在大学毕业后开启可能会让他们跻身知识界和上层社会的职业生涯。我通过了这项考试。
我在15岁时参加了普通证书考试。当时,我需要参加11门考试,每门考试的时间为2个小时。考试科目分别为英语语言、英国文学、拉丁语、法语、历史、地理、地质学、化学、生物、物理和宗教知识。我成功通过了其中9门考试,这意味着我可以专攻另外3门课程,并且可以参加相关的高级证书考试。我选择了化学、物理和动物学,顺利通过了考试,可以申请上大学了。我决定去牛津大学学习地质学。
也许值得注意的是,随着学生年龄增长和不断升学,考试等级越来越高,考试内容变得越来越注重事实知识,对学生的思考能力和解决非纯事实问题的能力的关注度则越来越低,至少对在当时想成为科学家的我来说是这样。例如,化学或地理考试必然会考查学生实际掌握的知识,测试学生是否记住了钚的原子量和核结构,或者摩洛哥阿特拉斯山脉中与天气有关的动物迁徙模式等知识。英国文学考试则要求考生理解诗歌或散文段落的微妙之处,并能够对其进行讨论、评论、思考、推敲、琢磨和斟酌。文学类试题没有绝对的答案,可以有各种不同的解释。物理试题的答案则有对错之分,非对即错。不过,这两种知识属于不同的类型:化学和地理属于事实知识范畴,英国文学分析则更多地属于专门知识范畴,用柏拉图的话来说,属于难以捉摸的知识。
1962年,我参加了牛津大学的入学考试。我申请的那所学院还在建设中,因此我被安排在彭布罗克学院(Pembroke College)的食堂里参加一场只在上午进行的考试。当时,我有些害怕,不仅仅是因为反扣在桌面上的那张小小的试卷,更是因为我坐在一幅古老的肖像油画下方,画中是牛津大学校友塞缪尔·约翰逊。当学院小教堂的钟敲响9点钟时,我感觉监考老师暗暗给我使了个眼色,仿佛在说:“小伙子,别让那个老头子打扰你。”监考老师言简意赅地说:“各位考生,考试时间为3个小时。请翻转试卷,开始作答。”
试卷上有五道题,卷首是一条简单的说明:“请从下面的问题中任选两个,分别写一篇文章。”
这是60年前的事情,我已经想不起来当时放弃作答的三个问题了。不过,我选择作答的两个问题一直留在我的脑海里,我认为自己可以在规定时间内各花90分钟做完。第一个问题是“为民主欢呼两声:‘二’是正确的数字吗”,第二个问题是“美国的生活方式真的可以输出吗”。
这些问题看似简单,实则非常巧妙地将两种类型的考试知识完美地融为一体。每一篇作文都要求考生知道关于两个不同主题的无懈可击的确凿事实,并尽可能地回忆起来,然后加以思考和评论,从历史、经验、理解中得出结论,进而做出有理有据、条理清晰的回答,运气好的话,还是没有复杂而含糊的措辞和逻辑的非耶稣会式回答。这是一项艰巨的任务。我记得,当时有10~15分钟的时间我都透过彭布罗克学院的格子窗看着外面,这是非常危险的。我心中害怕,不停地转动铅笔,默默地思考,然后才动笔作答。另一个男孩和我一起参加考试,在剩下的时间里,我们都奋笔疾书。当小教堂的钟敲响正午的第一声时,身穿黑衣的监考老师放下了手中的《泰晤士报》,上面有个填字游戏。毫无疑问,他填好了。他用3个小时前那种语调言简意赅地轻声说:“各位考生,请放下铅笔,停止作答。”
我的作文肯定合格了,因为4个星期后,我收到了装在棕色马尼拉信封里的录取通知书 。
在美国,衡量和判断学生在中学阶段对知识积累方法的掌握程度的方式截然不同。学生能否进入大学或学院接受高等教育取决于一项考试。这项考试设立于1926年,最初被称为学业能力倾向测验(Scholastic Aptitude Test,简称SAT)。它并不像英国的普通证书考试、高级证书考试和11+考试那么可怕,学生可以根据自己的意愿多次参加考试,前提是他们能够支付不太高的费用,即每次约80美元,并在每年举行这项考试的7个日期中的一天到考试地点参加考试。近年来,每年都有约150万美国学生参加这项考试。
以今天的标准来看,学业能力倾向测验的起源是明显存在问题的。这项考试的创立者是普林斯顿大学的心理学教授卡尔·布里格姆(Carl Brigham)。他是一个出身名门的新英格兰人,也是优生学的主要倡导者,这种学说的理念和实践在道德和伦理上备受质疑。他主张通过选择性繁殖来改善人口现状,更可怕的是,通过清除那些被认为有缺陷的人来实现这一目标。布里格姆的思想是在第一次世界大战期间形成的,当时他在美国陆军不受青睐的卫生队服役。1917年,美国陆军卫生队被认为是最适合军事心理学这门新兴科学的地方。布里格姆和同是优生学家的罗伯特·耶基斯(Robert Yerkes)设计了一系列测试,以衡量他们眼中的美国士兵的相对智力水平。1923年,当时年仅33岁的布里格姆已经退伍,成了普林斯顿大学的终身教授,在学术界大放异彩。他撰写了在后来产生短暂影响的《美国智力研究》( A Study of American Intelligence )。这本书完全基于军队的数据,结论非常明确:相比那些属于布里格姆所说的“阿尔卑斯人种”和“地中海人种”的士兵,那些属于“北欧人种”的士兵聪明得多,智力较低的“黑人”则落后许多。布里格姆为普林斯顿大学设计的入学考试就是基于这种观点。他相信,基因在很大程度上决定了各个移民群体对美国的贡献。他还据此认为,当时允许大量东欧人入境的美国移民政策需要修正,从而将那些具有被他奇怪地称为“阿尔卑斯”基因型的东欧人,以及其他不受欢迎的人拒之门外。
布里格姆突然受到极大的关注,这引起了新成立的美国大学理事会的兴趣。美国大学理事会是一个由高等教育机构组成的松散组织,当时正试图找出一种切实可行的方法,以解决成千上万的高中毕业生想申请进入大学继续接受教育的问题。在此之前,申请程序摇摇欲坠。想要申请的学生必须前往他们希望就读的大学参加单独的考试,就像1962年我在牛津大学所经历的那样。这在像英国这样面积较小的国家还算容易,但对希望到堪萨斯城学习的缅因州学生或希望到坦帕学习的圣迭戈孩子来说,这就相当具有挑战性了。因此,美国大学理事会提出,为什么不设立一种标准测试呢?只需将相同的试题邮寄到美国各地,并按照所有人都满意的标准进行评分。无论学生们住在哪里,无论他们想去哪里上大学,都可以同时参加考试。年轻的布里格姆教授似乎在与此相似的领域里取得了巨大成功,他的著作在所有书店里都备受推崇,而且他还掌握了大量有关学生学习、智力和知识的数据。既然如此,为什么不让布里格姆教授来设计这项新的考试,并以他10年前设计的备受赞誉的陆军智力测验为蓝本呢?
布里格姆欣然同意,设计了一项由三部分组成的测试来评估学生的数学、阅读和写作能力。学业能力倾向测验就这样诞生了。然而,7年后,布里格姆否定了自己的所有观点,使整个测试陷入一片混乱。在1930年发表的一篇论文中,他认同了批评者的观点,即他在测试士兵时采用的方法以及他在书中公布的方法存在严重缺陷,偏向于白种人,几乎毫无价值。没有任何证据表明智力与遗传学有任何关系,他之前的主张也没有任何价值。虽然这之间并没有必然的因果关系,但可以肯定的是,在这次事件之后,对后来许多美国人的生活如此重要的学业能力倾向测验一直命运多舛。
第二次世界大战一结束,数百万回到美国的军人就通过《退伍军人权利法案》( GI Bill )进入大学接受教育,学费全免或非常优惠,学业能力倾向测验的普及缓解了招生办公室的压力。然而,一旦大量申请者通过了考试,这项考试的命运和受欢迎程度就会起伏不定。
对那些追求学术严谨的人来说,学业能力倾向测验中使用选择题似乎有些可笑。这种题型会在题目下方列出四个选项,可以通过机读阅卷来评估学生的能力。这里面掺杂着运气成分,即使是最愚笨的人也有四分之一的机会猜对答案。面对那些在学术上极其严谨的教育工作者施加的压力,学业能力倾向测验组织者决定引入一道作文题,但复杂的作文评判标准、公式化的作文结构和糟糕的作文水平使得这个试验变得一团糟,甚至在某些年份要求写作文,在另一些年份则没有作文题。2021年6月,作文题被彻底取消。
由于作弊、丑闻,以及富裕家庭的孩子依靠昂贵的辅导来确保比贫困家庭的孩子取得更好的成绩,这项曾经令人生畏的美国升学考试似乎正在逐渐消失,依赖这种方式来评估学生潜力的学校越来越少。越来越多的人认为,学生在学校的表现可以表明其能力水平,是一个更好、更可靠的衡量标准。在美国,人们在衡量学生的知识、智力或理解力时越来越多地使用“成绩”这种说法。
此外,在其他国家几乎所有受过教育的人看来,美国的学业能力倾向测验简单得可笑。那些嘲笑美国人文化水平和知识水平低下的讽刺笑话或许有些无情,但也不足为奇。在美国的深夜电视节目中,一些学生向全国观众展示了他们对某些事情的错误认识,这些错误认识令人难以置信,比如越南战争是针对德国的,冷战时期的柏林曾被中国万里长城一分为二,以色列位于非洲西部。这样实在可悲,令人痛心。
公元589年,隋统一中国,这个经过多年战乱的国家开始复兴。隋朝开创了科举制度。在这个时期,一条大运河得以开凿,这条传奇的水道连通了北京和杭州,至今仍在使用;佛教成为当时中国的主要宗教;根据佛教教义,中国向古老的贵族统治制度以及随之而来的腐败、贿赂和特权宣战。隋朝废除了国家官僚机构内部的推举制度,政府高级职位首次根据功绩而非家世背景来分配。在接下来的唐朝,科举制度得到了完善,中国迎来了数百年来从未有过的长久和平与繁荣。到10世纪末,科举考试已经深深融入中国知识分子的生活,直到20世纪初被废除。
在科举考试中,大儒将一大捆写着试题的桑皮纸试卷捧到龙陛之上,正式交给礼部尚书。接着,宫廷官员燃香,礼部尚书高举试卷。随着香烟在他们头顶上方缭绕,礼部尚书命令士兵对身着白色麻布袍衫的考生进行身份核查与搜身,杜绝作弊可能。在这之后,考生们集体进行磕头仪式,跪在地上用额头在冰冷的大理石地板上磕九下,对即将开始的科举考试表示敬意。
考试开始后,考生们要连续作答8个小时。每份答卷都以奏折的形式呈现,开头都是千篇一律的措辞,如“谨奉旨回复陛下的问题……陛下每日勤政不辍,仍于百忙之中拨冗垂询,臣深感荣幸,不胜感激涕零。臣虽才疏学浅,但愿竭尽所能,为陛下答疑解惑……”接着,考生针对每个问题写下自己的答案。
科举考试的试卷通常是以中国古代经典文本中的内容为题,由一部分宫廷文官和大臣进行初步阅评。圆圈代表满分,三角形代表60分,直线代表40分,叉号代表20分。最后,高级官员会对答卷进行复审,选出最优秀的10份呈交给皇帝做最终决定。皇帝并不知道那些答卷出自哪位考生之手。匿名制和客观公正的评分制度是隋朝反贵族制度的核心。皇帝的决定不仅基于答卷的质量,还基于考生的相貌和言谈举止。
这一过程漫长而曲折,最终以皇帝御批且通常会短暂出席的琼林宴画上句号。通过年复一年的科举考试,最聪明的人被选拔出来并得到任命。新任吏员中最优秀的人将在宫中任职,就最重要、最棘手的国事向皇帝提出建议。那些在考试中表现出色但比最优秀的人稍逊一筹者则会金榜题名,并在都城里骑马游行庆祝。他们会奉命去学习如何管理各部门或治理偏远的省份,从而使中国这个庞大的帝国在岁月轮转和朝代更迭中屹立不倒。
科举考试过于注重古代知识,很少涉及真正与瞬息万变的外部世界相关的学问。自19世纪末以来,一些改革者和近代化推广者一直在努力推翻这一制度。为了保住岌岌可危的帝国以及手中的权力,强势的慈禧太后做出了最后的努力,推行了一系列改革,包括废除高度仪式化的传统酷刑和科举制度。最后一次科举考试是在1904年夏天为一小群学生举行的。在此前的1000多年里,科举制一直维系着中国庞大的官僚机构,使其免于分崩离析。