有朋友问,词汇书都那么多了,你们干吗还要自己写一本?
我说,这本书其实不是我们写出来的。
他马上低声追问,你们也是抄的?还是整理的网上资料?
我一时语塞,嘴里像被塞了苍蝇,虽然也听说行业内的很多词汇书,甚至是畅销书,确实都是这么出来的,但我们真不干这事。
做拓词的时候,确实曾经收到过一些词汇书稿,作者想在拓词上线,增加影响力,结果导入数据库时,发现错误极多。于是跟作者联系要精校版,因为我们发现正式印刷出版的书里,至少低级错误都被改过了,作者告知精校版是出版社做的,他也没有电子版。我们又问,那你能不能自己精校一下,作者很奇怪地看着我说:我哪有这么多时间去干这事……作为理工男,我一时真不知道说什么好。
《ACT词汇终结者》不是我们写的,这是实话,因为整本书从无到有,除了前言和附录的这些文字是我们写的,书中正文内容,也就是词汇部分,没有一个字是个人写出来的(我们也不允许教师篡改词条,这个原因有机会再讲,展开就复杂了),而是工程师和教师协同开发的结果。
顶上教育是一家在线教育公司,说“在线教育”绝不仅仅是源于我们的ACT课程是“在线一对六”精品班,而是从基础的教研开始,所有工作都是由教师和工程师协同进行的,是人工和计算机联合处理的,不知道这算不算人工智能,但肯定算是“人工+智能”。
突然意识到,这几本终结者词汇书可能是行业内第一套被“开发出来”的单词书,虽然只是我们的一个小教研成果,但麻雀虽小,五脏俱全,简单介绍一下过程,可能会有利于大家理解。
即便此前我做了六年背单词网站和APP(拓词创始人,前CEO),孙健教了12年ACT、GRE和SAT(新东方名师,留园教育创始人),做单词书也不能拍脑袋,启动前,团队先把知乎上关于词汇学习的所有帖子仔细研究了一遍。然后又将市面上比较知名的词汇书,全部买回来,逐一进行了分析。
很快发现一个问题,几十年来都没有被解决。“单词的回归语境学习”,即学生们背了一个单词,却无法知道它是从哪里来的、怎么用的、怎么考的。于是我们确定了第一个定位,做中国第一本“可以通过微信扫码,实现单词回归语境学习的ACT词汇书”。
另外一个问题是ACT词汇书,往往单词量都很大,有6000个到8000个,虽然ACT考试会覆盖到这么多,但是这些单词在考试中被考核情况出入很大,绝不仅仅是统计一个词频就可以界定的,我们确定只精选ACT考试必需的单词,无论考生水平高低,都值得下工夫去掌握的单词,求精不求多。
首先,计算机并不知道increases,increasing,increased是一个单词,致使很多纯靠计算机简单统计的词频都不准确。为了解决这个问题,我们找到了AntConc的Lemma表,其中有常用英文单词原形和变形的对应。请看下图:
事实上,这张表并不完整,幸好我们还有《柯林斯高阶英汉双解学习词典》( Collins COBUILD Advanced Learners’English-Chinese Dictionary )的正版授权,工程师马上写程序抓取柯林斯词典的相关内容,完善了自己的Lemma表。
工程师开始分析词频,这里绝不是把所有OG、TPO和真题资料用词频程序跑一遍,给出每个单词的出现次数,老师再根据经验给单词选释义和加例句这么简单。工程师需要将每个单词和ACT真题出现的位置建立数据关系,再与柯林斯词典的对应单词建立关系,并且要把所有关系通过交互界面呈现出来。
教师的噩梦阶段到了,他们要为每个单词确定义项(不可分割的一个释义叫义项,释义是义项的集合),每个义项都必须回归到语境的上下文中去判断,这项工作,目前最前沿的自然语言处理技术也不能解决,只能靠教师人工来做,于是我们的几位教师每天12小时,花了数月时间才完成。
为什么需要这么久?举个例子,比如单词impact,在考试中总共出现过51次,这就至少要阅读51句话(大部分都是复合句,有时候还需要看前后的句子),对应柯林斯词典,标出每次出现的精准义项,再选择合适的例句,这个单词处理完就需要十几分钟。
不做不知道,我总算明白了,为什么到今天,所有词典的词频只处理到单词,没有一本词典能给出义项频度(此前曾找过柯林斯、朗文和牛津出版社,结果都表示没有这个数据),这个成本确实太大。
最后,也是难度最大的,只能由主教研老师处理,先是把比较简单的词,如am,is,are,can,should,the,apple等一律删除。标准比较简单,先从stop words(大概575)开始,其中包含这样的单词:the,an,which,where,able,about等;接着,删除朗文定义词汇(用于描述其他单词的最简单2000词);然后是删除高考词汇(大概3500个,实际上只有680个单词有价值)。专业名词需要删除,比如Paleolithic。这个单词虽然出现了9遍,但是只在某一套题中出现,并不是常用词汇,可以判定为专业词汇,删除!
删到最后只剩下核心单词,是的,你只需要背核心单词。你没看错!相信通过上述过程筛选出的单词才是真正的“ACT终结者词汇”,而以这些单词为基础的单词书才值得每个ACT考生花时间背诵。
《ACT词汇终结者》就是这么做出来的,真正的“人工智能”!计算机做计算机该做的事儿,人做人该做的事儿。逻辑清晰但数量庞大的工作往往更适合计算机做,比如统计词频,建立词汇与文章的关系;逻辑模糊的工作必须由人来做,比如筛选专业词汇,选择单词在不同上下文的释义。我们坚信人和计算机是互补的关系,而不是取代的关系。
薛淡
顶上教育创始人
2017年12月18日