在大数据时代,不管一个人多么勤奋,一生中通过各种途径获得的信息是非常有限的。目前产生的信息总量已经远远超过人类所能承受的限度,根本来不及完全吸收理解,也根本不可能全部得以应用于实际。随着数据量呈几何级数增长,翻译的需求也在迅速激增,对翻译的时间、速度和质量要求也在不断提高。面对海量的、混沌的、非结构化的数据世界,我们需要从大数据中去伪存真、去粗存精、挖掘其价值和意义,那么如何在单位时间内高效获取专业的信息、提高翻译效率和产能,这对翻译工作者的搜索能力提出了严峻的挑战,搜商的概念应运而生。搜商是人类通过某种手段获取新知识的能力,是知识和时间的商数,其更关注于获取有效知识的效率。搜商的本质特征是搜索,搜索使得搜商明显区别于智商和情商。搜商是一种与智商、情商并列的人类智力因素,是人类在信息时代需要具备的第三种能力。在大数据时代,我们通过科学地分析数据来认识翻译世界,我们找到满意的翻译答案的时候,实际上也找到了数据之间的关联。
由于时代限制,传统意义上的翻译能力主要集中于译者的语言、文化和思维能力上,对搜索能力鲜有深入、系统的探讨。现有信息检索技术教程很少谈及如何辅助译者进行翻译工作,多数集中在利用搜索引擎、数据库辅助翻译的具体实践上,并未站在译者翻译能力的角度,对译者搜索能力的内涵与能力细分进行系统地论述。笔者在对翻译能力系统研究之后,明确提出翻译技术能力概念,并指出搜索能力是翻译能力的重要组成部分。在大数据时代,如何提升译者的搜商,在单位时间内快速获取翻译知识,是当代翻译教育工作者必须面对的问题。
大数据时代,数据和信息更新速度、信息量同步呈现爆炸式增长。翻译水平不再仅仅取决于译者自身知识储备以及语言水平高低,还取决于从海量的信息中获取所需信息和知识的快慢。在语言服务全球化、数字化的背景下,译者通常要在很短的时间中面对自己不熟悉,甚至是完全陌生的任务。这时候查阅纸质字典可能无法解决问题,译者高效地利用信息平台,搜索、提取和总结信息的能力便成为关键。在互联网和本地计算机上快速、准确查找自己所需要的资源已经成为一个译者必备的基本素质。这些是译者进行翻译活动所具备的定向的搜索能力,也就是译者的“搜商”。
在大数据时代,提高译者的搜商,需要培养译者应用搜索工具、使用搜索技巧和掌握搜索资源三个方面的能力。
译者常用的搜索引擎有百度、Google、Bing等。它们都需要通过关键字进行搜索。有一些专业搜索引擎,如百度法律、MBA智库百科、Patentscope等还能提供专业领域内的搜索结果。例如在一篇专利文献翻译中,遇到“圈梁模板”一词,查询Patentscope,可以找到相关专利,打开相关专利,可看到对应英文为“ring beam formwork”。
桌面搜索工具是一种无需借助互联网、在本地计算机硬盘中执行搜索的工具。常见的桌面搜索工具有Google桌面、百度硬盘搜索、Search and Replace、Everything等。前三者可以进行全文搜索,而Everything则可快速搜索硬盘资料的文件名。译者在自己电脑上积累了许多专业的术语表,使用桌面搜索工具可对术语表进行快速查找。本地术语表一般都是经过译者筛选确认的,专业性强,可信度高,因而和搜索引擎相比更加快捷高效。
译者除了熟悉常见的搜索引擎之外,还需要掌握高级搜索语法、诱导词查询法等搜索技巧。
以Google搜索引擎为例,它提供了许多高级搜索语法。善用搜索语法可以提高搜索的准确性。
(1)逻辑检索运算符号(“AND”“OR”“-”)。“AND”符号,表示前后两个关键词都要出现在检索结果中,在Google检索中可用空格来代替。如需要搜索bulk carrier一词,直接在检索框中输入bulk carrier即可。“OR”表示前后两个关键词中出现一个即可。如需要了解panamax bulk carrier和capesize bulk carrier两者中任意一者的信息,只需在检索框中输入panamax OR capesize bulk carrier即可。“-”表示检索结果不出现“-”后的结果。如只需了解panamax bulk carrier的信息,但直接检索会发现中间夹杂着许多capesize bulk carrier的信息,那么只需要在检索框中输入panamax bulk carrier -capesize即可。
(2)英文双引号("")。将检索词包含在英文双引号中,可以保证在检索的结果中目标检索词连续出现。如需搜索robust standard errors这个专业词汇,若不加双引号,搜索引擎会把在一个页面上同时出现这三个词的网页也给罗列出来,降低了搜索效率。而将搜索词变成“robust standard errors”效果就会好很多。
(3)site。该检索命令可以限定检索结果的来源网站,被用来检验译文表达是否地道。例如,译者查到足球术语“后腰”的对应英文是“defensive midfielder”。为了验证这一表达是否地道,在谷歌检索栏输入:"defensive midfielder" site:us。这个检索式的目的是限制检索结果只出现在美国的网站中,然后查看检索到的结果数,有效结果数量大,则译文相对可靠。但译者必须知道,不能把互联网搜索引擎提供的词频和词频比较作为翻译选词唯一标准。对检索结果的甄别判断,乃至反向验证也是译者搜商的重要体现。
(4)filetype。该检索命令可限制搜索结果的格式类型。例如,译者要翻译静脉注射相关内容,需要熟悉静脉注射的相关背景知识。此时译者可在Google检索栏输入“静脉注射”filetype:pdf以及"Intravenous Injection" filetype:pdf,便可快速获取关于静脉注射的英文和中文的PDF文件,了解静脉注射的相关双语表达。
诱导词查询法是最常见的搜索技巧之一。通过诱导词可以缩小搜索引擎的检索范围,利于快速找到需要的内容。例如,在一篇战地救援的英文中有这样一句话:If he has a CamelBak on him, I may not be able to access this.在这句话的翻译中,难点就在于CamelBak这个词如何翻。用谷歌搜索CamelBak,会发现这是一家生产Hydration Packs(装水的背包)的公司。其中还有关于Military/Tactical(即军事)的产品。初步确定该产品应该就是文中所指的设备。将已知信息“水”和“军事”作为诱导词,与CamelBak一起进行搜索。搜索结果的最前面几条就为我们展示了一些军事论坛上,关于CamelBak的称谓,如驼峰水袋、驼峰水囊等。
Microsoft Word定义了一套通配符,对通配符的支持使得Word的查找/替换功能大大增强。但通配符只是正则表达式体系的一个小的子集。正则表达式是一种语言,也是一种高级搜索方法,可以实现文本的查找、定位和替换功能。在翻译中,利用正则表达式强大的查找/替换功能,可以实现对文本内容的批量修改,对非译元素(例如网址、电话以及客户要求的免译内容等)进行标记或隐藏。总之,灵活运用正则表达式,可使某些烦琐的翻译工作变得更加有趣和高效。
译者通常会接触各种专业领域,对于专业知识背景、专有名词、人名、地名等搜索,还需要借助学术数据库(如Springer、中国知网、万方数据等)、专业数据库(如专利数据库、医学数据库等)、专业门户网站以及单语或双语语料库(COCA语料库、CCL汉英双语语料库)等资源。
学术数据库和专业数据库较之互联网搜索引擎的搜索结果而言,更具有权威性和科学性,可信度更高,可以很大程度上提高译者的搜索效率。例如,在一篇与煤化工有关的文章中,出现有“ash content”一词,在中国知网的词典中进行检索可以发现在相应的精细化工等专业词典中被译为灰分、灰分含量、含灰量等。将这些译文再在知网的期刊栏目下作为关键词进行检索,可以发现相关的论文中灰分、灰分含量这两个词汇出现频率极高,而含灰量则很少。所以基本可以确定,在煤化工领域中,“ash content”一般译为“灰分”。
译者可以利用目标语单语语料库去验证译文表达是否地道,亦或者搭配是否适当。例如,“晚期胃癌”,湘雅医学专业词典将其译为advanced carcinoma of stomach和late gastric cancer,译者在翻译时很难辨别哪一个是准确译法。在COCA官网,分别输入这两个译法,都没有找到对应的例句,但查询advanced gastric cancer,显示出例句“There is less certainty regarding the resection D2 in patient with advanced gastric cancer(recommendation grade C/D)”。为进一步验证该译法,用Google或Bing检索“advanced gastric cancer”,可以找到多篇本族语作者撰写的相关文献。由此可见,advanced gastric cancer是晚期胃癌的准确译法。这是利用语料库解决翻译疑难的一个实例。
双语句库是利用信息检索技术,在海量的双语例句对中提供双语的互译信息。比较出色的中英双语句库有Bing(必应)词典、百度词典、有道句库、爱词霸句库、句酷等。由于这些双语例句对主要是人工翻译而成,且涉及各行各业,对于翻译从业人员与学生,是一种重要的辅助翻译手段。当译员碰到一些词组、搭配需要查询时,利用双语句库是一个不错的选择。需要注意的是,由于双语句库的语料直接来源于互联网,其语料质量并不能得到很好的保证。在利用双语句库辅助翻译的基础上,还应该配合其他的手段来验证翻译的正确性。
此外,译者可以利用的搜索资源还有很多,例如在线词典、在线百科、社交媒体、融媒体等。译者可充分调动网络资源高质高效地完成翻译项目。网络资源无所不包,提高搜商,是译者提升自身翻译能力的重要方法之一。然而,因网络资源质量参差不齐,译者还必须具备相应的甄别能力,对网络搜索得来的结果去伪存真,这也是译者搜索能力的体现。搜索能力是翻译能力的重要组成部分,译者的搜索能力是对传统翻译能力的拓展。本书围绕译者搜索素养展开,以真实案例剖析翻译与搜索技术的交融,旨在通过多元化的搜索技术提升翻译工作者的翻译能力,促进译者高阶检索思维逻辑的形成。同时,本书也是对人工智能时代翻译教育课程体系的进一步完善,对于翻译教育体系革新及语言服务人才能力结构调整具有重要意义。
全书选材新颖,内容丰富,图解详尽,深入浅出,兼顾理论与实践,由搜索基础作为导入,涵盖桌面搜索、文本搜索、词典搜索、术语搜索、语料库检索、网络搜索及学术搜索等七个专题的内容,可满足读者多层次、多维度、多场景的信息搜索需求,同时也为翻译技术这一应用翻译学的分支学科的研究注入最新的研究成果。本书既适用于外语专业的师生,也适用于广大语言服务从业者、翻译爱好者及相关研究人员。
全书共计八章,其中王华树、宁静致远负责编写第一章,刘世界、顾铭钦负责编写第二章,马世臣负责编写第三章,杨绍龙、王静静、陈昊珅负责编写第四章,邱泠铎负责编写第五章,施淑敏负责编写第六章,赵芳贤负责编写第七章,周霁虹负责编写第八章。王华树、刘世界、张成智负责编纂过程中的统稿工作。李长栓教授作为本书的顾问,为本书的顺利编纂与成稿提供了诸多建设性的意见及宝贵的实践经验。我们在编纂过程中得到了多方面的支持和帮助,每一章的撰写都离不开师生的集体讨论,其中来自于广东外语外贸大学、西安外国语大学、北京外国语大学、上海海事大学、对外经济贸易大学、中山大学、海南大学、江西理工大学等多所高校的硕士研究生为本书的编纂提供了诸多应用案例和支持,他们是刘笑笑、朱贝、何婷、张雪、李思慧、徐琳琳、谢音、方毓锦、孙雨月、江宇楠、康思敏、李敏铃、王玥、张晓旭、张礼彬、姜淑珍、彭魁伟、季裕超、徐凡、林铭茜、牛启凡、黄彦婷、刘冬云、荀珍珍、刘倩、郎朗、杨端玉、汪卷、赵梓彤、万翊林、李斯然、左桐,在此一并致谢。
本书在写作过程中,得到了译界和学界同仁的大力支持。在此特别要感谢:北京外国语大学任文教授和张威教授、北京师范大学张政教授、广东外语外贸大学蓝红军教授、北京第二外国语学院司显柱教授、北京语言大学王立非教授等,没有他们的指导、鼓励和帮助,本书不可能顺利完成。还要感谢2018年以来我指导过的翻译研究生,本书付梓,离不开他们的贡献。当然我必须要感谢本书编辑钱屹芝女士,感谢她为本书的编辑及出版付出的辛勤努力。
随着人工智能技术和数字技术的迅猛发展,音频、视频、图像、日志等多模态数据正在以指数级增长,检索技术和工具的功能也愈加丰富与完善。我们身处数字化时代,更应该谙熟与海量数字资源、各类信息检索技术和平台的交往之道,让其成为服务于我们实践的“利器”。本书的编写先后经历了团队组建与培训、教材框架设计、实践案例筛选、专家座谈指导、全书统筹与质量保障等诸多环节,但由于编者水平有限,以及技术变革较快,书中难免有瑕疵遗漏之处,恳请广大读者朋友提出宝贵意见。
王华树
2022年6月1日