信息检索的含义及内容非常广泛。例如,图书馆管理员帮助读者从图书馆的书架上找到一本书,这就是一种信息检索,是人工形式的信息检索;计算机从银行数据库中找到某个客户账户的信息,这也是一种信息检索,是机器形式的信息检索。现在人们所研究的信息检索(Information Retrieval, IR)主要是指利用计算机,根据用户提出的查询请求(query),从存储在计算机中的大规模非结构化数据集中,如文本文档集(Collection D),查找到用户所需要的信息资料(若干个文档),并自动将查找结果(Result)反馈给用户的过程。
信息检索主要完成三个方面的任务:信息需求的表达方法、信息存储方法和检索方法。相应地,信息检索研究主要有三个方面:查询表达、信息表达和检索理论与方法。其中,检索主要指检索模型(Retrieval Model)。信息检索的基本过程如图1.1所示。
图1.1 信息检索的基本过程
按照检索的不同内容,信息检索分为文本检索、图形图像检索、声音检索、视频检索等。它们的检索理论与方法既有相同之处又有区别之处。
随着信息检索的不断发展和应用,检索结果的呈现也显得越来越重要。通常,用户希望将检索到的内容以可视化、直观化、美观化的形式展现出来。因此,检索结果的呈现也日益成为信息检索的研究内容之一。
需求推动研究、创新和发展。可以说,自从人类有了信息开始,就有了信息检索的需求。至今,信息检索经历了人工检索、机械检索、计算机检索三个发展阶段。
计算机信息检索始于20世纪40年代 [1-2] 。1950年,信息检索先驱,美国人Calvin N. Mooers首次提出了信息检索的概念 [3] 。1959 年,Calvin N. Mooers提出了穆尔斯定律 [4] :当拥有信息比不拥有信息会让用户付出更大的努力或给用户造成更大的麻烦时,用户会倾向于不使用信息检索系统。该定律既表达了计算机信息检索系统效率的重要性,也从侧面反映了机器信息检索系统实现的难度。
当今,人类社会已经发展并进入到信息化、网络化阶段。人类的生产、生活日益高度依赖于信息。诸如Web、博客、微信、数字图书馆、电子商务、企业网站、网上股票、网上银行等,都是信息的来源。信息的种类和数量以惊人的速度不断地增长,与此形成鲜明对比的是信息获取的手段和效率日益相对滞后。信息处理技术迫切需要更有效的理论和方法来处理如此海量的信息,特别是如何从如此海量的信息中获取用户所需的信息。随着人类社会的日益进步,信息获取已经关系到人类生产、生活、学习等质量的提高。
顺应这样的需求,信息检索成为当前信息处理研究领域中的研究热点,布尔模型、向量空间模型、概率模型、统计语言模型、基于机器学习的检索模型等模型被先后提出并取得了一定的应用效果。百度、Google等一些成功案例已经出现。但是,总的来讲,当前已有的信息检索理论与方法远未满足人们的需要。因此,信息检索是当前以及未来一定时期内信息处理研究领域中的研究热点,各种新的检索理论方法将不断涌现。
结构化信息指的是这类信息的各个组成部分的语义都是明确的,各个组成部分之间的关系也是明确的。结构化信息处理的主要方法是使用数据库技术,结构化信息的检索理论与方法主要也是基于数据库的。基于数据库的结构化信息检索理论与技术相对已经成熟,主要是SQL技术。参考文献[5]从数据库的角度出发介绍了结构化文本检索。参考文献[6]详述了SQL技术。
半结构化信息指的是这类信息的一部分组成内容的语义是明确的,而另一部分组成内容的语义是不明确的。半结构化信息的典型代表是HTML网页。较早的半结构化信息检索见参考文献[7]。XML是半结构化信息检索的基础,参考文献[8]、[9]是关于XML的综述。向量空间的XML检索见参考文献[10]、[11],语言模型见参考文献[12]~[14]。参考文献[15]介绍了基于概率权重的计算机制。
非结构化信息指的是这类信息的内容在结构上一般没有进行语义上的划分,没有清楚的语义结构。非结构化信息分为图形图像信息、语音信息及文本信息等类型。
随着网络技术的不断发展,网络用户越来越多,网络应用越来越广泛,特别是Internet和Intranet技术,使得非结构化信息占全部信息的比例越来越大,绝对数量也日益增加,对于非结构化信息检索的需求越来越迫切。同时,非结构化信息检索也是当前整个信息检索研究中的难点和热点。