深度学习搜索引擎开发：Java实现最新章节_托马索·泰奥菲利著

1.1　神经网络及深度学习

本书的目标是使你能够在搜索引擎中使用深度学习技术改进搜索体验和结果。即使不打算构建下一个谷歌搜索引擎，你也能够在中小型搜索引擎中使用深度学习技术，为用户提供更好的体验。神经搜索能帮助你自动完成工作，而无须手动执行。例如，你将学习如何从搜索引擎数据中自动提取同义词，从而避免手动编辑同义词文件（第2章）。不论在哪种应用场景下或在哪个领域中，这都能提高搜索效率、节省时间。在为搜索推荐优质相关内容方面（第6章将介绍），使用神经搜索和深度学习能起到同样的作用。在许多情况下，提供普通的搜索并导航到相关内容就能使用户满意。本书还将介绍一些更具体的实例，比如跨语言的内容搜索（第7章）和图像搜索（第8章）。

对于本书将讨论的技术，唯一要满足的条件是：有足够多的数据输入神经网络。但在实际应用中，人们很难为“足够多的数据”定义一般性标准。因此，我们总结一下本书中所列举的每个问题所需要的最少文档（文本、图像等）数量，详见表1-1。

表1-1　神经搜索技术针对每个任务所需的文档数量

注意，表1-1中的数字源于经验，不必严格遵循。例如，即使一个搜索引擎的文档数少于10 000个，你仍然可以尝试实现第7章中的神经机器翻译技术。但是你应该考虑到，这时候获得高质量结果（例如完美的翻译）的难度可能会更大。

在阅读本书时，你将学到很多关于深度学习的知识，以及在搜索引擎中实现这些深度学习基本原理所需的所有搜索基础知识。因此，如果你是搜索工程师或非常愿意学习神经搜索的程序员，本书就非常适合你。

你不必预先了解深度学习及其原理。本书在引导你解决特定类型的搜索问题时，会逐个研究一些具体算法，在此过程中，你会对深度学习了解得越来越多。现在，本书将从一些基本定义入手。深度学习是机器学习的一个子领域，在这个领域中，计算机能够借助深度神经网络，逐步地学习表示和识别事物。深度 人工神经网络 （artificial neural network）是一种计算范式，最初灵感来自于神经元组织成大脑的方式（尽管大脑比人工神经网络复杂得多）。通常，信息流入 输入层 （input layer）的神经元，然后通过隐藏的神经元网络［它们形成一个或多个 隐藏层 （hidden layer）］，再通过 输出层 （output layer）的神经元输出。神经网络也可以看作黑盒：根据每个网络的训练目的，通过智能函数将输入转换为输出。普通的神经网络至少有一个输入层、一个隐藏层和一个输出层。当一个网络有多个隐藏层时，我们称之为 深度神经网络 。在图1-2中，可以看到一个具有两个隐藏层的深度神经网络。

图1-2　具有两个隐藏层的深度神经网络

在详细介绍神经网络之前，请先后退一步。前文曾提到，深度学习是机器学习的一个子领域，而机器学习是人工智能领域的一部分。那么，什么是机器学习呢？

1.1 神经网络及深度学习

1.1　神经网络及深度学习