译者序

视觉是人类最珍贵的一种感知能力，我们可以通过视觉感知物体的颜色、形状、距离、运动等多种信息，而让计算机系统具备视觉感知能力一直是计算机与人工智能领域孜孜以求的目标。近几年，随着深度学习突飞猛进的发展，计算机视觉的研究取得了重大突破，基于深度学习的图像分类、目标检测、人脸识别、目标跟踪与行为分析等计算机视觉技术趋于成熟，在智慧城市、安全监控、产品质量检测等多个领域获得了巨大的商业价值，人们对深度学习和计算机视觉的学习热情也日益高涨。计算机视觉内容比较庞杂，涉及多方面的理论和应用技术，经验不足的初学者很容易迷失方向，一本具有一定专业深度且通俗易懂的入门教材对初学者显然是至关重要的。本书从初学者的视角出发，对基于深度学习的现代计算机视觉技术做了比较全面的梳理，形成了一套相对完备的现代计算机视觉知识体系，可以很好地满足初学者的学习需求。

本书基于真实数据集，全面系统地阐述现代计算机视觉实用技术、方法和实践，涵盖50多个计算机视觉问题。全书分为四部分：第一部分（第1～3章）介绍神经网络和PyTorch的基础知识，以及如何使用PyTorch构建并训练神经网络，包括缩放数据集、批归一化、超参数调整等；第二部分（第4～10章）介绍如何使用卷积神经网络、迁移学习等技术解决更复杂的视觉相关问题，包括图像分类、目标检测和图像分割等；第三部分（第11～13章）介绍各种图像处理技术，包括自编码器模型和各种类型的GAN模型；第四部分（第14～18章）探讨将计算机视觉技术与NLP、强化学习和OpenCV等技术结合起来解决传统问题的新方法。本书通过大量应用案例、示例代码详细讨论基于深度学习的计算机视觉解决方案实现技术，以及多种典型的神经网络模型的基本结构和训练方法，并结合具体应用场景生动形象地介绍图像样本数据集的获取与处理、深度学习模型的设计与优化、应用系统开发与部署的基本过程，循序渐进地消除读者使用深度学习技术开发计算机视觉应用的认知盲点，使读者能够熟练掌握基于深度学习和PyTorch的现代计算机视觉技术。

本书内容丰富新颖，语言文字表述清晰，应用实例讲解详细，图例直观形象，适合作为高等院校人工智能、智能科学与技术、数据科学与大数据技术、计算机科学与技术等相关专业学生的教材或教学辅导书，也可供工程技术人员参考。

本书由汪雄飞、汪荣贵共同翻译完成。感谢张前进、江丹、孙旭、尹凯健、王维、张珉、李婧宇、修辉、雷辉、张法正、付炳光、李明熹、董博文、麻可可、李懂、刘兵、王耀、杨伊、陈震、沈俊辉、黄智毅、禚天宇、杨聪、张明瑞、王明奔、周光宏、贾文浩、徐洪龙、张阿文等研究生提供的帮助。

由于时间仓促，译文难免存在不妥之处，敬请读者不吝指正！

译者
2023年3月