深度学习之图像目标检测与识别方法最新章节_史朋飞著

0.3 本书的主要内容及章节安排如下

针对传统图像去雾算法容易受到先验知识制约和颜色失真等问题，第1章提出了一种结合注意力机制的多尺度特征融合图像去雾算法。该算法采用下采样层来提取图像中的多尺度特征图，并且采用跳跃连接的方式对不同尺度的特征图进行融合，同时在跳跃连接中加入了由通道注意力模块和像素注意力模块组成的特征注意力模块，使该算法可以将更多的注意力集中在浓雾像素区域和重要通道信息上。实验表明，该算法能够克服其他几种主流的去雾算法容易受到先验知识制约以及颜色失真的缺点，可得到较为清晰的无雾图像，图像色彩失真小，去雾性能优于其他几种流行的去雾算法。

针对水下图像受水下特殊环境的影响而存在的颜色失真、对比度和清晰度低等问题，第2章提出了一种基于特征融合GAN的水下图像增强算法。本章首先通过生成器和判别器之间的对抗训练，获得了鲁棒性较高的水下图像增强模型，主要包括改进的颜色校正算法、生成器的结构、判别器的结构和训练过程中模型的损失函数；然后通过实验对比了该算法和典型的传统图像增强算法、近几年提出的基于深度学习的图像增强算法，证明了该算法的有效性；最后，通过消融实验，证明了特征融合结构和边缘损失函数对该算法的贡献。

在水下图像的获取和传输过程中，由于成像设备速度、网络传输带宽的限制，需要将水下图像压缩成低分辨率的图像，低分辨率的图像会造成信息量小、特征提取难等问题。针对这些问题，第3章设计了基于ESRGAN的水下图像超分辨重建算法。第3 章首先阐述了基于 SERGAN 的图像超分辨率重建算法 SRGAN 和 ESRGAN，以及ESRGAN对于SRGAN的主要改进；其次，介绍了该算法的改进之处，详细说明了生成器和相对判别器的结构及作用，同时介绍了训练过程中模型的损失函数；最后，通过实验对比了该算法和其他典型的图像超分辨率重建算法，证明了该算法的有效性。

在对实时性要求较高的裂缝图像检测系统中，传统方法无法完成对裂缝大批量的检测，为更加快速、精确地分割裂缝图像，第4章提出了一种新的结合自注意力机制的基于嵌套UNet的裂缝图像分割模型Att_Nested_UNet。该模型沿用UNet模型的设计思想，使用将多层UNet嵌套在一起的UNet++模型，并在每层的UNet模型中融入了注意力机制。第4章在包含8700幅裂缝图像的训练集、包含1290幅裂缝图像的测试集上的验证了 Att_Nested_UNet 模型的有效性，无论从主观视觉效果来看，还是从客观性能指标来看，Att_Nested_UNet模型在裂缝图像分割中的表现要优于UNet++、Att_UNet、UNet模型。

针对水下大坝裂缝图像分割任务面临的可用数据集少、人工标注耗时费力、难以实现有监督学习等问题，第5章提出了一种基于对抗迁移学习的水下大坝裂缝图像分割算法。第5章通过构建多级特征对抗网络，将在源域（有标注的地面裂缝图像）上提取到的特征应用到水下大坝裂缝图像分割中，有效缓解了对水下标注数据集的需求，并在一定程度上保证了分割精度。

由于水下图像质量低下、水下环境复杂、海洋生物大小形态不一、重叠遮挡等原因，传统的基于Faster-RCNN的海洋生物检测算法（原算法）对海洋生物的检测效果并不理想。第6章提出了一种基于改进Faster-RCNN的海洋生物检测算法。该算法使用ResNet替代原算法中的VGG特征提取网络，并辅以BiFPN提升特征提取能力和多尺度特征融合能力；使用有效交并比（EIoU）替换交并比（IoU）以减少边界框的冗余；使用K-means++算法生成合适的锚定框。实验表明，该算法有效提高了海洋生物的检测精度，可以实现对海洋生物的有效检测。

针对水下图像质量差、水下目标形态各异大小不一，以及水下目标重叠或遮挡导致水下目标检测精度低的问题，第7章提出了一种在YOLOv4上使用PredMix、卷积块注意力模块（Convolutional Block Attention Module，CBAM）和DetPANet的目标检测算法。第7章在YOLOv4的特征提取网络CSPDarknet53中添加CBAM，可以提高算法的特征提取能力；DetPANet在路径聚合网络（Path Aggregation Network，PANet）中添加了同层跳跃连接结构和跨层跳跃连接结构，可以增强算法的多尺度特征融合能力；PredMix（Prediction-Mix）可以增强算法的鲁棒性。实验结果表明，该算法有效提高了水下目标的检测精度。

针对遥感图像中某些地物目标密集排列的难点问题，第8章提出了一种基于RetinaNet密集目标检测算法。首先，针对密集目标间存在噪声干扰的问题，该算法在RetinaNet算法中加入一个由空间注意力模块与通道注意力模块组成的多维注意力模块，用来抑制噪声；然后，使用弱化的非极大值抑制算法替代非极大值抑制算法，用于防止某些密集目标被剔除。第8章的消融实验结果表明，该算法在检测准确率方面优于RetinaNet算法；对比实验结果表明，该算法的目标检测性能优于所对比的6种目标检测算法。因此，该算法在检测遥感图像中的密集目标时具有较高的检测准确率，能在一定程度上解决遥感图像中地物目标密集排列的难点问题。

针对视频图像目标检测算法由于运动模糊和噪声而出现的漏检问题，第9章提出了一种基于LSTM网络的视频图像目标检测算法。该算法通过改进的记忆引导网络，实现了帧间特征的传递和聚合；通过大小不同的模型对视频图像进行交叉检测，大模型负责检测精度的提升，小模型负责检测速度的提升，在数据集上实现了端到端的训练。与单帧图像目标检测算法相比，该算法解决了由于运动目标姿势异常、复杂背景干扰和目标部分缺失等造成的漏检问题。与其他主流的视频图像目标检测算法相比，该算法取得了更优或者相近的性能。

针对目标检测算法参数量大、占用资源多、难以部署到嵌入式平台上的问题，第10章提出了一种基于改进YOLOv4的嵌入式变电站仪表检测算法。该算法在YOLOv4的基础上进行了轻量化改进，采用MobileNet V3作为特征提取网络，引入深度可分离卷积，采用迁移学习策略进行网络训练，利用TensorRT对模型进行优化，更适用于性能有限的嵌入式平台。实验结果表明，该算法在变电站仪表检测中表现出了良好的鲁棒性和实时性，能够满足变电站仪表检测任务，方便在不同的变电站中迁移部署，具有很好的实用价值。