前言

在当今万物互联的时代，基于计算机视觉的应用呈现出不断增长的趋势。人体动作识别是计算机视觉及相关领域的重要研究内容，旨在识别出具有高层语义的人体动作。客观环境的复杂性，以及运动的多样性使基于视觉的人体姿态估计和动作识别极具挑战性。人体动作识别方法对于研究大脑的视觉认知机理具有重要的理论意义，一方面可以对大脑的认知机理相关研究提供实验证明，另一方面还可以通过实验对认知科学进行反馈和促进；同时，人体动作识别在智能安防监控、人机交互、体育运动分析、虚拟现实、动画生成等领域也有着广阔的应用前景。

现有的人体动作识别算法在实验背景下的简单图像（单一人物、明确动作相关物品、简单背景）中可以取得良好的识别效果，但在真实场景捕获的图像（多个人物、不同动作、杂乱物品、复杂背景）中却很难取得满意的结果。图像或视频中多人动作之间常存在互动关系或人物之间在时空中存在复杂的交互关系，但其中的交互关系和时空动态作为群体行为分析中的重要线索尚未被足够地开发与利用。本书在自然科学基金面上项目、联合基金、国家重点研发计划等项目资助下开展研究，针对图像或视频数据，在总结分析人体动作识别研究现状的基础上，从单人动作和群体动作两个层面研究人体动作识别技术，解决上述问题。

本书共9章。第1章概述研究背景和意义，围绕研究目标详细分析了相关研究现状，并介绍了本书的研究内容和结构安排。第2章设计了一种基于时序一致性的视频人体2D姿态估计模型。该模型可以显式地在端到端的网络中对视频时序一致性信息进行建模，并且不需要额外的光流计算，是一种更加高效的方法。第3章提出了一个完全利用几何先验知识、不需要任何人体3D关节点标注的自监督人体3D姿态估计方法。第4章提出了基于一致分解网络的自监督人体3D姿态估计方法。该方法将人体形状与相机视角充分解耦以克服投影不确定性问题。第5章设计了一种基于多时空特征的人体动作识别模型。该模型同时考虑表观时空特征和骨架时空特征，实现了准确的人体动作识别。第6章针对图像中个人动作识别，构建了单层线索互动关系模型，对图像中个人之间的互动关系进行建模，相比于多层模型，它连接关系简单，具有计算轻量化的特点。第7章针对图像群组动作识别，构建了混合群组动作模型，以层级之间的生成关系对多元（包括群组和个人）互动关系进行统一建模，避免了现有层级模型用二元互动关系组合近似计算多元互动关系带来的误差。第8章结合群体动作识别的动作关系推理，以及从时间和空间两个维度同时进行编码的聚合表示，提出了一种融合动作相关性的视频群体行为识别方法。第9章对本书研究的领域做了总结和展望。

感谢李杨、周正、王浩听等博士生和硕士生们长期的合作与共同研究，以及在本书编写过程中所做的工作。感谢对本书投入过心血的所有人。在本书出版过程中，电子工业出版社的张迪编辑给予了很多帮助，在此表示感谢。

由于作者水平有限，书中难免有不足之处，敬请各位专家和读者批评指正。

李侃
2023年12月于北京