推荐序二

数字视频技术在过去30年中经历了飞速的发展，已成为我们日常生活和工作中不可或缺的一部分。视频信息传输在消费类互联网总流量中的占比不断攀升，截至2023年已超过82%。其中，视频直播流量的增长速度尤为惊人，且未来五年仍将以超过两位数的增速持续扩张。与此同时，视频内容的表征和消费方式也在经历翻天覆地的变化。

20世纪90年代中期，数字电视广播（包括机顶盒）和DVD 的问世，促使模拟电视信号向数字信号全面转型，视频内容从标清起步，逐渐演进到21世纪前10年高清内容涌现，再到近几年来超高清内容越来越多。与此同时，互联网上视频流媒体服务也经历了清晰的演进轨迹：从标清到高清，再到超高清/4K，消费方式则从视频点播（Video On Demand，VOD）发展到直播，再到实时互动（Real-Time Engagement，RTE）。显示设备的演变更令人瞩目，从桌面到手机，再到如今的AR/VR（Augmented Reality / Virtual Reality，增强现实/虚拟现实）眼镜。新的视频观看方式不断涌现，360°全景视频、多视角视频和立体3D视频为用户带来了沉浸式体验。视频分辨率和帧率进一步向更高的清晰度和流畅度迈进，对8K、16K、32K以及120帧/秒、240帧/秒内容的需求与日俱增。这一切也意味着数据量的急剧增加，视频传输和存储亟需更先进、更高压缩率的编解码技术和标准来支撑。

在这些进步背后，视频编解码技术和标准一直是关键的支撑。1995年，MPEG-2视频标准的出台迅速推动了数字电视广播和DVD的普及。随后，2003年定标的H.264/AVC标准又为高清电视广播和蓝光DVD的兴起奠定了基础，它至今仍广泛应用于大多数视频传输，包括短视频和RTE视频。然而，视频编解码标准的演进并非一帆风顺。例如，2013年推出的H.265/HEVC标准相比于H.264/AVC实现了约50%的码率节省，但由于复杂的专利池收费机制，其推广应用受到较大限制。本书介绍的AV1视频编解码技术和标准以解决这一困扰、免除版税作为重要目标。AV1于2018年定标，相较于H.265/HEVC，它通常能够提供更高的压缩效率，为视频传输和消费开辟了新的可能性。

近年来，AV1已经有不少实际应用并展示出了强大的潜力，例如谷歌已将AV1作为YouTube视频流媒体服务的编码格式，W3C的实时传输标准WebRTC也支持AV1格式的视频编解码。我的团队对AV1编码器算法做了大量深入的研究和探索，成功将AV1落地应用于声网音视频RT E系统中，在很多型号的手机上都可以实现高清视频实时软件编码。这也完全改变了我对AV1编码器复杂度与编码效率关系的认知。通常，新一代编解码标准以大约10倍（甚至更多倍）于上一代标准的计算复杂度来换取40%～50%的编解码效率提升。AV1标准采纳了大量新颖的编码工具（算法），通过采用多种智能快速算法以及对各个工具和编码器系统架构进行深度的工程优化，有效地降低了计算复杂度并保留了可观的编码压缩效率，有的工具还可以利用合适的A I机器学习/深度学习算法来实现。RT E应用场景很多时候发生在手机、Pad等这类算力和电量都有限的设备上，以比较低的计算量支出来换取较好的编码效率提升是必要的约束。最终，对比业界广泛使用的X264（very_fast档次）实时编码器，AV1软件编码器做到了计算量减少近20%而编码效率提升了38%；对比业界优秀的商用H.265/HEVC实时软件编码器，AV1软件编码器在计算量和编码效率两个方面也都更优秀，这使得它在RT E系统中应用时能够为用户带来更好的视频观看体验，受到客户欢迎。这反映了AV1优秀的能力和潜力。我相信这对利用芯片来加速AV1编码也是利好消息，高效的AV1编码芯片的面积和功耗可以得到较好的控制和优化。

从算法层面来看，这几代视频标准都遵循了基于块的混合视频编码的基本方法（Block-based Hybrid Video Coding Method），利用帧间运动补偿和帧内预测方法来消除帧间和帧内的冗余信息。新一代的标准（如AV1）采用了更细致的块划分方式，允许更多种形状的子块，增强了匹配和编码的灵活性，同时，AV1引入了更先进的预测方式，比如支持沿更多方向进行插值，通过变换对有形变的内容做运动估计等，有效改善了预测的效果。此外，AV1还引入了更有效的处理方法，包括利用不同频率响应的滤波器生成子像素，提供更丰富频域变换和量化方式，以及更高效的熵编码方法；在环路滤波中，AV1利用维纳滤波和导向滤波来恢复量化损失；超分辨率模式和参考缩放模式的引入，使得同一码流中的视频分辨率可以变化。所有这些创新使新一代视频编解码标准能够实现更高的压缩比。本书对这些技术原理和细节都做了详细的介绍。

视频标准文档通常以句法（Syntax）为主进行编写，往往对语义（Semantic）和底层原理的解释较为欠缺，因而不易阅读，也较难理解。本书对AV1标准做了深入而全面的诠释，尤其对语义和底层原理做了充分的解释，文字精准流畅，易于理解。此外，本书包含大量较为直观的框图和深入浅出的公式推导，还配以必要的伪代码，这对阅读和理解尤其有帮助。本书不仅对深入学习视频编解码技术大有裨益，还能作为理解和掌握AV1标准各个细节的实用手册，同时也可以为理解其他视频编解码标准——如H.266/VVC（定标于2020年）和AV2（预计于2025年定标）——奠定基础。作者对复杂的技术标准进行过多次推敲，描写得恰到好处，确保了内容的准确性与可读性。仔细阅读本书对我而言是一个学习和享受并举的过程，这本书很值得推荐。

钟声
声网首席科学家和首席技术官