购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

前言

在数字化时代,短视频已经深入我们的日常生活,成为我们分享生活、获取信息的重要方式。短视频之所以在社交媒体和内容分享平台上迅速流行,是因为它易于制作和分享,满足了快节奏生活中人们对即时信息的需求。

然而,随着短视频内容的爆炸性增长,我们面临着一个挑战:如何在有限的带宽和存储资源下,有效地传输高质量的视频内容?解决这一问题的关键在于视频编解码标准的制定和应用。

视频编解码标准采用了一系列高效的编码工具,这些工具能够在不降低观看体验的前提下,显著降低视频文件的码率。这不仅降低了存储和传输视频所需的资源成本,也使得视频内容能够更快速、更经济地分发到更广泛的受众用户。此外,视频编解码标准还提供了一套统一的规范和协议,确保不同设备和平台都能够无缝识别和处理视频数据。这种统一性对于实现视频内容在多样化设备和平台上的兼容性至关重要,它保障了用户无论使用何种设备,都能享受到相同质量的视频体验。

在这样的背景下,AV1标准以其开源和免版税的优势展现出巨大的潜力。AV1不仅能够提供与现有标准相媲美甚至更优的压缩效率,还因其开放的特性,得到了业界的广泛支持和采用。这使得AV1有望在未来的视频编解码技术领域发挥重要作用,推动视频技术的进一步发展和创新。

撰写本书的目的

鉴于AV1视频编解码标准与现有的国际视频编解码标准(如H.265/HEVC)存在显著差异,并且关于AV1的公开资料相对有限,这可能给希望系统学习和掌握AV1的开发者带来诸多不便。为此,我们精心撰写了本书。在本书中,我们对AV1视频编解码标准的各个关键模块进行了深入且细致的介绍,旨在帮助开发者全面理解AV1标准的核心概念、技术细节以及它对视频编解码领域带来的影响。本书目的如下:

1)详尽阐述AV1视频编解码标准中的各个技术模块,对其设计方案和原理进行深入探讨,确保读者能够获得对AV1标准的全面认识。

2)通过提供直观的图表和代码注释,帮助读者直观地理解AV1标准中各个编码工具的原理。

3)给出各个编码工具的算法原理和与这些算法相关的数学推导。如果读者直观地理解了算法原理,便容易理解这些复杂的编码算法和与这些算法相关的数学推导。

4)通过介绍各个编码算法的原理,帮助读者在实际工作中选择合适的编码工具,并根据应用场景对编码工具进行优化。

简而言之,本书不仅是学习AV1的入门书籍,也可作为专业人士在实际工作中随时查阅的参考资料。

本书主要内容

本书深入分析了已发表的、与AV1标准相关的文献资料,并仔细参考了SVT-AV1(commit id: 903ff3add827)编码器,期望能够全面地介绍AV1标准的各个模块。书中不仅详尽阐述了AV1标准的关键技术组件,还介绍了AV1标准的核心技术方案及其原理,希望能够帮助开发者深入理解AV1标准,以及AV1标准对整个视频编码行业及技术发展所带来的影响。以下是本书的章节布局:

❍第1章介绍AV1标准的起源和当前发展态势,不仅阐述了AV1标准的诞生背景和它在视频编码领域的重要作用,还详细介绍了基于AV1标准开发的多款开源软件编解码器,这些开源编码器和解码器正在加速AV1标准在应用行业的普及和发展。

❍第2章描述AV1标准的高层语法。高层语法提供了一个健壮、灵活且可扩展的框架,用于传输编码后的视频及相关信息,以使视频内容能够以尽可能有效的方式,在许多不同的应用环境中使用。

❍第3章介绍AV1块划分结构。AV1块划分结构组成了AV1编码框架的基础,它们不仅影响编码效率,还对解码性能和整个视频编码系统的复杂度有重要影响。通过引入高效灵活的块划分结构,AV1能够提供比VP9标准更高的压缩效率,同时保持或提升视频质量。

❍第4章描述AV1的帧内预测技术。帧内预测是一种常用的图片编码技术,它利用图像内部的空域冗余来减少所需的编码数据量。在视频编码中,帧内预测通常用于编码关键帧或帧内预测帧,这些帧独立于视频序列中的其他帧,不依赖于其他帧的数据即可完成解码。正是这种独立性,使得关键帧或帧内预测帧在实现视频的随机访问以及防止错误在视频序列中传播方面扮演着关键角色。因此它们的编码效率对于整体视频文件的大小至关重要。为了适应不同的图像纹理方向,AV1提供了56种方向帧内预测模式。除此之外,AV1还支持非方向帧内预测模式,以适应图像块中的平滑区域,引入递归帧内预测模式,用以深入挖掘图像块内部区域的相关性,特别针对色度分量引入了基于亮度值的预测模式,用以挖掘色度分量和亮度分量之间的相关性。

❍第5章描述AV1的帧间预测技术。帧间预测是一种常用的视频编码技术,它利用视频帧之间的时域冗余来减少所需的编码数据量。在AV1中,帧间预测技术得到了显著的增强和扩展。AV1支持一套丰富的预测工具和算法,比如:AV1使用具有不同截止频率的插值滤波器,以提高不同内容视频的帧间预测效果;AV1引入了基于仿射变换的运动估计和运动补偿技术,以准确描述视频内容的复杂运动;AV1引入了复合楔形预测,以适应具有不规则形状的物体;AV1使用动态运动向量预测方案,以挖掘、利用不同运动向量之间的相关性。

❍第6章介绍AV1的变换和量化模块。AV1采用了多种变换核,包括离散余弦变换(Discrete Cosine Transform,DCT)、离散正弦变换(Discrete Sine Transform,DST)以及它们的翻转形式,以适应不同种类的视频内容。在量化阶段,AV1提供了256个不同的量化步长选项,这允许编码器在不同的码率要求下,更好地平衡视频质量和文件大小。另外,由于变换之后的直流系数和交流系数的统计特性相差较大,因此AV1为它们提供了不同的量化步长。

❍第7章描述AV1的熵编码模块,包括AV1的算术编码引擎和变换量化系数的熵编码方案。熵编码模块位于整个编码过程的最后一个环节,其功能是对编码过程中生成的各种语法元素进行高效的组织,以形成最终的压缩码流。为了提高各种语法元素的编码效率,AV1采用了多元算术编码方案。在众多语法元素中,变换量化系数所消耗的比特在整个码流中占据主导地位,其编码效率对整体视频压缩性能有着重要影响。为此,AV1为变换量化系数设计了复杂但高效的编码方案,包括设计高效的语法元素和上下文建模过程。

❍第8章介绍AV1的环路滤波模块。为了提高解码视频的重构质量,AV1标准定义了3种环路滤波器,分别是去块效应滤波器(Deblocking Filter)、约束方向增强滤波器(Constrained Directional Enhancement Filter,CDEF)和环路恢复滤波器(Loop Restoration Filter)。去块效应滤波器用于减少预测编码块或变换编码块中像素之间的不连续性,约束方向增强滤波器用于去除边缘附近的振铃效应和底层噪声,环路恢复滤波器用于恢复编码过程中丢失的图像信息。经过环路滤波器处理过的解码图像将保存至解码图像缓冲区,用作帧间预测的参考帧。

❍第9章介绍AV1的参考缩放模式(Reference Scaling Mode)和超分辨率模式(Super-Resolution Mode)。为了在低码率下保持视频帧的视觉质量,AV1引入了参考缩放模式和超分辨率模式,以使得同一个码流能够包含不同分辨率的视频帧,实现对不同视频帧的自适应分辨率编码。对于纹理内容复杂的视频帧,编码器可以执行下采样操作,以减少这些帧的码率消耗,而对纹理内容较为简单的视频帧则保持原有分辨率。在低码率下,这种分辨率自适应的编码策略使得AV1编码器不但能够维持高复杂度纹理视频帧的视觉质量,同时也能保持纹理简单区域的视频帧质量。

❍第10章介绍AV1标准中一个具有创新性的功能——电影颗粒合成工具(Film Grain Synthesis Tool)。在电影和电视制作领域,胶片颗粒作为一种常见的视觉效果,被视为视频内容创意和艺术表达的重要组成部分。然而,胶片颗粒具有独特的信号特性,它在传统的视频编码过程中往往难以实现高效的压缩,导致码率需求较高。为了解决这一问题,AV1标准特别引入了电影颗粒合成这一编码工具。该工具的设计旨在有效减少胶片颗粒效果所需的码率,同时保持其视觉效果的完整性和真实感。

❍第11章介绍AV1标准中专门针对屏幕视频内容而设计的编码工具。这些工具包括帧内块拷贝(Intra Block Copy,IntraBC)和调色板模式(Palette mode)。IntraBC技术允许编码器在关键帧或帧内预测帧使用运动估计和运动补偿技术,从而减少屏幕内容视频中常见的重复纹理结构和图案的编码码率。IntraBC技术特别适用于文本、图表和用户界面等屏幕视频内容,这些内容通常包含大量静态和重复元素。调色板模式适用于颜色变化不大,但是存在大量重复图案或纹理的屏幕内容。通过构建一个颜色索引表(又名调色板),编码器能够以更少的比特数来编码图像块,从而提高编码效率。

笔者将上述各个模块汇集成一本书,旨在为开发者提供全面、细致的AV1概览。我们希望本书不仅能够帮助读者深刻理解AV1标准的设计原理和技术细节,还能够推动AV1标准在行业内被广泛地应用。

本书面向的读者

本书旨在深入剖析AV1标准,不仅覆盖其技术原理,还会详尽地介绍AV1的方案细节。在算法原理上,本书包含视频编解码标准中通用的技术原理和AV1特有的技术实现。在方案描述上,本书以通俗易懂的语言详尽地介绍了AV1的各个编码模块。基于这样的内容设置,本书应该能够为多种类型的读者提供帮助。

❍视频编码工程师:对于需要快速了解AV1标准的从业人员来说,本书提供的直观、详细的方案描述可以迅速帮助读者理解算法。

❍学生:对于在计算机科学、电子工程或相关技术领域深造,且对视频编码技术有学习需求的学生,本书针对各个编码工具提供了直观的图表和代码注释,这有助于读者迅速理解编码算法的原理。结合本书提供的与编码算法相关的数学推导,读者会更加深入地理解编码算法的原理,为将来在视频编码领域的研究或职业生涯打下坚实的基础。

❍业余爱好者:技术爱好者和自学者是一群充满好奇心和学习热情的个体,他们对视频编码技术有着浓厚的兴趣,并希望通过自学来提升自己的技术水平。对于这样的读者群体,本书的图表等可视化工具、代码注释以及详细的数学推导,将帮助他们更好地理解AV1中的编码算法。

本书内容特色

针对不同的读者群体,本书有以下特色和优势:

1.模块化的章节组织方式

本书按照混合编码框架组织各个章节,使读者能够系统地理解AV1标准的全部流程。混合编码框架是H.264/AVC、H.265/HEVC、VP9和AV1等现代视频编解码标准的基础。在混合编码框架下,编码过程可以分为如下几个模块:块划分、帧内预测、帧间预测、变换与量化、熵编码和环路滤波。除此之外,AV1还首次引入了参考缩放模式、超分辨率模式、电影合成工具,以及屏幕视频编码工具。本书把上述每个技术模块设置成独立的章,便于读者根据自己的兴趣和需要选择阅读。

2.图表和可视化工具

在描述视频编码技术原理的过程中,本书提供了大量的图表、流程图和示意图等辅助性视觉材料。比如,为了帮助读者更好地理解帧内预测方向,本书使用了一系列示意图,把帧内预测方向以图形化的方式呈现出来;为了清晰地描述AV1引入的楔形划分预测,本书使用了一系列示意图来呈现不同角度下的楔形分割线;为了直观地向读者呈现变换模块中不同变换核的作用,本书使用了一系列示意图来展示不同变换核的处理效果。

3.示例和代码注释

为了清晰、准确地描述AV1的各个编码模块,本书提供了大量示例和代码注释。例如,在探讨AV1的块划分模块时,为了帮助读者直观地理解图像边界处理的机制,本书不仅提供详尽的划分示例,还逐步介绍块划分模块如何处理图像边界,使读者能够跟随这一流程,深化认识。再如,在解释熵编码模块中的算术编码引擎时,本书通过一个具体的符号序列编码案例,借助图表生动地展示了编码过程中算术编码引擎状态的变化,从而使读者对算术编码的工作原理有一个直观的理解。特别地,考虑到变换、量化和熵编码模块在视频编解码中的复杂性,本书注重将理论推导与算法实现相结合。为此,我们对SVT-AV1参考软件中的相关模块进行了深入的分析,并提供详细的代码注释,以展示这些复杂概念在实际编码过程中的应用。

4.详尽的数学推导

在众多参考文献中,由于篇幅限制,作者往往直接给出了数学公式的推导结果,省略了详细的推导过程。为了帮助读者更好地理解这些公式背后的逻辑和原理,对于关键的数学公式,本书给出了详细的推导过程,确保读者能够跟随推导过程理解每一个步骤。此外,本书使用图表来辅助解释抽象的数学概念和公式变换,使其更加形象化。

通过上述章节组织形式和写作方式,本书旨在提供更加直观的阅读体验,帮助读者深入理解AV1标准中的各个技术模块,并掌握核心技术原理。

如何使用本书

本书的设计初衷是详细且全面地介绍AV1标准的各个技术模块以及基本原理,但是在使用过程中,读者不需要按照顺序从头到尾地阅读。本书可以作为一本用户手册:在需要的时候,可以从中查找对应编码工具的技术原理、实现流程以及对应的语法元素。读者在使用本书时,应当结合AV1标准文档,以准确地理解AV1标准的技术细节。

本书勘误

AV1标准包含了众多复杂的模块,撰写过程中难免有所遗漏,我们已尽力确保内容的准确性和完整性,但是准确地描述AV1标准的各个模块仍然是具有挑战性的工作,书中难免存在疏漏,希望各位读者能够理解。我们对此表示衷心的感谢,并欢迎读者提出宝贵的意见和建议。对于本书,如果有任何意见或疑问,请按以下方式联系作者:mgaohitcs@gmail.com。

致谢

在撰写本书的过程中,我们得到了许多支持和帮助,在此,我想表达最诚挚的感谢。

首先,我要感谢参与本书审校的技术专家许耀武博士以及谷歌AV1团队的技术专家。特别感谢谷歌技术专家李翔博士,他真诚的鼓励、关键的沟通以及实用的写作建议,给予我们极大的支持和帮助。我们对他的贡献表示衷心的感激,并期待未来有更多的合作机会。这些参与审校的技术专家以专业的视角和严谨的态度,对书中的内容进行了细致的审查,确保了本书的学术质量和实用性。

也特别感谢机械工业出版社给予我们这个难得的机会,使本书得以呈现在读者面前。非常感谢本书的出版团队,他们的精心审校使得本书在章节组织和逻辑结构方面更加清晰。

在此,还要感谢陈莹女士,在制订写作计划期间,她所承担的组织工作至关重要。陈莹女士的协调和努力确保了整个讨论工作顺利进行。

最后,我要感谢我的家人,是他们在背后默默支持,提供了无尽的爱与力量,让这段写作旅程得以顺利完成。他们的理解和鼓励是我最宝贵的财富,也是我不断前进的动力。每一次挑战和困难,都有家人的陪伴和支持,让我能够专注于工作并追求卓越。对于他们的付出和支持,我心存感激,这份感激之情无以言表。再次感谢他们,是他们让一切成为可能。

高敏
2024年5月22日 0NLlehEfRRKTqszuarZ/ey6Pb3kWeTlEdR8j3m2gvZxK427XgXZa8pLJ7YIg1TvM

点击中间区域
呼出菜单
上一章
目录
下一章
×