FFmpeg开发实战：从零基础到短视频上线最新章节_欧阳燊著

1.4
FFmpeg的开发框架

本节介绍FFmpeg开发框架基本的使用说明，包括FFmpeg提供的三个可执行程序及其用法、FFmpeg提供的8个动态链接库及其用法、如何基于FFmpeg平台编写第一个FFmpeg程序等。

1.4.1　可执行程序

外界对于FFmpeg主要有两种使用途径：一种是在命令行运行FFmpeg的可执行程序，该方式适合没什么特殊要求的普通场景；另一种是通过代码调用FFmpeg的动态链接库，由于开发者可以在C代码中编排个性化的逻辑，因此该方式适合厂商专用的特制场景。

开源的FFmpeg框架提供了三个可执行程序，分别是ffmpeg、ffplay和ffprobe，它们的源码均位于fftools目录。下面对这三个程序分别展开详细介绍。

1．ffmpeg程序

ffmpeg程序主要有两个用途：一个是查询FFmpeg的支持信息，另一个是处理音视频的转换操作。关于音视频的转换命令，会在后面的章节中逐一介绍，这里只说明该程序能够查到哪些FFmpeg支持信息。前面在搭建FFmpeg开发环境的时候，提到可以用以下命令查看FFmpeg的版本信息：

    ffmpeg -version

除此之外，ffmpeg程序还能查询它所支持的文件格式，比如以下命令可以查看FFmpeg支持的文件格式：

    ffmpeg -formats

执行上面的命令，控制台回显长长的一串文件格式支持列表，列表开头如下：

    File formats:
    D. = Demuxing supported
    .E = Muxing supported
    --
    D  3dostr          3DO STR
     E 3g2             3GP2 (3GPP2 file format)
     E 3gp             3GP (3GPP file format)
    D  4xm             4X Technologies
     E a64             a64 - video for Commodore 64
    D  aa              Audible AA format files
    D  aac             raw ADTS AAC (Advanced Audio Coding)

可见FFmpeg支持的文件格式分为两种类型：一种被标记为D，表示支持该类型文件的解析；另一种被标记为E，表示支持该类型文件的封装。继续下拉这一长串文件格式列表，既能找到古老的VCD格式，也能找到风靡一时的RM和FLV格式，还能找到MP3和MP4等常见格式，看来FFmpeg真的将常见的音视频格式一网打尽了。

ffmpeg程序还能够查看更多信息，详见表1-3。由于相关概念比较专业，因此这里不再一一展开，等到后续涉及时再来讲解。

表1-3　ffmpeg程序的一级命令用途说明

2．ffplay程序

ffplay程序相当于一个播放器，用来播放音视频文件。在播放音频时，ffplay不仅会让扬声器放出声音，还会在屏幕上展示该音频的波形画面。在播放视频时，ffplay会在屏幕上展示连续的视频画面，就像看电影、看电视那样。如果视频文件携带了音频数据，那么ffplay会让扬声器同时播放声音。

注意，在服务器上不能通过ffplay播放音视频文件，云服务执行ffplay命令会报错Could not initialize SDL - dsp: No such audio device，这是因为服务器只提供运算功能，没接入显示器和扬声器。只有把FFmpeg安装到个人计算机上，才能正常使用ffplay播放音视频。

以播放视频为例，前提条件完成了1.3节讲述的各项安装步骤，再在Windows系统的MSYS2窗口执行以下命令，使用ffplay程序播放名叫fuzhous.mp4的视频文件。

    ffplay fuzhous.mp4

运行上面的命令之后，控制台一边弹出视频播放器窗口，如图1-15所示。

图1-15　ffplay的视频播放界面

一边回显以下文件日志信息：

    filename=fuzhous.mp4, flags=1q=   0KB vq=  0KB sq=  0B f=0/0
    proto_str=file
       Last message repeated 1 times
        Input #0, mov,mp4,m4a,3gp,3g2,mj2, from 'fuzhous.mp4':
         Metadata:
           major_brand     : isom
           minor_version   : 512
           compatible_brands: isomiso2avc1mp41
           encoder         : Lavf59.34.102
         Duration: 00:00:19.52, start: 0.000000, bitrate: 288 kb/s
         Stream #0:0[0x1](und): Video: h264 (High) (avc1 / 0x31637661), yuv420p(progressive),
    480x270 [SAR 1:1 DAR 16:9], 285 kb/s, 25 fps, 25 tbr, 12800 tbn (default)

根据以上日志信息，可知该视频持续时间为19.52秒，视频编码器采用h264，视频分辨率为480×270，fps帧率为每秒25帧。

再来看看播放音频，以下命令表示使用ffplay程序播放名为ship.mp3的音频文件。

    ffplay ship.mp3

执行上面的命令，控制台一边弹出音频波形窗口，如图1-16所示。

图1-16　ffplay的音频播放界面

一边回显以下文件日志信息：

    filename=ship.mp3, flags=1 aq=    0KB vq=    0KB sq=    0B f=0/0
    proto_str=file
    Input #0, mp3, from 'ships.mp3':   0KB vq=    0KB sq=    0B f=0/0
     Metadata:
       title           : 渔舟唱晚
       artist          : 中国十大古典名曲
       genre           : Other
       encoder         : Lavf59.27.100
     Duration: 00:03:37.91, start: 0.025057, bitrate: 128 kb/s
     Stream #0:0: Audio: mp3, 44100 Hz, stereo, fltp, 128 kb/s

根据以上日志信息，可知晓该音频的标题和演唱者，以及音频的持续时间为3分37.91秒，音频编码器采用MP3，采样频率为44100Hz。

ffplay程序的更多命令行参数可通过以下命令查看，这里不再一一展开了。

    ffplay -help

3．ffprobe程序

ffprobe程序是一个音视频分析工具，它既能分析音视频的文件参数、容器参数等信息，也能分析音视频文件中每个数据包的大小、类型、编解码器等信息。

以查看文件参数为例，以下命令表示使用ffprobe查看视频文件2018.mp4的格式信息。

    ffprobe -show_format 2018.mp4

执行上面的命令，控制台回显如下的文件格式信息，斜杆后面是额外添加的说明注释。

    [FORMAT]
    filename=2018.mp4                    // 文件名
    nb_streams=2                         // 流的数量。为2表示包含视频流和音频流
    nb_programs=0
    format_name=mov,mp4,m4a,3gp,3g2,mj2  // 格式名称
    format_long_name=QuickTime / MOV     // 完整的格式名称
    start_time=0.000000                  // 开始时间，单位为秒
    duration=253.332993                  // 结束时间，单位为秒
    size=42853286                        // 文件大小，单位为字节
    bit_rate=1353263                     // 比特率，即每秒传输的比特数量（1字节有8比特）
    probe_score=100
    TAG:major_brand=isom
    TAG:minor_version=512
    TAG:compatible_brands=isomiso2avc1mp41
    TAG:encoder=Lavf57.71.100
    [/FORMAT]

因为ffprobe程序返回的文件信息直接显示在控制台，密密麻麻的，令人看得眼花缭乱，所以实际上很少使用ffprobe分析音视频，而是采用第三方专业的桌面软件加以分析，后面讲到相关格式时再介绍这些软件。

1.4.2　动态链接库

FFmpeg不仅提供了ffmpeg、ffplay和ffprobe三个可执行程序，还提供了8个工具库，方便开发者调用库中的函数，从而实现更精准的定制化需求。这8个库通常采用动态链接的方式，在Linux系统上动态库表现为SO文件，在Windows系统上动态库表现为DLL文件。这8个库的名字是avcodec、avdevice、avfilter、avformat、avutil、postproc、swresample、swscale，库名开头的a表示audio，也就是音频，库名开头的v表示video，也就是视频。下面分别对这些库展开介绍。

1．avcodec

avcodec是FFmpeg的音视频编解码库，它的源码位于libavcodec目录，在Linux系统的文件名形如libavcodec.so，在Windows系统的文件名形如avcodec-**.dll。

avcodec包含各种音频的编码库和解码库，以及各种视频的编码库和解码库。通过avcodec可以将原始的音视频数据压缩为符合某种码流规则的数据压缩包，也可以将数据压缩包按照指定的码流规则解压为原始的音视频数据。尽管avcodec内置了大部分的音视频编解码库，可是有些码流需要集成第三方的编解码库，比如视频格式H.264要求集成第三方的x264，视频格式H.265要求集成第三方的x265，音频格式MP3要求集成第三方的mp3lame等，libavcodec目录下的诸多lib***.c代码就是用来集成第三方编解码库的。

早期的FFmpeg对于音频格式AAC要求集成第三方的fdk-aac，不过最新的FFmpeg已经集成了自己的AAC编解码库，因此即使没集成fdk-aac也能正常进行AAC格式的编解码。还有一些媒体格式，虽然FFmpeg内置了该格式的编解码库，但因为依赖于特定库，所以编译时要把特定库链接进来，比如图像格式PNG的编解码就依赖于zlib库。

2．avdevice

avdevice是FFmpeg的音视频设备库，它的源码位于libavdevice目录，在Linux系统的文件名形如libavdevice.so，在Windows系统的文件名形如avdevice-**.dll。

avdevice包含音视频的各种输入输出设备库，其中输入设备指的是采集音视频信号的设备，输出设备指的是渲染音视频画面的设备。当然，FFmpeg不会直接操作设备硬件，而是通过第三方的软件包来实现，比如采集媒体信号用到了Windows平台的VFW（Video for Windows，捕捉器），以及VFW的升级版DirectShow捕捉器；渲染媒体画面用到了Windows平台的GDI（Graphics Device Interface，接收器），以及跨平台的SDL2（Simple DirectMedia Layer，媒体开发库）。当然，FFmpeg也支持音效处理库OpenAL（Open Audio Library）和图形处理库OpenGL（Open Graphics Library）。

3．avfilter

avfilter是FFmpeg的音视频滤镜库，它的源码位于libavfilter目录，在Linux系统的文件名形如libavfilter.so，在Windows系统的文件名形如avfilter-**.dll。

avfilter包含加工编辑音频和视频的各种滤镜包，其中音频滤镜的源码文件名形如af_***.c，视频滤镜的源码文件名形如vf_***.c。音频滤镜多用于调整参数、混合音频等处理，视频滤镜多用于变换视频、特效画面、添加部件等处理。

部分高级滤镜要求FFmpeg集成第三方支持库，例如水印滤镜drawtext需要集成FreeType库，字幕滤镜subtitles需要集成ASS库。

4．avformat

avformat是FFmpeg的音视频格式库，它的源码位于libavformat目录，在Linux系统的文件名形如libavformat.so，在Windows统的文件名形如avformat-**.dll。

avformat包含各类媒体文件格式库，以及各种网络通信协议库。其中格式库不仅包含视频格式MP4、AVI、MOV、3GP等，音频格式MP3、WAV、AAC、PCM等，还包含图像格式JPEG、GIF、PNG、YUV等。协议库不仅包含文件协议file，常规的通信协议HTTP、FTP、TCP、UDP等，还包含流媒体传输协议RTSP、RTMP、HLS、SRT等。

由于FFmpeg把协议层的传输操作和不同格式的解析操作都封装好了，因此它们对开发者而言是透明的，从而减轻了开发者适配不同协议和格式的负担。

5．avutil

avutil是FFmpeg的音视频工具库，它的源码位于libavutil目录，在Linux系统的文件名形如libavutil.so，在Windows系统的文件名形如avutil-**.dll。

avutil包含常见的通用工具和各类算法库，其中通用工具包括字典读写、日志记录、缓存交互、线程处理，以及加解密库AES、MD5、SHA、BASE64等；各类算法包括排队算法、排序算法、哈希表、二叉树等。除此之外，avutil也囊括色彩空间、音频采样等方面的公共函数。

6．postproc

postproc是FFmpeg的音视频后期效果处理库，它的源码位于libpostproc目录，在Linux系统的文件名形如libpostproc.so，在Windows系统的文件名形如postproc-**.dll。

postproc主要用于进行后期的效果处理，如果代码中使用了滤镜，编译时就要链接这个库，因为滤镜用到了postproc的一些基础函数。

7．swresample

swresample是FFmpeg的音频重采样库，它的源码位于libswresample目录，在Linux系统的文件名形如libswresample.so，在Windows系统的文件名形如swresample-**.dll。

swresample主要用于音频重采样的相关功能，比如把音频从单声道变为多声道，变更音频的采样频率，转换音频的数据格式等。

8．swscale

swscale是FFmpeg的视频图像转换库，它的源码位于libswscale目录，在Linux系统的文件名形如libswscale.so，在Windows系统的文件名形如swscale-**.dll。

swscale主要用于图像缩放、色彩空间转换等功能，其中色彩空间转换有时也被称作像素格式转换，比如把视频帧从YUV格式转换为RGB格式。

1.4.3　第一个FFmpeg程序

在验证FFmpeg是否成功安装时，可通过命令ffmpeg -version查看FFmpeg版本号。如果能够正确回显FFmpeg的版本信息，就表示FFmpeg已经成功安装。不过，对于开发者来说，最佳的验证方式是通过编写C代码。特别是看到自己亲手编写的代码输出Hello World时，这标志着成功迈出FFmpeg开发的第一步。下面就来介绍如何编写第一个FFmpeg程序。

众所周知，C语言有个printf函数，可以把文字信息输出到控制台，比如下面的C代码调用printf函数打印Hello World（完整代码见chapter01/helloc.c）：

    #include <stdio.h>
　
    int main(int argc, char *argv[]) {
       printf("Hello World\n");
       return 0;
    }

把上面的代码保存为helloc.c文件，接着运行以下GCC命令编译可执行程序，命令格式为“gcc源代码文件名称-o可执行程序名称”。

    gcc helloc.c -o helloc

编译通过后，执行下面的命令（“./”表示位于当前目录），即可在控制台看到程序输出了一行文字Hello World，表示C程序正常运行。

    ./hello

FFmpeg框架使用av_log函数替代printf函数，顾名思义，该函数用于打印日志，默认会把日志信息打印到控制台上，相当于printf函数的日志打印功能。av_log函数的用法很简单，只要包含头文件libavutil/avutil.h，然后调用av_log函数，指定日志等级和日志内容就行。编写带日志功能的代码的详细步骤说明如下。

01 创建名为helloffmpeg.c的C代码文件，填入下面的代码内容（完整代码见chapter01/helloffmpeg.c）：

    #include <stdio.h>
    #include <libavutil/avutil.h>
　
    int main(int argc, char *argv[]) {
       av_log(NULL, AV_LOG_INFO, "Hello World\n");
       return 0;
    }

02 保存并退出该文件，执行以下命令编译helloffmpeg.c：

    gcc helloffmpeg.c -o helloffmpeg -I/usr/local/ffmpeg/include -L/usr/local/ffmpeg/lib
-lavformat -lavdevice -lavfilter -lavcodec -lavutil -lswscale -lswresample -lpostproc -lm

编译命令中的-I指定了头文件的存放目录，-L指定了链接库的存放目录，-l指定了编译过程需要链接哪些库，比如上面的命令要求链接avformat、avdevice、avfilter、avcodec、avutil、swscale、swresample、postproc这8个FFmpeg动态库，另外还链接了系统自带的m库（表示math库，也就是数学函数库）。

03 运行编译好的helloffmpeg程序，也就是执行以下命令：

    ./helloffmpeg

发现控制台回显日志信息Hello World，这表明测试程序运行正常，说明FFmpeg开发环境已经成功搭建。

04 刚才的测试程序helloffmpeg.c采用C语言编写，并且使用GCC编译。若要采用C++编程，则需改成下面的helloffmpeg.cpp代码（完整代码见chapter01/helloffmpeg.cpp）：

        #include <iostream>  // C++使用iostream代替stdio.h
　
        // 因为FFmpeg源码使用C语言编写，所以若是在C++代码中调用FFmpeg，则要通过标记extern "C"{…}把
    FFmpeg的头文件包含进来
        extern "C"
        {
        #include <libavutil/avutil.h>
        }
　
        int main(int argc, char** argv) {
           av_log(NULL, AV_LOG_INFO, "Hello World\n");
           return 0;
        }

鉴于C++代码采用G++编译，那么编译helloffmpeg.cpp的编译命令如下所示：

    g++ helloffmpeg.cpp -o helloffmpeg -I/usr/local/ffmpeg/include -L/usr/local/ffmpeg/lib
-lavformat -lavdevice -lavfilter -lavcodec -lavutil -lswscale -lswresample -lpostproc -lm

编译完毕后，同样生成名为helloffmpeg的可执行程序，如此就实现了C++代码集成FFmpeg函数的目标。

不过extern "C"标记只能在CPP代码中使用，如果在C代码中写入extern "C"并且使用GCC来编译的话，GCC会报错error: expected identifier or '(' before string constant，意思是它不认识这个标记。这种情况属于GCC和G++的编译差别，主要体现在下列几个方面：

（1）G++在编译C代码和CPP代码时，都采用C++的语法来编译；而GCC对于C代码采用C语言的语法编译，对于CPP代码采用C++的语法编译（GCC也能编译C++程序）。

（2）GCC不能自动链接C++库，而G++会自动链接C++库，所以通过GCC编译C++代码时，要记得链接stdc++库。

如果希望C代码既能通过GCC编译，也能通过G++编译，就要引入宏__cplusplus。一旦定义了这个宏，表示当前采用C++的语法编译，就得添加extern "C"标记；否则表示当前采用C语言的语法编译，无须添加extern "C"标记。可将helloffmpeg.c的代码补充完善，并将修改后的代码另存为hellofull.c，具体代码示例如下（完整代码见chapter01/hellofull.c）：

    #include <stdio.h>
　
    //libavutil/common.h要求定义，否则会报错：error missing -D__STDC_CONSTANT_MACROS
    #define __STDC_CONSTANT_MACROS
　
    // 之所以增加__cplusplus的宏定义，是为了同时兼容GCC编译器和G++编译器
    #ifdef __cplusplus
    extern "C"
    {
    #endif
    #include <libavutil/avutil.h>
    #ifdef __cplusplus
    };
    #endif
　
    int main(int argc, char** argv) {
       av_log(NULL, AV_LOG_INFO, "Hello World\n");
       return 0;
    }

然后分别运行下面两行GCC和G++编译命令，发现均能编译通过，表示该代码同时兼容C语言的语法和C++的语法。

    gcc hellofull.c -o hellofull -I/usr/local/ffmpeg/include -L/usr/local/ffmpeg/lib
-lavformat -lavdevice -lavfilter -lavcodec -lavutil -lswscale -lswresample -lpostproc -lm
    g++ hellofull.c -o hellofull -I/usr/local/ffmpeg/include -L/usr/local/ffmpeg/lib
-lavformat -lavdevice -lavfilter -lavcodec -lavutil -lswscale -lswresample -lpostproc -lm

注意，前面调用av_log函数时，第二个参数都填作AV_LOG_INFO，该参数值表示标准信息，用于标明当前日志的日志等级，详细的日志等级说明见表1-4。

表1-4　FFmpeg的日志等级说明

之所以要设置这些日志等级，是为了更好地管理输入日志，主要体现在以下两个方面：

（1）给不同等级的日志文字显示不同的颜色，有利于快速找到警告、错误等重要日志。

（2）能够通过av_log_set_level函数来设置打印的日志等级，默认只会打印AV_LOG_INFO和更高级别的日志。如果调用av_log_set_level函数设置了其他的日志级别，那么只会打印该级别以及更高级别的日志信息。

为了更好地观察日志的输出情况，打开helloffmpeg.c，在av_log之前增加调用av_log_set_level函数，修改后的代码如下：

    #include <stdio.h>
    #include <libavutil/avutil.h>
　
    int main(int argc, char** argv) {
       av_log_set_level(AV_LOG_TRACE);
       av_log(NULL, AV_LOG_INFO, "Hello World\n");
       return 0;
    }

然后更改av_log函数的日志等级参数，编译并运行程序，即可观察对应的日志输出情况。

1.4 FFmpeg的开发框架

1.4.1 可执行程序