综合安防系统建设与运维（初级）最新章节_杭州海康威视数字技术股份有限公司著

2.1　多媒体技术

● 学习背景

随着多媒体网络技术日新月异的发展，综合安防系统与多媒体的结合应用也日益广泛和深入。无论是视频监控系统、入侵报警系统、门禁系统还是停车场管理系统，多媒体技术在综合安防系统中可以说是无处不在，准确了解多媒体技术的概念和相关参数含义对日后学习相关综合安防系统应用有积极的意义。

● 关键知识点

✓ 图像、视/音频的概念与基础知识

✓ 图像处理技术

✓ 音频处理技术

2.1.1　图像、视/音频的概念与基础知识

广义的图像是对客观世界物体记录与反映的合集，照片、绘画、地图、书法作品、X光片、卫星图等都是图像。综合安防行业所说的图像特指经由光学系统采集物体反射或者投射光线后，形成的反映客观世界的画面。而当连续的图像变化超过每秒24帧（frame）画面时，由于人眼的“视觉暂留”原理，人眼无法辨别单幅的静态画面，连续的图像看上去具有平滑、连续的效果。这样连续的画面称为视频。因此，视频本质上就是连续的图像。

音频信息是指自然界中各种音源发出的可闻声和由计算机通过专门设备合成的语音或音乐。按照表示媒体的不同，音频可以分为语音、音乐和效果声。下面主要介绍图像和声音的相关基础知识。

1．图像

（1）图像的色彩模型

色彩模型也叫颜色空间或色域。从本质上看，图像就是各种颜色的组合。在多媒体系统中常涉及用不同的色彩模型来表示图像的颜色，如计算机显示时采用RGB色彩模型，彩色全电视数字化系统中采用YUV色彩模型，彩色印刷时采用CMYK色彩模型等。不同的色彩模型对应不同的应用场合，在图像生成、存储、处理及显示时，可能需要做不同的色彩模型处理和转换。下面将重点介绍综合安防领域较为常用的RGB色彩模型和YUV色彩模型。

① RGB色彩模型。RGB色彩模型是根据颜色的发光原理设计的，任何一种颜色都可以由红色（red）、绿色（green）、蓝色（blue）3种颜色按不同比例混合而成，这3种颜色也被称为三基色。在图像中，每一个像素的颜色可以由不同亮度的红色光、绿色光、蓝色光组合而成。三基色混色效果如图2-1所示。

图2-1

② YUV色彩模型。YUV色彩模型的特点是将亮度和色度分开，从而更适用于图像处理领域。在YUV色彩模型中，Y代表明亮度，是灰阶值；U和V表示色度，作用是描述图像色彩和饱和度。YUV色彩模型中分量之间的独立性原理很好地解决了黑白和彩色显示设备之间的兼容问题。

（2）图像的参数

亮度、对比度、饱和度和锐度是描述画面质量是否符合人眼对真实环境的感官的参数。亮度即画面的明暗程度；对比度描述的是图像暗部与亮部的对比程度；饱和度是图像色彩的纯度；锐度指的是图像物体边缘的锐利程度。

2．声音

声音是物体振动产生的声波，是通过介质（气体、固体、液体）传播并能被人的听觉器官所感知的波动现象。人耳不仅能够分辨声音的强度、音调及音色，还能够分辨出声音的方向和深度，并感受到空间感和纵深感。通常将人耳对声音的主观感受，即响度、音调和音色称为声音的三要素。

（1）响度

物理学中，把人耳感觉到的声音的强弱叫作响度。响度又被称为音量或声量。在声学上，通常用分贝（dB）来计量声音的强弱。

（2）音调

声音的高低叫作音调，发声体在1s内振动的次数叫作频率，单位是赫兹（Hz）。频率决定音调。物体振动得快，发出的声音音调就高。物体振动得慢，发出的声音音调就低。人耳能听到的声音频率范围为20Hz～20000Hz，低于20Hz的声音叫作次声波，高于20000Hz的声音叫作超声波。

（3）音色

音色，可以理解为声音的特征。不同的发声体由于其材料、结构等不同，所发出的声音在波形方面会有自己的特点。例如不同的乐器发出的声音不一样，每个人的声音也不一样。

2.1.2　图像处理技术

综合安防系统一般通过摄像机来完成图像的采集，摄像机通常由镜头、图像传感器（image sensor）、图像信号处理器（image signal processor，ISP）、数字信号处理器（digital signal processor，DSP）组成，主要功能是将被摄物体反射的光学信号转变成数字信号。

光线透过小孔形成倒立的图像——“小孔成像”原理是摄像机图像采集技术的本质。如图2-2所示，在摄像机系统中，镜头相当于小孔，光线经镜头在传感器上形成倒立的实像。

图2-2

目前主流的网络视频监控系统使用的前端编码设备是网络摄像机（network camera/IP camera，IPC）。它处理信号的流程：被摄物体反射的光信号传播到镜头，经镜头成像在图像传感器（CCD/CMOS）表面；图像传感器会根据光的强弱积累相应的电荷，在相关电路控制下，积累电荷逐点移出，经过滤波、放大后输入数字信号处理器（DSP）进行图像信号处理（ISP），然后进行网络编码压缩（NET），形成数字信号输出，如图2-3所示。

图2-3

自第一台摄像机问世以来，摄像机所能呈现的图像质量已经实现了质的飞跃，这其中离不开光学镜头制造技术与传感器制造技术的快速发展。除了通过调节摄像机镜头参数来改变图像基本参数（比如调节镜头光圈来改变图像亮度等）之外，大多数情况下，图像质量的提高还要依靠摄像机的传感器以及内部图像处理芯片的处理技术。

1．增益

增益即将图像信号利用放大电路进行放大。在环境亮度较低的情况下，图像传感器输出的电平信号较低，利用信号放大电路进行处理可以提升画面整体亮度。但盲目提升增益，会带来图像噪声问题。

自然场景的光线亮度变化范围非常大，晴天太阳光下的照度有几千勒克斯，到夜晚可能会小于0.01勒克斯。通过增益的自动调节可以将曝光度调整至合理范畴。

2．白平衡校正

白平衡校正是摄像机在不同色温下仍能将白色还原为纯白（灰）色的能力。

人眼所看到的白色，是物体在一束包含全部可见光光谱的光线照射下，全反射形成的“颜色”，但在实际的环境中存在大量非全光谱光线补光的情况（例如常见钨丝灯泡，其光源是暖色偏黄的，在该情况下，原来白色的纸会出现偏黄的情况）。

对于各类非全光谱的光源，我们以色温表征其特性。当某一光源所发出的光的光谱分布与不反光、不透光、完全吸收光的黑体在某一温度时辐射出的光谱分布相同时，我们就把理想黑体的温度称为这一光源的色温，单位为“开尔文”（K）。低色温光源的特征是能量分布中红辐射相对较多，此时的光通常称为“暖光”；色温提高后，能量分布集中，蓝辐射的比例增加，此时的光通常称为“冷光”，色温（单位：K）阶梯如图2-4所示。

图2-4

白平衡校正有两大基础理论：白色世界理论、灰度世界理论。

白色世界理论是目前主流使用的理论。它认为当物体亮度增大时，各颜色通道区域饱和，即图像中最亮的点应该趋于灰色，即图像上Rmax、Gmax、Bmax这3个值应该相等。因此通过找到最亮的点，将其假设成灰色，可以反算出各通道的增益。该校正模型对大多数图像场景有效。

灰度世界理论认为RGB色彩模型各通道的总能量应该是相同的，即通过白平衡校正后图像的RGB三分量的比例为1 : 1 : 1。它对于色彩丰富的图像能实现准确的校正，如图2-5所示为白平衡校正前后的对比图。但当图像的RGB三分量有一种或两种缺失或图像的RGB三分量比例关系严重失调时，无法根据灰度世界假设理论来校正图像的色偏。

图2-5

3．宽动态

宽动态技术是为了解决在明亮背景下，画面主体过暗而丢失细节的问题，分为数字宽动态和真宽动态。

数字宽动态利用图像信号处理技术，使得画面暗部提亮，画面过曝处变暗，是一种纯软件处理的方式。它能处理的情况有限，对于完全过曝或欠曝区域的处理会带来严重的噪点情况。

真宽动态利用多帧曝光、图像融合技术和软硬件同时对图像进行处理。它在极短的时间周期内，对场景进行不同曝光参数的调整，获得多帧画面，再进行融合，从而使画面的背景与主体都处在合适的亮度范围内。如图2-6所示，在长帧中，人物主体清晰，但背景过曝；在短帧中，背景细节清晰，主体较暗；中帧效果则处于这两者之间。对3帧画面进行合成，可以提取到清晰的背景与主体。利用真宽动态进行曝光参数调整与融合输出均需要一定的处理时间，故如主体运动速度过快，则会导致3帧画面中主体的位置有一定偏移，融合后的图像会产生一定的虚影问题。

图2-6

4．透雾

透雾是在大雾天气下拍摄让画面清晰的技术手段，分为算法透雾与光学透雾，图2-7所示为透雾技术效果图。

图2-7

算法透雾是依赖于图像信号处理的纯软件技术。它通过增强画面的物体边缘、提升画面对比度等手段，使物体的轮廓更清晰。算法透雾保留了画面的颜色信息。

光学透雾是一种软硬件结合的图像处理技术。在大雾环境中，它通过滤光片截取特定近红外波段光线，并采用针对红外波段成像特殊优化的镜头，利用雾气中的红外光进行成像。尽管画面只能是黑白图像，但整体透雾的效果有较大提升。

5．降噪

硬件处理电路由于其性能限制，在各类处理环节无法将噪声信号完全过滤，或在处理过程中引入新的噪声信号，最终图像呈现出不规则运动的图像噪点，导致图像清晰度下降。降噪技术就是对图像噪点进行去除和优化的技术，其基本原理是使各类噪声信号的加权平均和为零。

2D降噪即空域降噪技术，是对单帧画面中相关性较大的像素点进行加权平均。由于2D降噪对有效像素进行了加权平均，因此有效像素间差异减小，当2D降噪程度过大时，容易导致画面模糊。

3D降噪即时域、空域降噪同时作用的降噪技术。时域降噪是取视频中前后两帧相关性较大的像素点进行加权平均。任一像素点是由有效信号 X 和噪声信号 N 组合形成的，故而可描述为有效信号 Y = X + N 。对于静止画面的视频，前后两帧的同一像素可表述为：

Y ₁ = X ₁ + N ₁

Y ₂ = X ₂ + N ₂

两次信号加权即：

Y = Y ₁ + Y ₂ =（ X ₁ + X ₂ ）+（ N ₁ + N ₂ ）

由于画面静止， X ₁ ≈ X ₂ ，噪声信号加权后约等于零，故而 Y ≈2 X ₁ 。3D降噪效果对静止画面的降噪效果很好，但当画面运动时， X ₁ 和 X ₂ 相差较大，容易产生画面拖影问题。

6．图像拼接技术

图像拼接技术是指通过检测并提取图像的特征和关键点，进行算法比较，匹配两个画面内最接近的特征和关键点，并通过估算单应矩阵以及透视变换等算法处理，找到重叠的图片部分完成连接。如图2-8所示，左右两个镜头的画面完全无法直接拼接到一起，但是存在部分重叠的画面。

图2-8

如果我们将这些重叠部分缝合到一起，就可以获得全景画面了。算法处理就是将这两个画面缝合到一起的“针”。图2-9、图2-10、图2-11所示的是算法处理的实现过程。

图2-9

图2-10

图2-11

图像拼接技术目前在行业内的常见应用是鹰眼镜头、双拼双舱等设备，如图2-12所示为鹰眼镜头效果图，呈现出广角的预览画面。

图2-12

7．双光融合技术

双光融合技术能够在低照度的情况下保证画面的彩色，同时提高画面亮度、降低噪点。它在综合安防行业内的典型应用是黑光摄像机，所以双光融合技术也被称为黑光技术。

黑光摄像机有两个传感器（也叫双sensor架构），用于处理可见光和红外光其中的棱镜用于将可见光与红外光分离。可见光和红外光的波长存在差异，可见光波长通常在390nm～760nm，而红外光的波长一般在760nm～1mm。因此，通过棱镜，将两束不同波长的光线分离，经过两个传感器处理，可以得到可见光和红外光单独处理的效果。将两种效果进行融合即用算法合成，就可以输出一份清晰度高，同时也有色彩的图像，我们称之为黑光融合状态成像。图2-13所示为双光融合技术实现流程。

图2-13

双光融合技术无法应用于无光环境。无光环境中没有可见光，融合出来的画面只有红外光效果，呈现黑白色。而弱光环境中，可以采集一定的色彩，再配合红外光的清晰度与亮度，能够最大限度体现双光融合效果。

2.1.3　音频处理技术

在综合安防系统中，除了能看到，还需要听到。计算机想要处理自然界中的声音，需要通过专门的设备对声音进行采集。声音在采集的过程中被转换为计算机可以理解的二进制形式（即声音的数字化），用于后续的处理与存储。拾音器是常用的音频采集设备，它由话筒和音频放大电路构成，可以将自然界中的声音转换成电信号。在综合安防系统中拾音器常用于采集摄像机所处环境的声音。

1．噪声抑制

在语音通话的过程中，存在背景噪声太大无法听清正常话音的问题，音频系统对音频信号中含有的噪声进行抑制，以提高音频质量。

2．回音消除

在两方对讲的场景中，调度员在监控中心讲话，声音通过话筒传到室外摄像机外接的扬声器，扬声器发出的声音又被摄像机外接的拾音器拾取，传回到监控中心的音响，这样调度员就会听到自己讲话的回音。

回音消除技术采用回波抵消方法，通过自适应方法估计回波信号的大小，然后在接收信号中减去此估计值以抵消回波。

3．自动增益控制

自动增益控制是使音频放大电路的增益自动地随信号强度变化而调整的自动控制方法。当输入信号较强时，减小增益，使输出信号的强度减弱；当输入信号较弱时，增大增益，使输出信号的强度增强。

2.1 多媒体技术