OpenCV 4.5计算机视觉开发实战：基于Python最新章节_朱文伟著

1.1　图像的基本概念

1.1.1　图像和图形

图像是照相机、摄像机、扫描仪等输入设备捕捉实际的画面产生的数字图像，是由像素点阵构成的位图。图像的取得是通过对物体和背景的“摄取”，这里指的“摄取”意味着一种“记录”过程。图像是对客观世界的反映，“图”是指物体透射光或反射光的分布，“像”是人的视觉对“图”的认识。“图像”是两者的结合。图像既是一种光的分布，又包含人的视觉心理因素。

图形是用数学规则产生的或具有一定规则的图案，由外部轮廓线条构成的矢量图。图形往往用一组符号或线条来表示，例如房屋设计图就是用线条来表现房屋结构的。图形用一组指令集合来描述图形的内容，如描述构成该图的各种图元位置、维数、形状等，描述对象可任意缩放而不会失真。图像和图形在一定条件下可向另一方转化。

1.1.2　数字图像及其特点

数字图像又称数码图像或数位图像，是二维图像用有限数值像素的表示。由数组或矩阵表示，其光照位置和强度都是离散的。数字图像是由模拟图像数字化得到，以像素为基本元素，可以用数字计算机或数字电路存储和处理的图像。

数字图像可以由许多不同的输入设备和技术生成，例如数码相机、扫描仪、坐标测量机等，也可以从任意的非图像数据合成得到，例如数学函数或者三维几何模型（计算机图形学的一个主要分支）。数字图像处理领域就是研究数字图像的变换算法。

数字图像有如下几个特点：

（1）信息量大

以像素数目较少的电视图像为例，它一般是由512×512个像素（8bit）组成，其总数据量为512×512×8bit=2097152bit=262144B=256KB。这么大的数据量必须由计算机处理才能胜任，并且计算机内存容量要大。为了运算方便，常需要几倍其数据量的内存。

（2）占用频带宽大

一般语言信息（如电话、传真、电传、电报等）的带宽仅4kHz左右，而图像信息所占用频率的带宽要大三个数量级。例如，普通电视的标准带宽是6.5MHz，等于语言带宽的14倍。在摄影、传输、存储、处理、显示等各环节的实现上技术难度大，因而对频带的压缩技术的要求是很迫切的。

（3）相关性大

每幅图像中相邻像素之间是很不独立的，并且具有很大的相关性，有时大片大片的像素间具有相同或接近的灰度。例如，就电视画面而言，前后两幅图像的相关系数往往在0.95以上，因此压缩图像信息的潜力很大。

（4）非客观性

图像信息的最终接收器是人的视觉系统。由于图像信息和视觉系统十分复杂，与环境条件、视觉特性、情结、精神状态、知识水平等有关，要求图像系统与视觉系统有良好的“匹配”，所以必须研究图像的统计规律和视觉特征。

1.1.3　图像单位

任意一幅数字图像粗看起来似乎是连续的，实际上是不连续的。数字图像由许多密集的细小点所组成，这些细点构成一幅图像的基本单元，称为像素。就像任何物质一样，肉眼看上去是连续的，实质上都是由各分子组成的。显然点子越多，像素越多，画面就越清晰。像素（或称像素点、像元，Pixel）是数字图像的基本元素。

每幅图片都是由色点组成的，每个色点称为一个像素。一幅图片由30万个色点组成，这幅图片的像素就是30万。我们常说相机是多少像素，其实说这款照相机的感光器件有多少个，有100万个感光器件的相机就是100万像素的相机，有4000万个感光器件的相机就是4000万像素，以此类推。一台100万像素的相机拍摄的照片洗成5寸的照片会比洗成6寸的清晰一点。

像素是在模拟图像数字化时对连续空间进行离散化得到的。每个像素具有整数行（高）和列（宽）位置坐标，同时每个像素都具有整数灰度值或颜色值。

像素点是最小的图像单元，一幅图片由好多的像素点组成。如图1-1所示的图片尺寸可以从其文件属性窗口（见图1-2）中查到，是500×338，即图片是由一个500×338的像素点矩阵构成的，这幅图片的宽度是500个像素点、高度是338个像素点，共有169000（500×338）个像素点。

比如，屏幕分辨率是1024×768，也就是说设备屏幕的水平方向上有1024个像素点，垂直方向上有768个像素点。像素的大小是没有固定长度的，不同设备上一个单位像素色块的大小是不一样的。例如，尺寸面积大小相同的两块屏幕，分辨率大小可以是不一样的，分辨率高的屏幕上像素点（色块）就多，所以屏幕内可以展示的画面就更细致，单个色块面积更小。分辨率低的屏幕上像素点（色块）更少，单个像素面积更大，可以显示的画面就没那么细致。

图1-1

图1-2

1.1.4　图像分辨率与屏幕分辨率

图像分辨率是指每英寸图像内的像素点数，单位是像素每英寸。分辨率越高，像素的点密度越高，图像越逼真（做大幅喷绘时要求图片分辨率要高就是为了保证每英寸的画面上拥有更多的像素点）。

屏幕分辨率是屏幕每行的像素点数乘以每列的像素点数。每个屏幕都有自己的分辨率，屏幕分辨率越高，所呈现的色彩越多，清晰度越高。

1.1.5　图像的灰度与灰度级

把白色与黑色之间按对数关系分为若干等级，称为灰度。灰度分为256阶，0为黑色。灰度就是没有色彩，RGB色彩分量全部相等，如RGB(100,100,100)就代表灰度为100，RGB(50,50,50)代表灰度为50。

一幅图像中不同位置的亮度是不一样的，可用 f ( x , y )来表示点( x , y )上的亮度。由于光是一种能量形式，因此亮度是非负有限的（0≤ f ( x , y )<∞）。在图像处理中，常用灰度和灰度级这个名称。在单色图像中，坐标( x , y )点的亮度称为该点的灰度或灰度级。设灰度为 L ，则 L _min ≤ L ≤ L _max 。间隔[ L _min , L _max ]称为灰度范围。

在室内处理图像时，一般 L _min ≈0.005Lux， L _max ≈100Lux。实际使用中，把这个间隔规格化为[0, L _max ]。其中， L _min (0)为黑色， L _max 为白色，所有在白色、黑色之间的值代表连续变化的灰度。

灰度级表明图像中不同灰度值的最大数量。灰度级越大，图像的亮度范围越大。灰度级有时会和灰度混淆。灰度（值）表示灰度图像单个像素点的亮度值，值越大，像素点越亮，反之越暗。

灰度级表示灰度图像的亮度层次，比如第一级、第二级、……、第255级等，如图1-3所示。

图1-3

在图1-3中，第0级的灰度是0，第1级的灰度是8，第2级的灰度是32……。每个等级都对应着某个灰度值。级数越多，图像的亮度范围越大，层次越丰富。有时，把最大级数称为一幅图像的灰度级数。

1.1.6　图像的深度

图像深度是指存储每个像素所用的位数，也用于量度图像的色彩分辨率。图像深度确定彩色图像的每个像素可能有的颜色数，或者确定灰度图像的每个像素可能有的灰度级数。它决定了彩色图像中可出现的最多颜色数，或灰度图像中的最大灰度等级。比如，一幅单色图像，若每个像素有8位，则最大灰度数目为2的8次方，即256。一幅彩色图像RGB三个分量的像素位数分别为4、4、2，则最大颜色数目为2的(4+4+2)次方，即1024，也就是说像素的深度为10位，每个像素可以是1024种颜色中的一种。

例如，一幅画的尺寸是1024×768，深度为16，则它的数据量为1.5MB，计算如下：

1.1.7　二值图像、灰度图像与彩色图像

二值图像（Binary Image）上的每一个像素只有两种可能的取值或灰度等级状态，可用黑白、B&W、单色图像表示。按名字来理解二值图像只有两个值，即0和1，0代表黑、1代表白，或者说0表示背景、1表示前景。其保存也相对简单一些，每个像素只需要1bit就可以完整存储信息。如果把每个像素看成随机变量，一共有 N 个像素，那么二值图像有2的 N 次方种变化，而8位灰度图有255的 N 次方种变化，8位三通道RGB图像有255×255×255的 N 次方种变化。也就是说同样尺寸的图像，二值图像保存的信息更少。

灰度图像（Gray Scale Image）又称灰阶图像，是指用灰度表示的图像。除了常见的卫星图像、航空照片外，许多地球物理观测数据也以灰度表示。我们平时看到的灰度图像是由0到255个像素组成的。

灰度图像是二值图像的进化版本，是彩色图像的退化版，也就是灰度图保存的信息没有彩色图像多，但比二值图像多。灰度图像只包含一个通道的信息，而彩色图像通常包含三个通道的信息，单一通道可以理解为单一波长的电磁波，所以红外遥感、X断层成像等单一通道电磁波产生的图像都为灰度图，而且在实际应用中，灰度图易于采集和传输等性质的存在，导致了基于灰度图像开发的算法非常丰富。

灰度图像是每个像素只有一个采样颜色的图像，通常显示为从最暗黑色到最亮白色的灰度，尽管理论上这个采样可以是任何颜色的不同深浅，甚至可以是不同亮度上的不同颜色。灰度图像与黑白图像不同，在计算机图像领域中黑白图像只有黑色与白色两种颜色，但是灰度图像在黑色与白色之间还有许多级的颜色深度。灰度图像经常是在单个电磁波频谱（如可见光）内测量每个像素的亮度得到的，用于显示的灰度图像通常用每个采样像素8位的非线性尺度来保存，这样可以有256级灰度（如果用16位，则有65536级）。

彩色图像也就是RGB图像，每个像素由3个通道进行表示。彩色图像的每个像素通常是由红（R）、绿（G）、蓝（B）三个分量来表示的，分量介于(0,255)。

1.1.8　通道

通道表示把图像分解成一个或多个颜色成分，通常可以分为单通道、三通道和四通道。

·　单通道表示一个像素点只需要一个数值表示。单通道只能表示灰度，0为黑色。单通道图像就是图像中每个像素点只需一个数值表示。

·　三通道表示把图像分为红、绿、蓝三个通道。三通道可以表示彩色，其中全0表示黑色。

·　四通道表示在RGB基础上加上alpha通道。alpha通道表示透明度，为0时表示全透明。

1.1.9　图像存储

在计算机中用 M × N 的矩阵表示一幅尺寸大小为 M × N 的数字图像，矩阵元素的值就是该图像对应位置上的像素值。三通道图像数据在内存中的存储是连续的，每个通道元素按照矩阵行列顺序进行排列，通常计算机按照RGB方式存储三通道图像格式，而图像采集设备输出图像格式一般是BGR方式。

1.1 图像的基本概念

1.1.1 图像和图形

1.1.2 数字图像及其特点

（1）信息量大

（2）占用频带宽大

（3）相关性大

（4）非客观性

1.1.3 图像单位

1.1.4 图像分辨率与屏幕分辨率

1.1.5 图像的灰度与灰度级

1.1.6 图像的深度

1.1.7 二值图像、灰度图像与彩色图像

1.1.8 通道

1.1.9 图像存储