购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.3 多媒体技术简介

多媒体技术是一门跨科学的综合技术,它使得高效而方便地处理文字、声音、图像和视频等多种媒体信息成为可能。不断发展的网络技术又促进了多媒体技术在教育培训、多媒体通信、游戏娱乐等领域的应用。在本节中将介绍多媒体的特征、多媒体的数字化和多媒体数据的压缩。

1.3.1 多媒体的特征

在日常生活中媒体(Medium)是指文字、声音、图像、动画和视频等内容。多媒体(Multimedia)技术是指能够同时对两种或两种以上的媒体进行采集、操作、编辑、存储等综合处理的技术。多媒体技术集声音、图像、文字于一体,集电视录像、光盘存储、电子印刷和计算机通信技术之大成,将人类引入更直观、更加自然、更加广阔的信息领域。

按照一些国际组织如国际电话电报咨询委员会(CCITT,现ITU)制定的媒体分类标准,可以将媒体分为感觉媒体、表示媒体、表现媒体、存储媒体和传输媒体五大类。

多媒体技术具有交互性、集成性、多样性、实时性等特征,这也是它区分于传统计算机系统的显著特征。

1.相互性

人们日常通过看电视、读报纸等形式单向地、被动地接受信息,而不能双向地、主动地编辑、处理这些媒体的信息。在多媒体系统中用户可以主动地编辑、处理各种信息,具有人—机交互功能。交互性是多媒体技术的关键特征,没有交互性的系统就不是多媒体系统。交互性是指多媒体系统向用户提供交互式使用、加工和控制信息的手段,从而为应用开辟了更加广阔的领域,也为用户提供更加自然的信息存取手段。交互可以增加对信息的注意力和理解力,延长信息的保留时间。

2.集成性

多媒体技术集成了许多单一的技术,如图像处理技术、声音处理技术等。多媒体能够同时表示和处理多种信息,但对用户而言,它们是集成一体的。这种集成包括信息的统一获取、存储、组织和合成等方面。

3.多样性

多媒体信息是多样化的,同时也指媒体输入、传播、再现和展示手段的多样化。多媒体技术使人们的思维不再局限于顺序、单调和狭小的范围。这些信息媒体包括文字、声音、图像、动画等,它扩大了计算机所能处理的信息空间,使计算机不再局限于处理数值、文本等,使人们能得心应手地处理更多信息。

4.实时性

实时性是指在多媒体系统中声音及活动的视频图像是强实时的(Hard Realtime)。多媒体系统提供了对这些媒体实时处理和控制的能力。多媒体系统除了像一般计算机一样能够处理离散媒体,如文本、图像外,它的一个基本特征就是能够综合地处理带有时间关系的媒体,如音频、视频和动画,甚至是实况信息媒体。这就意味着多媒体系统在处理信息时有着严格的时序要求和很高的速度要求。当系统应用扩大到网络范围之后,这个问题将会更加突出,会对系统结构、媒体同步、多媒体操作系统及应用服务提出相应的实时化要求。在许多方面,实时性确实已经成为多媒体系统的关键技术。

1.3.2 媒体的数字化

多媒体信息可以从计算机输出界面向人们展示丰富多彩的文、图、声信息,而在计算机内部都是转换成0和1后进行处理和存储的。

1.声音

(1)声音的概述

声音是一种重要的媒体,其种类繁多,如人的语言、动物的声音、乐器声、机器声等。声音是通过一定介质(如空气、水等)传播的连续波,在物理学中称为声波。声波是连续变化的模拟量,它有振幅、周期和频率三个重要指标。

1)振幅

声音的振幅通常是指音量,它是声波波形的高低幅度,表示声音信号的强弱程度。

2)周期

声音信号的周期是指两个相邻声波之间的时间长度,即重复出现的时间间隔,以秒(s)为单位。

3)频率

声音信号的频率是指每秒信号变化的次数,即周期的倒数,以赫兹(Hz)为单位。

音频信号是一种连续变化的模拟信号,而计算机只能处理和记录数字信号,所以音频信号要经过一定的处理变成二进制数据后才能交给计算机进行编辑与保存。模拟音频与数字音频在录制、保存和播放的过程中区别都很大。模拟音频的录制是声音波形的记录,将波形所对应的电信号存储在不同的介质上,如磁带、唱片等。播放的时候将介质上的信号还原为声音波形,然后放大输出。数字音频是将模拟的声音信号变换为计算机能够识别的二进制数据进行加工处理,播放时将数字信号还原为模拟信号,然后放大输出。

(2)声音的基本特点

声音有以下几个特点:

1)声音的传播方式

声音的传播必须依靠介质(如空气、水等)的振动进行传播。声源依靠自身的振动,带动周围的介质进行振动,并以波的形式进行传播。人耳通过耳膜感觉到传播过来的振动,再反映到大脑,就听到了声音。声音在不同介质中的传播速度和衰减率都是不一样的,这两个因素导致了声音在不同介质中传播的距离不同。

2)声音的频率范围

声音按频率可分为三种:次声波、可听声波和超声波。人类听觉能听到的声音频率范围为20Hz~20kHz。声音频率低于20Hz的为次声波,高于20KHz的为超声波。人的发声器官发出的声音频率是80Hz~3 400Hz,但是人说话的声音频率通常为300Hz~30 000Hz,在这种频率范围内的信号称为语音信号。频率范围又叫“频域”或“频带”,不同种类的声源的频带宽度差异很大。一般情况下,声源的频带越宽,表现力越好,层次也越丰富。例如,调频广播的声音比调幅广播好、宽带音频设备的重放声音质量比高级音响设备的重放声音质量好。尽管宽带音频设备的频带已经超出人耳可听范围,但正是因为这一点,它把人们的感觉和听觉充分地调动起来,产生了极佳的声音效果,部分常见声源的频带宽度如表6-1所示。

3)声音的传播方向

声音以振动波的形式从声源向四周传播,人类在辨别声源的位置时,首先依靠声音到达左、右耳的微小时间差和强度差异进行辨别,然后经过大脑综合分析,判断出声音来自哪个方位。从声源直接达到人类听觉器官的声音叫“直达声”;直达声的方位最容易辨别。但是,在现实生活中,我们周围存在森林、建筑等各种障碍物,声音多是从声源出发后,经过多次反射才到达人的耳朵,被人们所听到,这种声音被称为“反射声”。

4)声音的三要素

声音的三要素是音调、音强和音色。

①音调

音调即声音的高低,与声音的频率有关,频率越高,音调越高,通过调整声音的频率能够改变音调。不同的声源有它自己特定的音调,如果改变了声音的音调,则声音会发生质的转变,使人们无法辨别声源本来的样子。

②音强

音强即声音的响度,又可称为音量。音强与声波的振幅成正比,振幅越大,音强越大。唱片、CD盘以及其他形式的声音载体中的音强是一定的,通过播放设备的音量控制,可以改变聆听时的响度。如果要改变原始声音的音强,可以在声音数字化以后,使用音频控制软件提高音强。

③音色

音色指声音的感觉特性,与波形相关。声音分纯音和复音两种类型。所谓纯音,是指振幅和周期均为常数的声音;复音则是具有不同频率和不同振幅的混合声音,自然声中大部分声音是复音。在复音中,最低频率的声音是“基音”,它是声音的基调;其他频率的声音称为“谐音”。

(3)声音的数字化

声音用电表示时,声音信号是在时间和幅度上都连续的模拟信号。而计算机只能存储和处理离散的数字信号。将连续的模拟信号变成离散的数字信号就是数字化。数字化的基本技术是脉冲编码调制(Pulse Code Modulation,PCM),主要包括采样、量化、编码3个基本过程。

为了记录声音信号,需要每隔一定的时间间隔获取声音信号的幅度值,并记录下来——这个过程称为采样。采样即是以固定的时间间隔对模拟波形的幅度值进行抽取,把时间上连续的信号变成时间上离散的信号。该时间间隔称为采样周期,其倒数称为采样频率。显而易见,获取幅度值的时间间隔越短,记录的信息就越精确,由此带来的问题是:需要更多的存储空间。因此,需要确定一个合适的时间间隔,既能记录足够复现原始声音信号的信息,又不浪费过多的存储空间。

根据奈奎斯特采样定理,当采样频率大于或等于声音信号最高频率的两倍时,就可以将采集到的样本还原成原声音信号。例如:人的语音频率一般在80~3 400Hz之间,则采样频率选为8kHz就能基本上还原人的语音信号。

获取到的样本幅度值用数字量来表示——这个过程称为量化。量化就是将一定范围内的模拟量变成某一最小数量单位的整数倍。表示采样点幅值的二进制数称为量化位数,它是决定数字音频质量的另一重要参数,一般为8位、16位。量化位数越大,采集到的样本精度就越高,声音的质量就越高。当量化位数越多,需要的存储空间也就越多。

记录声音时,每次只产生一组声波数据,称单声道;每次产生两组声波数据,称双声道。双声道具有空间立体效果,但所有占空间比单声道多一倍。

经过采样、量化后,还需要进行编码,即将量化后的数值转换成二进制码组。编码是将量化的结果用二进制数的形式表示。有时也将量化和编码过程统称为量化。

最终产生的音频数据量按照下面公式计算:

音频数据量(B)=采样时间(S)×采样频率(Hz)×量化位数(b)×声道数/8

例如,计算3min双声道,16位量化位数,44.1kHz采样频率声音的不压缩的数据量为:

音频数据量=180×44 100×16×2/8=31 752 000B≈30.28MB

(4)声音文件格式

数字音频以文件的形式保存在计算机里。数字音频文件的保存格式常用的主要有WAV、MP3、WMA、MIDI、RA、CDA等。专业数字音乐工作者一般使用非压缩的WAV格式进行操作,而普通用户更乐于接受压缩比高、文件量相对较小的MP3或WMA格式。

1)WAVE文件

WAV是微软采用的波形声音文件存储格式,它是以“.wav”作为文件的扩展名,是Windows操作系统专用的数字音频文件格式,是微软公司和IBM公司共同开发的PC标准声音格式,是最早的数字音频格式。主要针对外部音源(麦克风、录音机)录制,然后经声卡转换成数字化信息,播放时还原成模拟信号由扬声器输出。WAV文件直接记录了真实声音的二进制采样数据,没有采用压缩算法,通常文件较大,多用于存储简短的声音片段。它是对声音信号进行采样、量化后生成的声音文件。

在Windows平台下,WAV格式是被支持得最好的音频格式,所有音频软件都能完美支持。由于本身可以达到较高的音质的要求,因此,WAV也是音乐编辑创作的首选格式,适合保存音乐素材。

2)MP3文件

MPEG是指采用MPEG(.mp1/.mp2/.mp3)音频压缩标准进行压缩的文件。MPEG音频文件的压缩是一种有损压缩,根据压缩质量和编码复杂程度的不同可分为3层(MPEG-1 Audio Player1/2/3),分别对应MP1、MP2、MP3这三种音频文件,压缩比分别为4∶1、6∶1~8∶1、10∶1~12∶1。其中MP3文件因为其压缩比高、音质接近CD、制作简单、便于交换等优点,非常适合在网上传播,是目前使用最多的音频格式文件。

动态影像专家压缩标准音频层3(Moving Picture Experts Group Audio Layer Ⅲ,MP3)距今已有将近30年的历史,诞生于德国。MP3是指MPEG标准中的声音部分的压缩方式。MP3通过记录未压缩的数字音频文件的音高、音色和音量信息,在它们相对变化不大时,用同一信息代替,并且用一定的算法对原始的声音文件进行代码替换处理,这样就可以将原始数字音频文件压缩,得到相对于压缩前很小的MP3文件。该格式的文件的特点是压缩比高、文件数据量小、音质好,能够通过多种播放器进行播放,压缩比约在10∶1左右。如未压缩的10MB左右的CD音质的音乐,经过MP3压缩以后只有1MB左右,且音质能够保证基本不失真,但是同CD音质相比,MP3要差很多。

3)WMA文件

WMA(Windows Media Audio)是微软公司力推的一种音频格式,是一种压缩的离散文件或流式文件。这种格式是以减少数据流量但保持音频的方法来达到更高的压缩比,其压缩比一般可以达到18∶1,生成的文件大小只有相应MP3文件的一半。MP3播放器通常都支持WMA文件的播放。

与以往的编码方式不同,WMA支持防复制功能,它支持通过Windows Media Rights Manager加入保护,可以限制播放时间和播放次数甚至播放的机器等。WMA支持流技术,即支持一边读一边播放,因此WMA可以很轻松地实现在线广播。

4)RA文件

RealAudio文件是由Real Network公司推出的一种网络音频压缩文件格式,采用了“音频流”技术,它的压缩比可以达到96∶1,其最大的特点就是可以实时传输音频信息,尤其是在网速较慢的情况下,仍然可以较为流畅地传送数据,因此RealAudio主要适用于网络上的在线播放。现在的RealAudio文件格式主要有RA(RealAudio)、RM(RealMedia,RealAudio G2)、RMX(RealAudio Secured)3种,这些文件的共性在于随着网络带宽的不同而改变声音的质量,在保证大多数人听到流畅声音的前提下,使带宽较宽的听众获得较好的音质。与WMA一样,RA不但支持边读边播放,还支持使用特殊协议来隐匿文件的真实网络地址,从而实现只在线播放而不提供下载的欣赏方式。它最大的特点是充分利用宽频资源发挥音质潜力,适用于线上收听。

5)MIDI文件

乐器数字接口(Musical Instrument Digital Interface,MIDI)不是数字化的声音,它是规定了乐器、计算机、音乐合成器以及其他电子设备之间交换音乐信息的一组标准规定。MIDI文件中的数据记录的是一些关于乐曲演奏的内容,而不是实际的声音。因此MIDI文件要比WAV文件小很多,而且易于编辑、处理。MIDI文件的缺点是播放声音的效果依赖于播放MIDI的硬件质量,但整体效果都不如WAV文件。产生MIDI音乐的方法有很多种,常用的有FM合成法和波表合成法。MIDI文件记录的是一系列指令而不是数字化后的波形数据,其MIDI文件的扩展名有“.mid”、“.rmi”等。

6)VOC文件

VOC文件是声霸卡使用的音频文件格式,它以“.voc”作为文件的扩展名。

7)APE文件

APE是一种无失真压缩格式。这种格式的压缩比远低于其他格式,能够做到真正无损,因此获得了不少用户的青睐。在现有的不少无失真压缩方案中,APE文件的特点是音质非常好,适用于高品质的音乐欣赏及收藏。APE是一种有着突出性能的格式,有令人满意的压缩比和压缩速度,成为不少用户交流发烧音乐的一个选择。

其他的音频文件格式还有很多,例如,AU文件主要用在Unix工作站上,它以“.au”作为文件的扩展名;AIF文件是苹果机的音频文件格式,它以“.aif”作为文件的扩展名,等等。

2.图像

图像是多媒体中最基本、最重要的数据,图像有黑白图像、灰度图像、彩色图像、摄影图像等。计算机能够记录和处理的只能是数字信息,而我们通常所接触的自然景象或图像是模拟信号,在交于计算机进行处理前需要通过一些设备进行的必要的数字转换,例如,通过数码相机、扫描仪等将模拟信号转换成数字图像。

所谓图像一般是指自然界中的客观景物通过某种系统的映射,使人们生产的视觉感受。例如照片、图片和印刷品等。在自然界中,景和物有两种形态,即动和静。静止的图像称为静态图像;活动的图像称为动态图像。静态图像根据其在计算机中生成的原理不同,分为矢量图形和位图图像两种。动态图像又分为视频和动画。习惯上将通过摄像机拍摄得到的动态图像称为视频,而用计算机或绘画的方法生成的动态图像称为动画。

(1)图像与图形

表达或生成图像通常有两种方法:点位图法和矢量图法。点位图法就是将一幅图像分成很多小像素,每个像素用若干二进制位表示像素的颜色、属性等信息。矢量图法就是用一些指令来表示一幅图,如画一条100像素长的红色直线、画一个半径为50个像素的圆等。

1)位图图像

一幅图像可以近似地看成是由许许多多的点组成的,因此它的数字化通过采样和量化就可以得到。图像的采样就是采集组成一幅图像的点。量化就是将采集到的信息转换成相应的数值。组成一幅图像的每个点被称为是一个像素,像素是能够独立赋予颜色和亮度的最小单位。每个像素的值表示其颜色、属性等信息。存储图像颜色的二进制数的位数,称为颜色深度。如3位二进制数可以表示8种不同的颜色,因此8色图的颜色深度是3。真彩色图的颜色深度是24,可以表示16 777 412种颜色。

通常情况下,位图图像可以通过扫描仪或者数码相机得到的图像。由于位图图像是由多个像素组成的,所以它不是独立的图形对象,如果要编辑其中部分区域的图像,必须精确选取需要编辑的像素,再进行编辑处理。能够处理位图图像的软件有Photoshop、PhotoDraw等。

2)图像的数字化

①图像的获取

图像的获取方式有很多,按采集途径的不同可以分为外部采集和内部采集。外部采集主要通过数码相机、扫描仪等获取计算机外部的图像信息;内部采集主要是用存储设备、网络视频抓图等方式获取图像信息。图像的获取途径主要有以下几种:

⟡绘图软件

图像编辑软件一般都具备图像的绘制、编辑加工处理的功能,同时能够进行色彩、纹理、图案等的填充和加工处理。对于一些常用的小型图标或徽标等绘制或处理起来很方便。

⟡扫描仪

扫描仪是一种可以将静态图像输入计算机中的图像输入设备,是快速获取全彩色数字图像最简单的工具。各种漂亮的图片、照片以及各类报纸杂志资料等都可以通过扫描仪扫描后输入计算机中,以实现对这些图像的编辑处理以及输出。相对于手工录入文本,扫描文本效率要高很多。扫描仪扫描图片时,受分辨率的影响很大,扫描仪的分辨率越高,获得的数字图像中像素就越多,对原始图像中的细节部分表现就越强,数据量也会越大。色彩位数是评价扫描仪性能的另一个重要参数,色彩位数越高,所能得到色彩的范围越大,对颜色的区分越细腻。一般的扫描仪至少是30位色,好一点的能够达到36位色。另外还有灰度、扫描速度以及能够支持的幅面类型也都是评价扫描仪的指标。

⟡数码相机

数码相机是一种光、电、机一体化的产品,与胶片相机相比,数码相机可以通过拍摄景物很轻易地得到数字图像,无论是专业的摄影人员还是普通百姓都能够使用它拍摄出精美的照片。而且数码相机均有标准接口,可以很容易地将拍摄的照片转到计算机中,应用相当广泛。

⟡从屏幕上获取图像

用户可以利用键盘上的“Print Screen”键或者屏幕图像捕捉软件对屏幕上的图像进行截取并保存,成为可以利用的图像资源。常用的一些视频播放器通常都具备抓图的功能,能够从当前播放的视频中捕捉图像。

⟡网络获取图像

Internet日益普及,且资源相当丰富,通过网络能够获取我们想要的大部分信息资源,图像也不例外。我们可以在网络上找到自己想要的图像资源,通过下载工具下载到本地计算机即可进行再利用。

⟡从存储设备中获取图像

磁盘、光盘等是重要的存储设备,这些设备上可以存放大量的图片资源,我们可以通过复制的方式从这些设备上获取想要的图片资源,并进行编辑利用。

②图像的采样

图像的采样就是将连续的图像转换成离散的数字信号的过程。通常情况下,一幅图像可以由若干行与若干列的像素构成,如水平方向上有M行像素,竖直方向上有N列像素,这样整幅图片就由M×N个像素构成,M×N也被称为图像的分辨率。描述图像的像素越多图像越清晰,存储量也越大。

③图像的量化

采样得到的亮度值在空间上是连续的,把采样后所得到的这些连续表示的像素值离散化为整数值的过程被称为量化。在量化时,所确定的离散整数值的个数称为量化级数,表示量化的亮度值所需要的二进制位数被称为量化字长,也称为图像的深度。一般用8位、16位、24位和32位来表示图像的颜色,用24位来表示的颜色被称为真彩色。通常情况下,黑白图的颜色深度为1位,灰度图的颜色深度为8位,占用1字节,灰度级别为256级。

④图像的编码与压缩

图像的编码就是按照一定的格式将图像采样、量化以后所得的离散数据记录下来。分辨率和像素位的颜色深度决定了图像文件的大小,分辨率越高,颜色深度值越大,图像数据量也就越大。图像数字化后最主要的特征之一就是数据量比较大,如一幅640*480像素的“24位真彩色”图像的数据量可达到1MB。这样的数据量给网络传输以及数据存储带来了较大的压力。因此,对于数字图像的存储和传输都要对数据进行压缩处理。一般情况是将原始数据压缩后存放在磁盘上或者传输,当用到它时才把数据解压缩以还原。

3)图像的特征

现实中的图像是一种模拟信号,而计算机能够存储、编辑、处理的只能是经过数字化处理的图像。所以计算机处理图像之前必须进行图像的数字化处理,使之成为计算机能够接受的显示和存储格式。

①分辨率

分辨率是影响图像显示质量的重要因素,它分为图像分辨率和显示分辨率。

⟡图像分辨率是用来确定组成一幅图像的像素数目,图像分辨率用每英寸点数(Dots Per Inch,DPI)表示,是图像像素密度的度量方法。图像分辨率越高,组成该图像的像素数目越多,看起就越逼真。

⟡显示分辨率是确定屏幕上显示图像的区域的大小,即构成全屏显示的像素的个数。显示分辨率用每英寸像素(Pixels Per Inch,PPI)表示。例如,通常使用的计算机屏幕分辨率设置为1 024*768像素,它分为当前显示分辨率和最大显示分辨率,当前显示分辨率由当前设置的参数决定,最大显示分辨率由物理硬件性能决定,如显示器、显卡性能等。对于同样大小的显示器,显示分辨率越高,像素的密度就越大,在字号相同的情况下字体显示就越小。

②颜色深度

颜色深度是指记录每个像素所使用的二进制位数,颜色深度值越大,显示的图像色彩越丰富,组成的画面越好看,但是数据量也越大。实际应用中,彩色图像和灰度图像的颜色分别用4位、8位、16位、24位、32位二进制表示,如8位的颜色深度能够表示256种颜色。

③颜色类型

颜色分为真彩色、伪彩色和调配色三种类型。

①真彩色是指图像中的每个像素值都分成R、G、B三个基色。每个基色分量决定其基色的强度,这样产生的颜色称为真彩色。如一幅图像的像素深度为24位,分3个8位来表示R、G、B三个基色分量,可以表示的颜色为2 8 ×2 8 ×2 8 =2 24 种,也称为24位颜色,即真彩色或全彩色。

②伪彩色图像中,图像的每个像素值不代表颜色,而是颜色索引值或代码值,该值是色彩查找表中某一项的入口地址。根据这个索引值可以查找出包含实际的R、G、B的强度值,通过这种索引映射的方法产生的色彩称为伪彩色。

③调配色是通过每个像素的R、G、B分量分别作为单独的索引值进行变换。经相应的色彩变换表找出各自的基色强度,用变换后的R、G、B强度值产生的色彩。调配色的效果一般比伪彩色要好。

4)图像的数据量

图像的数据量与图像的分辨率、图像的颜色深度均有关系。图像的分辨率越高、颜色深度值越大,图像效果越逼真,数据量也越大。图像的数据量按如下公式计算:

图像数据量(Byte)=图像的总像素*颜色深度/8(B)

当一幅图像是分辨率为640×480像素的“24位真彩色”图像,则其文件大小为:640×480×24/8≈1MB。

5)图像文件格式

①BMP格式

BMP是一种与硬件设备无关的图像文件格式,使用范围非常广。它采用位映射存储格式,除了颜色深度可选以外,不采用其他任何压缩,因此,BMP文件所占用的空间很大。BMP文件的颜色深度可选1位、4位、8位及24位。BMP文件存储数据时,图像的扫描方式是按从左到右、从下到上的顺序。

由于BMP文件格式是Windows环境中交换与图有关的数据的一种标准,因此在Windows环境中运行的图形图像软件都支持BMP图像格式。

②JPEG格式

JPEG是由联合图像专家组(Joint Photographic Experts Group)指定的压缩标准,是一种有损压缩算法。他能够用有损压缩的方式去除图像的冗余数据,虽然压缩比比较高,但仍然能生动形象地展示图像。JEPG格式适合处理各种连续色调的彩色或灰度图像(如风景、人物照片),目前的浏览器也都支持JPEG图像格式,因为此格式的文件下载速度快,所以其也广泛应用于Web网页。目前绝大多数数码相机和扫描仪可直接生成JPEG格式的图像文件。

③GIF格式

GIF(Graphics Interchange Format,图像交换格式)是美国CompuServe公司开发的图像文件格式。GIF格式属于无损压缩算法,并支持透明背景,同时支持线图、灰度图和索引图像,支持最大的颜色数为256色。GIF格式压缩比高、磁盘空间占用少、下载速度快、可以存储简单的动画。GIF格式的图像还采用了累进显示方式,即在图像传输过程中,用户可以先看到图像的轮廓,随着传输过程的继续而逐步看到图像的细节,所以它被广泛应用于Internet。

④TIFF格式

TIFF(Tag Image File Format)称为标记图像文件格式,一般是二进制文件格式。支持多种压缩方法,大量应用于图像的扫描和桌面出版方面。它的特点是图像格式复杂、存储细微层次的信息较多,有利于原稿的复制,但占用的存储空间也非常大。

⑤PSD格式

PSD格式是图像处理软件Photoshop的专用格式(Photoshop Document)。PSD格式包含Photoshop软件在设计图像过程中的各种图层通道等设计记录,以便于对所设计图像进行修改。在各种图像格式中,PSD的存取速度比其他格式快很多,但是只有很少的几种图像处理软件能够读取此格式。

⑥PNG格式

PNG(Portable Network Graphic,便携式网络图像)是网上较新的图像文件格式。它是目前保证最不失真的格式,采用无损压缩方式来减小文件,它吸取了GIF和JPEG两种图像格式的优点,存储形式丰富。用PNG来储存灰度图像时颜色深度可达16位,存储彩色图像时颜色深度可达48位。PNG格式具有很快的显示速度,但不支持动画。

⑦ICO格式

格式的图像称为图标(Icon)文件,用来定义程序、文档和快捷方式的图标。同一个ICO文件中可以包含16×16像素、32×32像素、48×48像素等多种分辨率和多种颜色的图标,用于在不同的场合显示。这种格式的图像数据量一般比较小。

6)矢量图形

矢量图形即我们通常所说的图形,它主要是由计算机软件绘制得到的。它是用一个集合指令来描述构成幅图形所要包含的所有信息,如直线、矩形、圆、圆弧、曲线等的形状、位置、颜色等各种属性和参数,然后通过数学公式计算得到图形。显示图形时需要相应的软件读取和解释这些指令,再通过数学公式计算最终转换成屏幕上所能显示的颜色和形状,当数据量较大的时候,显示的速度也会变慢。

通常所用的AutoCAD、3ds MAX等软件处理的就是图形,图形只保存算法和特征点的信息,无论是处理还是再现均需要通过重新计算得到,相对于数据量偏大的图像来说,矢量图形占用的存储空间较小,但是相对来说,矢量图所表达的图片信息效果不如位图图像所表达的信息。如果制作一些标志性的简单内容或者一些真实感不是很强的内容时可以选用矢量图形,如徽标、动画等。矢量图形放大或缩小都不失真。

7)矢量图形与位图图像的区别

矢量图形与位图图像最大的区别是,矢量图形不受分辨率的影响,可以在屏幕上任意地放大、缩小、改变比例和扭曲等,图形不会因为上述操作而影响清晰度和质量。位图图像中,每个像素所占用的二进制位数与整个图像所能表达的颜色数目有很大的关系。颜色数目越多,占用的二进制位数越多,位图图像的数据量也会随之迅速增加。例如,一幅256种颜色的位图图像,每个像素需要占用1字节;而一幅真彩色的位图图像,每个像素需要占用3字节,是256色图像的3倍。

(2)视频与动画

1)视频概述

①视频的特点

视频的图像是运动的,内容随时间的变化而变化,伴随的声音与运动图像同步。信息容量较大,集成了影像、声音、文本等多种信息。

②模拟视频

模拟视频信号的图像和声音信息在时间和幅度上都是连续的。早期视频的获取、存储和传输都采用模拟方式。人们在电视上所见到的视频图像就是以模拟电信号的形式进行记录,并以模拟调幅的方式在空间进行传播,再用磁带录像机将其模拟信号记录在磁盘上。模拟信号在处理和传输的过程中有一定的衰减,不适于网络传输,不便于分类检索和编辑,且无论记录的视频画面多么清晰,经过长时间存放后,其质量都会有显著的下降,经过多次复制后,画面会有明显失真,影响观看效果。

③数字视频

模拟视频转换为数字视频的过程也称为视频的数字化,模拟视频通过采样、量化、编码可以得到数字视频,数字视频是基于数字技术记录视频信息的,它在时间和幅度上都是离散的,它克服了模拟视频的许多不足,降低了视频信号传输和存储的成本,可以无限次地复制而不会产生失真,便于计算机编辑处理或者二次创作。

④扫描

电视图像是电子束在荧光屏上扫描产生的,扫描分为隔行扫描和逐行扫描。在逐行扫描中,电子束从显示屏的左上角一行接一行地扫到右小角,扫描一遍显示一帧完整的图像。隔行扫描中,电子束先扫描奇数行,再扫描偶数行,因此一帧图像由两次扫描得到,分别称为奇数场和偶数场。

与隔行扫描相比,逐行扫描的显示图像更稳定,被计算机显示器和电视机所广泛采用。

⑤电视制式

世界各国采用的电视制式主要有以下三种,它们具有不同的扫描特性。

⟡PAL制式

PAL是德国1962年研制的一种电视制式。它的特点是每秒25帧,每帧625行。水平分辨率为240~400像素,隔行扫描,扫描频率为50Hz,宽高比例为4∶3。本制式主要应用于中国、澳大利亚、南非,以及欧洲、南美洲等国家和地区。

⟡NTSC制式

NTSC是1953年美国研制的一种兼容的彩色电视制式。它的特点是每秒30帧,每帧526行,水平分辨率为240~400像素,隔行扫描,扫描频率为60Hz,宽高比例为4∶3。本制式主要被美国、加拿大、墨西哥、日本等国家采用。

⟡SECAM制式

SECAM是法国于1965年提出的一种标准。它的特点是每秒25帧,每帧625行,隔行扫描,扫描频率为50Hz,宽高比例为4∶3。扫描特性与PAL制式类似,差别在于SECAM中的色度信号是由频率调制的,两个色差信号是按行的顺序传输的。本制式主要应用于法国、俄罗斯、东欧和中东等国家和地区。

2)动态图像的数字化

人眼看到的一幅图像消失后,还将在视网膜上滞留几毫秒,动态图像正是根据这样的原理而产生的。动态图像是将静态图像以每秒钟n幅的速度播放,当n≥25时,显示在人眼中的就是连续的画面。

模拟视频进入计算机前需要进行数字化处理,即模数转换和色彩空间变换等。视频数字化是指在一段时间内以一定的速度对视频信号进行捕捉并加以采样后,形成数字化数据的处理过程。获取数字视频信息主要有两种方式:一种是将模拟视频信号数字化,即在一段时间内以一定的速度对连续的视频信号进行采集。所谓采集是将模拟的视频信号经硬件设备数字化,然后将数据存储起来。在编辑和播放视频信息时,再将数据从存储介质中读出,经过硬件设备还原成模拟信号输出。这种方法需要用录像机、摄像机及视频捕捉卡。录像机和摄像机负责采集实际景物,视频采集卡将模拟的视频信号数字化;另一种是利用数字摄像机拍摄实际景物,从而直接获得无失真的数字视频信号。

3)视频文件数据压缩

视频的数据压缩实际上就是对视频图像信号的数据压缩,它是根据一帧画面的图像内容特点和相邻画面的图像内容特点进行压缩的。

动态图像实际上是由一幅幅静态图像组成的。由于人眼存在时间错觉,将相邻间隔的图像连续地播放出来便形成了活动的图像,这是形成动态图像的根本。

对于连续变化的相邻图像,相邻图像画面越接近,错觉感越高;画面变化越多,错觉感越低。相邻的图像实际上是时间上的感觉,因而时间错觉感越高,压缩处理也就越容易;时间错觉感越低,压缩处理也就越难。

4)视频文件格式

视频的文件格式一般与其使用的标准有关,常见的有AVI文件格式、MOV文件格式、MPG文件格式等。

①AVI文件格式

音频视频交错格式(Audio Video Interleaved,AVI)是Video for Windows的标准格式。它是一种将视频信息与同步音频信号结合在一起存储的多媒体文件格式。它以帧为存储动态视频的基本单位,在每一帧中,都是先存储音频数据,再存储视频数据。整体看起来,音频数据和视频数据相互交叉存储。播放时,音频流和视频流交叉使用处理器的存取时间,保持同期同步。这种格式不仅解决了音频和视频的同步问题,而且具有通用和开放的特点。它可以在任何版本的Windows环境下工作,且具有扩展功能。AVI的优点是兼容性好、调用方便、图像质量好、缺点是文件的数据量大、所需的存储空间大。

②MOV文件格式

MOV文件是Quick Time视频处理软件所选用的视频文件格式,用于保存音视频信息,其文件的扩展名为.mov,MOV格式的视频文件可以采用不压缩或压缩方式。它具有先进的视频和音频功能,多种操作系统都支持它的运行,其图像画面的质量比AVI文件要好。

③MPEG文件格式

动态图像专家组(Moving Pictures Experts Group,MPEG)由国际标准化组织(International Standards Organization,ISO)与国际电工委员会(International Electrotechnical Commission,IEC)于1988年联合成立,专门致力于运动图像(MPEG视频)及其伴音编码(MPEG音频)的标准化工作。MPEG是运动图像压缩算法的国际标准,现已被绝大多数的计算机平台支持。它包括MPEG-1,MPEG-2和MPEG-4。MPEG-1被广泛地应用于视频压缩盘片(Video Compact Disk,VCD)的制作,绝大多数的VCD采用MPEG-1格式压缩。MPEG-2应用在数字视频光盘(Digital Video/Versatile Disk,DVD)的制作方面以及高清晰电视广播(High Definition Television,HDTV)和一些高要求的视频剪辑、处理方面。MPEG 4是一种新的压缩算法,使用这种算法的高级流格式(Advanced Streaming Format,ASF)可以把一部120分钟长的电影压缩为300MB左右的视频流,可供用户在网上观看。MPEG格式视频的文件扩展名通常是“.mpeg”或“.mpg”。

④WMV文件格式

WMV(Windows Media Video,Windows媒体视频)是微软公司推出的一种数字流媒体格式,是Windows Media的核心,是一种在Internet上实时传播多媒体数据的技术标准,使用Windows Media Player可播放ASF和WMV两种格式的文件。在同等视频质量下,WMV格式的体积非常小,因此很适合在网上播放和传输。

⑤RM文件格式

RM(RealMedia)是RealNetworks公司所定制的音频视频压缩规范,是目前在Internet上跨平台的客户/服务器结构的多媒体应用标准。用户可以使用播放器对符合RealMedia技术规范的网络音频/视频资源进行实况转播,并且RealMedia可以根据不同的网络传输速率制定出不同的压缩比率,从而实现在低速率的网络上进行影像数据实时传送和播放,满足人们边下载边播放的需要。RealMedia标准的多媒体文件又称为流媒体格式文件,其扩展名为“.rm”、“.ram”或“.ra”。

⑥MKV文件格式

MKV是一种新的多媒体封装格式,这个封装格式可以把多种不同编码的视频及不同格式的音频和语言不同的字母封装到一个文件中。它也是一种开放源代码的多媒体封装格式。MKV同时还可以提供非常好的交互功能,而且比MPEG文件更方便、强大。

⑦ASF文件格式

ASF(Advanced Stream Format)是高级流格式,主要优点包括:本地或网络回访、可扩充的媒体类型、部件下载以及扩展性好等。

5)计算机动画概述

①计算机动画的概念

计算机动画是在传统动画的基础上发展起来的,传统动画实际上是采用连续播放静止图像的方法产生物体运动的效果。计算机动画是指利用人的视觉暂留的生理特性采用图形与图像的处理技术,借助于编程或动画制作软件生成一系列的可以实时播放的景物画面,其中当前帧是前一帧的部分修改。

②动画的视觉原理

人的视觉系统具有“视觉暂留”的特性,即人观察过物体后,物体的影像在人的视网膜上会有短暂的停留。如果一系列的每次变化很小的图像连续播放,就容易使人误认为物体是运动的,而视频以及动画均是利用这一特性实现的。实验证明,如果动画或电影的画面刷新频率为每秒24帧左右,则人眼能够看到连续的画面效果。每秒24帧的速率是电影放映的标准,它能够有效地使运动的画面连续流畅。但是每秒24帧的刷新频率会使人眼感觉到画面的闪烁,要消除闪烁感画面刷新频率还要提高一倍,因此电影画面的刷新频率实际上的每秒48帧。

③计算机动画的特点

计算机动画的原理与传统动画的原理基本相同,只是在传统动画的基础上把计算机技术用在动画的处理和应用中。使用动画可以清晰地表现出一个事件的过程,或是展现出一个活灵活现的画面。计算机动画的关键技术体现在计算机动画制作的软件及硬件上。动画制作软件是由计算机专业人员开发的制作动画的工具,而动画设计制作人员只需要简单交互操作或简单的脚本编写就能够实现复杂的动画效果。目前的计算机动画制作软件很多,不同的动画软件、硬件,制作出的动画效果也不同。虽然制作的复杂程度不同,但是动画制作的基本原理是一样的。运动是动画的本质要素,计算机动画是采用连续播放静止图像的方法产生景物运动的效果。运动泛指使画面发生改变的动作,不仅包括景物的运动,还包括虚拟摄像机的运动、纹理、色彩的变化等,输出的方式也有很多种。

④计算机动画的分类

根据研究角度的不同,计算机动画可以有多种分类方法。根据运动的控制方式可将计算机动画分为实时动画和逐帧动画两种。根据画面景物的透视效果及真实感程度,计算机动画分为二维动画和三维动画两种。根据计算机处理动画的方式不同,计算机动画分为造型动画、帧动画和算法动画三种。根据动画的表现效果分,计算机动画又可分为路径动画、调色板动画和变形动画三种。

⑤动画与视频的区别

动画与视频主要从产生画面的形式进行区分,动画的画面是通过设计人员进行设计创作后由计算机生成的画面,并不存在于自然界或者是对自然界的模拟,而视频的每一帧画面为实时获得的景物图像,一般由摄像机摄制而成。

6)动画文件的格式

计算机动画现在应用得比较广泛,由于应用领域不同,其动画文件也存在着不同类型的存储格式。计算机动画可分为传统的位图动画和矢量动画。位图和矢量也不是绝对对立的,在很多动画制作软件中,两种格式能够被同时使用。目前比较流行的动画文件形式是GIF动画和Flash动画,它们也是互联网上使用最为广泛的动画形式。

①GIF格式

GIF采用无损数据压缩方法中的压缩比较高的LZW算法,文件较小。它不仅是图像文件格式,还可以在一个文件中存放多幅彩色图像,如果把存在于一个文件中的多幅图像数据逐幅读出并显示到屏幕上,就可以构成一种最简单的动画。

②SWF格式

SWF格式是Macromedia公司的产品Flash的矢量动画格式,它采用曲线方程描述其内容,而不是由点阵组成内容,因此这种格式的动画在缩放时不会失真,非常适合描述由几何图形组成的动画,如教学演示等。这种格式的动画可以与HTML文件充分结合,并能添加MP3音乐,因此被广泛地应用于网页上,成为一种“准流式媒体文件”。

1.3.3 多媒体数据压缩

多媒体信息数字化之后,其数据量往往非常庞大。为了存储、处理和传输多媒体信息,人们考虑采用压缩的方法来减少数据量。通常是将原始数据压缩后存放在磁盘上或是以压缩形式来传输,仅当用到它时才把数据解压缩以还原,以此来满足实际的需求。

1.无损压缩

数据压缩可以分为两种类型:无损压缩和有损压缩。无损压缩是利用数据的统计冗余进行压缩,又称可逆编码,其原理是统计被压缩数据中重复数据的出现次数来进行编码。解压缩是对压缩的数据进行重构,重构后的数据与原来的数据完全相同。无损压缩能够确保解压后的数据不失真,是对原始对象的完整复制。

无损压缩的主要特点是压缩比较低,一般为2∶1~5∶1,通常广泛应用于文本数据、程序以及重要图形和图像(如指纹图像、医学图像)的压缩。如压缩软件WinZip、WinRAR就是基于无损压缩原理设计的,因此可用来压缩任何类型的文件。但由于压缩比的限制,所以仅使用无损压缩技术不可能解决多媒体信息存储和传输的所有问题。常用的无损压缩算法包括行程编码、霍夫曼编码(Huffman)、算术编码、LZW(Lempel Ziv Welch)编码等。

1)行程编码

行程编码(Run-Length Encoding,RLE)简单直观,编码和解码速度快。其压缩比与压缩数据本身有关,行程长度大,压缩比就高,适用于计算机绘制的图像如BMP、AVI格式文件。对于彩色照片,由于色彩丰富,采用行程编码压缩比会较小。

2)熵编码

根据信源符号出现的概率的分布特性进行码率压缩的编码方式称为熵编码,也叫统计编码。其目的在于在信源符号和码字之间建立明确的一一对应关系,以便在恢复时能准确地再现原信号,同时要使平均码长或码率尽量小。熵编码包括霍夫曼编码和算术编码。

3)算术编码

算术编码的优点是每个传输符号不需要被编码成整数“比特”。虽然算术编码实现方法复杂一些,但通常算术编码的性能优于霍夫曼编码。

JPEG标准:是第一个针对静止图像压缩的国际标准。JPEG标准制定了两种基本的压缩编码方案:以离散余弦变换为基础的有损压缩编码方案和以预测技术为基础的无损压缩编码方案。JPEG成员对多幅图像的测试结果表明,算术编码比霍夫曼编码提高了5%左右的效率,因此在JPEG扩展系统中用算术编码取代了霍夫曼编码。JPEG 2000与JPEG最大的不同之处在于,它放弃了JPEG所采用的以离散余弦变换为主的区块编码方式,而采用以离散小波变换为主的多解析编码方式。此外,JPEG 2000还将彩色静态画面采用的JPEG编码方式与二值图像采用的JBIG编码方式统一起来,成为适应各种图像的通用编码方式。

MPEG标准:规定了声音数据和电视图像数据的编码和解码过程、声音和数据之间的同步等问题。MPEG-1和MPEG-2是数字电视标准,其内容包括MPEG电视图像、MPEG声音及MPEG系统等内容。MPEG-4是1999年发布的多媒体应用标准,其目标是在异种结构网络中能够具有很强的交互功能并且能够高度可靠地工作。MPEG-7是多媒体内容描述接口标准,其应用领域包括数字图书馆、多媒体创作等。

2.有损压缩

有损压缩又称不可能编码,有损压缩是指压缩后的数据不能够完全还原成压缩前的数据,与原始数据不同但是非常接近压缩方法。有损压缩也称破坏性压缩,以损失文件中某些信息为代价来换取较高的压缩比,其损失的信息多是对视觉和听觉感知不重要的信息,但压缩比通常较高,一般为几十到几百,常用于音频、图像和视频的压缩。

典型的有损压缩编码方法有预测编码、变换编码、基于模型编码、分形编码及矢量量化编码等。

1)预测编码

预测编码是根据离散信号之间存在着一定相关性的特点,利用前面一个或多个信号对下一个信号进行预测,然后对实际值和预测值之差进行编码和传输。在接收端把差值与实际值相加,恢复原始值。在同等精度下,就可以用比较少的“比特”进行编码,达到压缩的目的。

预测编码中典型的压缩方法有脉冲编码调制(Pulse Code Modulation,PCM)、差分脉冲编码调制(Differential Pulse Code Modulation,DPCM)、自适应差分脉冲编码调制(Adaptive Differential Pulse Code Modulation,ADPCM)等,它们较适合于声音、图像数据的压缩,因为这些数据由采样得到,相邻采样值之间相差不会很大,可以用较少位来表示。

2)变换编码

变换编码是指先对信号进行某种函数变换,从一种信号空间变换到另一种信号空间,然后再对信号进行编码。如将时域信号变换到频域,因为声音、图像信号在频域中其能量相对集中在直流及低频部分,高频部分则只包含少量的细节,如果去除这些细节,并不影响人类对声音或图像的感知效果,所以对变换后的信号进行编码,能够大大压缩数据。

变换编码包括四个步骤:变换、变换域采样、量化和编码。变换本身并不进行数据压缩,它只把信号映射到另一个域,使信号在变换域里容易进行压缩,变换后的样值更独立和有序。典型的变换有离散余弦变换DCT、离散傅里叶变换(Discrete Fourier Transform,DFT)、沃尔什—哈达码变换(Walsh-Hadamard Translation,WHT)和小波变换等。量化将处于取值范围X的信号映射到一个较小的取值范围Y中,压缩后的信号比原信号所需的比特数减少。

3)基于模型编码

如果把以预测编码和变换编码为核心的基于波形的编码称作第一代编码技术,则基于模型的编码就是第二代编码技术。

基于模型编码的基本思想是:在发送端,利用图像分析模块对输入图像提取紧凑和必要的描述信息,得到一些数据量不大的模型参数;在接收端,利用图像综合模块重建原图像,是对图像信息的合成过程。

4)分形编码

分形编码法的目的是发掘自然物体(如天空、云雾、森林等)在结构上的自相似形,这种自相似形是图像整体与局部相关性的表现。分形编码正是利用了分形几何中的自相似的原理来实现的。首先对图像进行分块,然后寻找各块之间的相似形,这里相似形的描述主要是依靠仿射变换确定的。一旦找到了每块的仿射变换,就保存这个仿射的系数。由于每块的数据量远大于仿射变换的系数,因而图像得以大幅度的压缩。

分形编码以其独特新颖的思想,成为目前数据压缩领域的研究热点之一。分形编码以及基于模型编码与经典图像编码方法相比,在思想和思维上有了很大的突破,理论上的压缩比可超出经典编码方法两三个数量级。

5)矢量量化编码

矢量量化编码也是在图像、语音信号编码技术中研究得较多的新型量化编码方法之一。在传统的预测和变换编码中,首先将信号经某种映射变换变成一个数的序列,然后对其逐个进行标量量化编码。而在矢量量化编码中,则是把输入数据几个一组地分成多组,成组地量化编码,即:将这些数看成一个k维矢量,然后以矢量为单位逐个进行量化。矢量量化是一种限失真编码,其原理仍可用信息论中信息率失真函数理论来分析。 9L9HCl/w1cd+ggB8uA+qWc72n7lZfddIF2bGZPTJR5wxqm4mfgJlmDqDY/K2ClQy

点击中间区域
呼出菜单
上一章
目录
下一章
×