(1)概述
①媒体是指文字、声音、图像、动画和视频等内容。
②多媒体技术是指能够同时对两种或两种以上的媒体进行采集、操作、编辑、存储等综合处理的技术。
③按照一些国际组织如国际电话电报咨询委员会(CCITT,现ITU)制定的媒体分类标准,可以将媒体分为感觉媒体、表示媒体、表现媒体、存储媒体和传输媒体五类。
(2)特征
①交互性
a.交互性是指多媒体系统向用户提供交互式使用、加工和控制信息的手段。在多媒体系统中用户可以主动地编辑、处理各种信息,具有人—机交互功能。
b.交互性是多媒体技术的关键特征,它可以增加对信息的注意力和理解力,延长信息的保留时间。
②集成性
多媒体技术中集成了许多单一的技术,能够同时表示和处理多种信息,但对用户而言,它们是集成一体的。这种集成包括信息的统一获取、存储、组织和合成等方面。
③多样性
a.多媒体信息、媒体输入、传播、再现和展示手段都是多样化的。
b.多媒体技术使人们的思维不再局限于顺序、单调和狭小的范围,扩大了计算机所能处理的信息空间。
④实时性
a.实时性是指在多媒体系统中声音及活动的视频图像是强实时的。
b.多媒体系统能够处理离散媒体,而且能够综合地处理带有时间关系的媒体。
c.实时性已经成为多媒体系统的关键技术。
(1)声音
①声音的数字化
a.声音的主要物理特征包括频率和振幅。
b.数字化是指将连续的模拟信号变成离散的数字信号,它的基本技术是脉冲编码调制(PCM)。
c.数字化的过程。
第一,采样
采样即是以固定的时间间隔对模拟波形的幅度值进行抽取,把时间上连续的信号变成时间上离散的信号。该时间间隔称为采样周期,其倒数称为采样频率。获取幅度值的时间间隔越短,记录的信息就越精确,因而需要确定一个合适的时间间隔。
第二,量化
获取到的样本幅度值用数字量来表示——这个过程称为量化。量化就是将一定范围内的模拟量变成某一最小数量单位的整数倍。表示采样点幅值的二进制位数称为量化位数,一般为8位、16位。量化位数越大,采集到的样本精度就越高,声音的质量就越高,需要的存储空间也就越大。
第三,编码
编码是将量化的结果用二进制数的形式表示。有时也将量化和编码过程统称为量化。
d.音频数据量的计算公式
音频数据量(B)=采样时间(s)×采样频率(Hz)×量化位数(b)×声道数/8。
②声音文件格式
a.WAV
第一,WAV是微软采用的波形声音文件存储格式,它是以“.wav”作为文件的扩展名,是最早的数字音频格式。
第二,它主要针对外部音源(麦克风、录音机)录制,然后经声卡转换成数字化信息,播放时还原成模拟信号由扬声器输出。
第三,WAV文件直接记录了真实声音的二进制采样数据,通常文件较大,多用于存储简短的声音片段。它是对声音信号进行采样、量化后生成的声音文件。
第四,WAV格式的数据量很庞大,需要进行数据压缩或是采用音乐合成的方式。
b.MPEG
第一,MPEG是指采用MPEG(.mp1/.mp2/.mp3)标准进行压缩的文件。
第二,MPEG音频文件的压缩是一种有损压缩,根据压缩质量和编码复杂程度的不同可分为3层(MPEG-l AudioPlayer 1/2/3),分别对应MP1、MP2、MP3这三种音频,压缩比分别为4:1、6:1~8:1、10:1~12:1。
第三,MP3文件的优点是压缩比高、制作简单、便于交换等。它非常适合在网上传播,是目前使用最多的音频格式文件,其音质稍差于AV文件。
c.RealAudio
第一,RealAudio文件是由Real Network公司推出的一种网络音频文件格式,采用了“音频流”技术。
第二,最大的特点是可以实时传输音频信息。
第三,RealAudio主要是用于网络上的在线播放。
第四,它主要有RA、RM、RMX3种格式,其共性在于随着网络带宽的不同而改变声音的质量,在保证大多数人听到流畅声音的前提下,使带宽较宽的听众获得较好的音质。
d.MIDI
第一,乐器数字接口(MIDI)文件规定了乐器、计算机、音乐合成器以及其他电子设备之间交换音乐信息的一组标准规定。
第二,MIDI文件的优点是比WAV文件小很多,易于编辑、处理;MIDI文件的缺点是播放声音的效果依赖于播放MIDI的硬件质量,整体效果都不如WAV文件。
第三,产生MIDI乐音的方法有很多种,常用的有FM合成法和波表合成法。
第四,MIDI文件的扩展名有“.mid”、“.rmi”等。
e.VOC
VOC文件是声霸卡使用的音频文件格式,它以“.voc”作为文件的扩展名。
f.其他的音频文件
其他的音频文件格式还有很多,例如,Au文件主要用在Unix工作站上,它以“.au”作为文件的扩展名;AIF文件是苹果机的音频文件格式,它以“.aif”作为文件的扩展名,等等。
(2)图像
①概述
a.图像一般是指自然界中的客观景物通过某种系统的映射,使人们产生的视觉感受。作为多媒体中最基本、最重要的数据,它有黑白图像、灰度图像、彩色图像、摄影图像等。
b.在自然界中,景和物有两种形态,即动和静。
第一,静止的图像称为静态图像。根据其在计算机中生成的原理不同,它分为矢量图形和位图图像两种。
第二,活动的图像称为动态图像。动态图像分为视频和动画。习惯上将通过摄像机拍摄得到的动态图像称为视频,而用计算机或绘画的方法生成的动态图像称为动画。
②分类
a.静态图像的数字化
第一,一幅图像的数字化通过采样和量化就可以得到。图像的采样就是采集组成一幅图像的点。量化就是将采集到的信息转换成相应的数值。
第二,组成一幅图像的每个点被称为是一个像素,每个像素的值表示其颜色、属性等信息。存储图像颜色的二进制数的位数,称为颜色深度。
b.动态图像的数字化
第一,人眼看到的一幅图像消失后,还将在视网膜上滞留几毫秒,动态图像正是根据这样的原理而产生的。
第二,动态图像是将静态图像以每秒钟n幅的速度播放,当n≥25时,显示在人眼中的就是连续的画面。
c.点位图和矢量图
第一,表达或生成图像通常有两种方法:点位图法和矢量图法。
第二,点位图法就是将一幅图像分成很多小像素,每个像素用若干二进制位表示像素的颜色、属性等信息。
第三,矢量图法就是用一些指令来表示一幅图。
d.图像文件格式
第一,bmp文件:Windows采用的图像文件存储格式。
第二,gif文件:供联机图形交换使用的一种图像文件格式,目前在网络上被广泛采用。
第三,tiff文件:二进制文件格式。广泛用于桌面出版系统、图形系统和广告制作系统,也可以由于一种平台到另一种平台间图形的转换。
第四,png文件:图像文件格式,其开发的目的是替代GIF文件格式和TIFF文件格式。
第五,wmf文件:绝大多数Windows应用程序都可以有效处理的格式,其应用很广泛,是桌面出示系统中常用的图形格式。
第六,dxf文件:一种向量格式,绝大多数绘图软件都支持这种格式。
e.视频文件格式
第一,avi文件:Windows操作系统中数字视频文件的标准格式。
第二,mov文件:QuickTime for Windows视频处理软件所采用的视频文件格式,其图像画面的质量比AVI文件要好。
第三,ASF是高级流格式,主要优点包括:本地或网络回放、可扩充的整体类型、部件下载以及扩展性好等。
第四,WMV(Windows媒体视频)是微软推出的视频文件格式,是WindeMedia的核心,使用Windows Media Player可播放ASF和WMV两种格式的文件。
(1)无损压缩(可逆编码)
①概述
a.无损压缩是利用数据的统计冗余进行压缩,其原理是统计被压缩数据中重复数据的出现次数来进行编码。它能够确保解压后的数据不失真,是对原始对象的完整复制。
b.解压缩是对压缩的数据进行重构,重构后的数据与原来的数据完全相同。
c.无损压缩的主要特点是压缩比较低,一般为2:1~5:1,通常广泛应用于文本数据、程序以及重要图形和图像的压缩。
d.常用的无损压缩算法包括行程编码、霍夫曼编码、算术编码、Lzw编码等。
②分类
a.行程编码
第一,特点:简单直观,编码和解码速度快;其压缩比与压缩数据本身有关。对于彩色照片,由于色彩丰富,采用行程编码压缩比会较小。
第二,适用范围:计算机绘制的图像如BMP、AVI格式文件。
b.熵编码(统计编码)
第一,定义:根据信源符号出现概率的分布特性进行码率压缩的编码方式称为熵编码。
第二,目的:在信源符号和码字之间建立明确的一一对应关系,以便在恢复后准确地再现原信号,同时要使平均码长或码率尽量小编码。
第三,分类:霍夫曼编码和算术编码。
其中,算术编码的优点是每个传输符号不需要被编码成整数“比特”,其性能优于霍夫曼编码。
③标准
a.JPEG标准
第一,它是第一个针对静止图像压缩的国际标准。
第二,JPEG标准制定了两种基本的压缩编码方案:以离散余弦变换为基础的有损压缩编码方案和以预测技术为基础的无损压缩编码方案。
第三,JPEG 2000与JPEG最大的不同之处在于,它采用以离散小波变换为主的多解析编码方式。它将彩色静态画面采用的JPEG编码方式与二值图像采用的JBIG编码方式统一起来,成为适应各种图像的通用编码方式。
b.MPEG标准
第一,它规定了声音数据和电视图像数据的编码和解码过程、声音和数据之间的同步等问题。
第二,MPEG-1和MPEG-2是数字电视标准,其内容包括MPEG电视图像、MPEG声音及MPEG系统等内容。MPEG-4是1999年发布的多媒体应用标准,其目标是在异种结构网络中能够具有很强的交互功能并且能够高度可靠地工作。MPEG-7是多媒体内容描述接口标准,其应用领域包括数字图书馆、多媒体创作等。
(2)有损压缩(不可逆编码)
①概述
a.有损压缩是指压缩后的数据不能够完全还原成压缩前的数据,与原始数据不同但是非常接近的压缩方法。
b.有损压缩又称破坏性压缩,以损失文件中某些信息为代价来换取较高的压缩比,其损失的信息多是对视觉和听觉感知不重要的信息,但压缩比通常较高,一般为几十到几百,常用于音频、图像和视频的压缩。
②分类
a.预测编码
第一,预测编码是根据离散信号之间存在着一定相关性的特点,利用前面一个或多个信号对下一个信号进行预测,然后对实际值和预测值之差进行编码和传输。在接收端把差值与实际值相加,恢复原始值。在同等精度下,就可以用比较少的“比特”进行编码,达到压缩的目的。
第二,预测编码中典型的压缩方法有脉冲编码调制(PCM)、差分脉冲编码调制(DPCM)、自适应差分脉冲编码调制(ADPCM)等,它们较适合于声音、图像数据的压缩。
b.变换编码
第一,定义
变换编码是指先对信号进行某种函数变换,从一种信号空间变换到另一种信号空间,然后再对信号进行编码。
第二,步骤
变换编码的步骤分四步:变换、变换域采样、量化和编码。
变换只把信号映射到另一个域,使信号在变换域里容易进行压缩,变换后的样值更独立和有序。典型的变换有离散余弦变换DCT、离散傅里叶变换(DFT)、沃尔什一哈达码变换(WHT)和小波变换等。
量化是将处于取值范围X的信号映射到一个较小的取值范围Y中,压缩后的信号比原信号所需的比特数减少。
c.基于模型编码
第一,如果把以预测编码和变换编码为核心的基于波形的编码称作第一代编码技术,则基于模型的编码就是第二代编码技术。
第二,基于模型编码的基本思想是:在发送端,利用图像分析模块对输入图像提取紧凑和必要的描述信息,得到一些数据量不大的模型参数;在接收端,利用图像综合模块重建原图像,是对图像信息的合成过程。
d.分形编码
第一,分形编码法的目的是发掘自然物体在结构上的自相似形,这种自相似形是图像整体与局部相关性的表现。
第二,分形编码利用了分形几何中的自相似的原理:首先对图像进行分块,然后寻找各块之间的相似形(其描述主要是依靠仿射变换确定)。一旦找到了每块的仿射变换,就保存这个仿射变换的系数。
第三,分形编码、基于模型编码与经典图像编码方法相比,在思维上有了很大的突破,理论上的压缩比可超出经典编码方法两三个数量级。
e.矢量量化编码
第一,在矢量量化编码中,它把输入数据几个一组地分成许多组,成组地量化编码,即:将这些数看成一个k维矢量,然后以矢量为单位逐个矢量进行量化。
第二,矢量量化是一种限失真编码,其原理仍可用信息论中的信息率失真函数理论来分析。