计算机科学中的信息通常被认为是能够用计算机处理的有意义的内容或消息,如数值、文字、语言、图形、图像等,它们以数据的形式出现。信息不仅维系着人类的生存,而且在不断地推动着经济和社会的发展。
【熟记】数制的基本概念。
人们在生产实践和日常生活中创造了许多表示数的方法,常用的表示方法有十进制、钟表计时中使用的六十进制等。这些数的表示规则称为数制。
使用 R 个基本符号(如0,1,2,3,4,…, R -1)来表示数值,按 R 进位的方法进行计数,称为 R 进位计数制,简称 R 进制。数值中固定的基本符号称为数码。对于任意具有 n 位整数、 m 位小数的 R 进制数,有同样的基数 R 、位权 R i (其中 i =- m~n -1)和按权展开的表示式。
每个数码的实际值=数码的值×位权。而“按权展开”的意义就是求整个数的实际值,即整个数的实际值=每个数码的实际值之和,即每个数码的值×位权,然后相加。
了解了计数制的规律后,下面具体介绍二进制数、八进制数、十进制数和十六进制数的特点,如表1-1所示。
表1-1 二进制数、八进制数、十进制数和十六进制数的特点
注: i =- m~n -1, m 、 n 为自然数, m 和 n 分别代表数的小数部分、整数部分的位数。
二进制、十进制、十六进制是“数制”最基本的内容,要求考生能做到在一定数值范围内直接写出二进制、十进制和十六进制的对应关系。表1-2列出了十进制数0~15对应的二进制数和十六进制数。
表1-2 十进制数0~15对应的二进制数和十六进制数
【掌握】各进制数之间的转换。
非十进制数转换为十进制数的方法是按权展开。
【例1-1】二进制数110.01的基数为2,位权为2 i (其中 i =-2~2),转换为十进制数时,按权展开:
(110.01) 2 =1×2 2 +1×2 1 +0×2 0 +0×2 -1 +1×2 -2 =(6.25) 10
十六进制数B7E的基数为16,位权为16 i (其中 i =0~2),转换为十进制数时,按权展开:
(B7E) 16 =11×16 2 +7×16 1 +14×16 0 =(2942) 10
将十进制数转换为 R 进制数时,可将此数的整数与小数两部分分别进行转换,然后拼接起来。
十进制整数转换为二进制整数的方法是“除二取余法”,按以下操作步骤进行转换。
把十进制数除以2得一个商和余数,商再除以2又得一个商和余数,依次除下去,直到商为0。
以最先除得的余数为最低位,最后除得的余数为最高位,从最高位到最低位依次排列,便可得到这个十进制整数的等值二进制整数。
十进制小数转换为二进制小数采用“乘二取整法”,按以下操作步骤进行转换。
把十进制数乘以2得一个新数:若整数部分为1,则二进制小数相应位为1;若整数部分为0,则相应位为0。
从高位向低位逐个进行转换,直到满足精度要求或乘2后小数部分为0。
【例1-2】将十进制数(125.8125) 10 转换为二进制数。
因此,十进制数(125.8125) 10 转换为二进制数的结果为(1111101.1101) 2 。
同理,十进制数转换为八进制数时,整数部分采用“除八取余法”,小数部分采用“乘八取整法”;十进制数转换为十六进制数时,整数部分采用“除十六取余法”,小数部分采用“乘十六取整法”。
【例1-3】将十进制数(2606) 10 转换为十六进制数。
即(2606) 10 =(A2E) 16 。
由于16是2的4次幂,所以可以用4位二进制数来表示1位十六进制数。常见二进制数对应的十六进制数如表1-2所示。
(1)十六进制数转换为二进制数。
对每1位十六进制数,用与其等值的4位二进制数代替。
【例1-4】将十六进制数(1AC0.6D) 16 转换为二进制数。
即(1AC0.6D) 16 =( 1 1010 1100 0000 . 0110 1101 ) 2 。
在二进制数中,整数部分最左边的零、小数部分最右边的零都是没有实际意义的,书写时可以省略。
(2)二进制数转换为十六进制数。
二进制数转换为十六进制数的方法是从小数点开始,整数部分向左、小数部分向右每4位分成1节,整数部分最高位不足4位或小数部分最低位不足4位时补“0”,然后将每节依次转换为十六进制数,再把这些十六进制数连接起来,得到二进制数的等值十六进制数。
【例1-5】将二进制数(10111100101.00011001101) 2 转换为十六进制数。
即( 101 1110 0101 . 0001 1001 101 ) 2 =(5E5.19A) 16 。
同理,由于8是2的3次幂,所以可以用3位二进制数来表示1位八进制数。
【例1-6】将八进制数(2731.62) 8 转换为二进制数。
即(2731.62) 8 =( 010 111 011 001 . 110 010 ) 2 。
不同进制数转换的技巧:考生可以利用Windows 自带的“计算器”(单击“开始”→“所有程序”→“附件”→“计算器”)进行转换。
【熟记】数据在计算机内的常用单位及它们之间的换算方法。
在计算机内部,指令和数据都是用二进制数0和1表示的,因此计算机系统中的信息存储、处理也都是以二进制数为基础的。下面介绍计算机中二进制数的单位。
现代计算机中存储的数据是以字节为处理单位的,如一个ASCII(西文字符、数字)用一个字节表示,而一个汉字和一个国标图形符号用两个字节表示。在实际使用中,由于字节表示的量太小,所以常用KB、MB、GB和TB作为数据的存储单位。常见的存储单位如表1-3所示。
表1-3 常见的存储单位
计算机使用的数据可分为两类:数值数据和字符数据(非数值数据)。
在计算机中,不仅数值数据是用二进制数来表示的,字符数据(如各种字符和汉字)也都用二进制数进行编码。
【了解】不同字符的ASCII的大小。
【应用】比较常用的ASCII。
字符包括西文字符(字母、数字、各种符号)和中文字符,指所有不可做算术运算的数据。由于计算机是以二进制数的形式存储和处理数据的,因此字符也必须按特定的规则进行编码才能被计算机识别。
所谓“编码”,就是用二进制数来表示数据。
计算机中常用的字符(西文字符)编码标准有两种:EBCDIC和ASCII。IBM系列的大型计算机采用EBCDIC,微型计算机采用ASCII。下面主要介绍ASCII。
ASCII是美国信息交换标准代码(American Standard Code for Information Interchange)的英文缩写。该编码标准被国际标准化组织(International Organization for Standardization,ISO)采纳为国际通用的信息交换标准代码,是目前在微型计算机中普遍使用的字符编码。
ASCII有7位码和8位码两个版本。
大小写英文字母、阿拉伯数字、标点符号、控制符等字符都有对应的编码,表1-4中的每个字符都对应一个数值,这个数值称为该字符的ASCII值,排列次序为 b 6 b 5 b 4 b 3 b 2 b 1 b 0 ,其中 b 6 为最高位, b 0 为最低位。
表1-4 128个字符对应的7位ASCII值
ASCII表中共有34个非图形字符(又称为控制字符)。例如,回车的符号是CR(Carriage Return),编码是 0001101。其余94个可打印字符也称图形字符,将这些字符按ASCII值从小到大排列为0~9、A~Z、 a~z,其中小写字母比大写字母的ASCII值大32,即位 b 5 为0或1,这有利于大、小写字母之间的编码转换。有些特殊的字符编码是容易记忆的,例如,“A”字符的编码为1000001,对应的十进制数是65;“B”字符的编码为1000010,对应的十进制数是66。
计算机内部用一个字节(8位二进制数)存放一个7位ASCII,其最高位为0。
【了解】国标码与汉字内码的转换。
为使计算机可以处理汉字,需要对汉字进行编码。GB/T 2312—1980《信息交换用汉字编码字符集—基本集》(简称GB码或者国标码)是我国于1980年发布的汉字编码标准。国标码中的汉字分为94行、94列,代码表分为94个区(行)和94个位(列)。区位码由其中的区号(行号)和位号(列号)构成。4位十进制数字组成区位码,前面2位是区号,后面2位是位号。计算机进行汉字处理的过程实际上是各种汉字编码之间的转换过程。汉字编码有汉字输入码、汉字内码、汉字字形码、汉字地址码等。下面分别介绍各种汉字编码。
(1)汉字输入码。
汉字输入码是为使用户能够使用西文键盘输入汉字而编制的编码,也叫外码。
汉字输入码有许多不同的编码方案,它们大致分为以下几类。
● 音码:以汉语拼音字母和数字为汉字编码,例如全拼输入法和双拼输入法。
● 形码:根据汉字的字形结构对汉字进行编码,例如五笔字型输入法。
● 音形码:以拼音为主,字形、字义为辅,对汉字进行编码,例如自然码输入法。
● 数字码:直接用固定位数的数字给汉字编码,例如区位输入法。
同一个汉字在不同编码方案中的编码一般也不同,例如输入“嵌”字时,使用全拼输入法要输入编码“qian”(然后选字),而用五笔字型输入法要输入编码“mafw”。
(2)汉字内码。
汉字内码是为在计算机内部对汉字进行处理、存储和传输而编制的编码。不论采用何种输入码,输入的汉字都要先在计算机内部转换为统一的汉字内码,然后才能在计算机内进行传输、处理等。
目前,对应国标码,一个汉字内码也用两个字节存储。因为ASCII是西文的内码,为不使汉字内码与ASCII发生混淆,就把国标码每个字节的最高位1作为汉字内码。
【例1-7】汉字“大”的国标码是(3473) 16 ,将国标码加上(8080) 16 ,即可得到它的内码。
(3)汉字字形码。
汉字字形码是存放汉字字形信息的编码,它与汉字内码一一对应。每个汉字的字形码是预先存放在计算机内的,存放的位置常称为汉字库。计算机根据汉字内码在汉字库中查到其字形码,得知字形信息,然后实现汉字的显示或打印输出。
表示汉字字形的方法主要有点阵字形法和轮廓字形法两种。
下面具体介绍点阵字形法。
图1-1 汉字“工”的16×16点阵字形
由于汉字是由笔画组成的方块字,所以无论多少笔画的汉字都可以写在相同大小的方框里。如果用 m 行 n 列小圆点组成这个方框(称为点阵),那么每一个汉字都可以用点阵中的某些点组成。图1-1所示为汉字“工”的16×16点阵字形。
计算机用一组二进制数表示一个点阵。当某一点的二进制数是1时,该点为黑点,是0时为白点。一个16×16的点阵有256个点,需要16×16÷8=32字节的存储空间。同理,24×24点阵的汉字字形码需要24×24÷8=72字节的存储空间,32×32点阵的汉字字形码需要32×32÷8=128字节的存储空间。
显然,点阵中行、列数越多,锯齿越小,字形的质量越好,但存储汉字字形码需要的存储空间也越大。汉字字形通常分为通用型和精密型两类。
● 通用型汉字字形点阵分为简易型16×16点阵、普通型24×24点阵、提高型32×32点阵3种。
● 精密型汉字字形用于常规的印刷排版,字形点阵一般在96×96点阵以上,占用的字节量较大,因此精密型汉字字形通常采用信息压缩存储技术来存储。
(4)汉字地址码。
汉字地址码是指汉字库(这里主要指汉字字形的点阵式字库)中存储汉字字形信息的逻辑地址码。在汉字库中,字形信息都是按一定顺序(大多数按照标准汉字国标码中汉字的排列顺序)连续存放在存储介质中的,所以汉字地址码通常是连续、有序的,而且与汉字内码有着简单的对应关系,从而简化了汉字内码与汉字地址码的转换。
(5)各种汉字编码之间的关系。
汉字的输入、输出和处理的过程,实际上是汉字的各种编码之间的转换过程。
汉字通过汉字输入码输入计算机,然后通过输入字典转换为内码,以内码的形式进行存储和处理。在汉字通信过程中,处理机将汉字内码转换为适用于通信的交换码(汉字信息交换码,也叫国标码),以实现通信。
在汉字的显示和打印输出过程中,处理机根据汉字内码计算出汉字地址码,按汉字地址码从汉字库中取出汉字字形码,最终实现汉字的显示或打印输出。图1-2所示为这些编码在汉字信息处理系统中的地位及它们之间的关系。
图1-2 各种汉字编码在汉字信息处理系统中的地位及它们之间的关系
多媒体技术的实质是将以各种形式存在的媒体信息数字化,用计算机对它们进行组织与加工,并以友好的交互形式提供给用户使用。随着网络技术的发展,多媒体技术被广泛应用在商业、教育、文化娱乐等领域。本节将简单介绍多媒体技术的相关知识。
【了解】多媒体的特点。
与传统媒体相比,多媒体具有交互性、集成性、多样性、实时性等特点。
(1)交互性。
交互性是指多媒体系统向用户提供交互式使用、加工和控制信息的手段,从而使多媒体技术可应用于更加广阔的领域,为用户提供更加自然的信息存取手段。在多媒体系统中,用户可以主动地编辑、处理各种信息,实现人机交互。交互可以增强人们对信息的注意力和理解力,延长信息的保存时间。
(2)集成性。
多媒体技术集成了许多单一的技术,如图像处理技术、声音处理技术等。多媒体系统能够同时表示和处理多种信息,但对用户而言,这些信息是集成为一体的。这种集成表现在信息的统一获取、存储、组织、合成等方面。
(3)多样性。
多媒体技术的多样性不仅指图像、声音等信息表现形式的多样性,也指输入、传播、再现和展示信息的手段的多样性。多媒体技术使人们的思维不再局限于顺序、单调和狭小的范围,它扩大了计算机能处理的信息空间,使计算机不仅能处理数值、文本等,还能“得心应手”地处理更多种类的信息。
(4)实时性。
实时性是指多媒体系统中的声音、视频、图像都是实时的,这是多媒体系统的关键技术之一。多媒体系统能够综合处理具有时间关系的媒体,如音频、视频和动画,甚至实况信息媒体,这就意味着多媒体系统在处理信息时能够满足严格的时序要求和很高的速度要求。
多媒体个人计算机(Multimedia Personal Computer,MPC)是一种可以对多媒体信息进行获取、编辑、存储、处理和输出的计算机。
配置一台多媒体计算机需要以下部件。
● 一台高性能的微型计算机。
● 一些多媒体硬件,包括CD-ROM驱动器、声卡、视频卡、音箱(或耳机)等。另外,可以根据需要安装视频捕获卡、语音卡等插件,或安装数码相机、数字摄像机、扫描仪与触摸屏等采集与播放视频和音频的专用外部设备。
● 相应软件,包括支持多媒体的操作系统(如Windows XP、Windows Vista、Windows 7等)、多媒体开发工具和压缩/解压缩软件等。
在计算机和通信领域,最基本的媒体有声音和图像。
计算机系统通过输入设备输入声音信号,通过采样、量化操作将其转换为数字信号,然后通过输出设备输出。采样是指每隔一段时间对连续的模拟信号进行采集,每秒的采样次数即采样频率。采样频率越高,声音的还原性就越好。量化是指将采样后得到的信号转换为相应的二进制数值。量化位数一般为8位或16位。量化位数越大,采集到的样本精度越高,所需的存储空间也就越大。
采样和量化过程中使用的主要硬件是模拟/数字转换器(A/D转换器,它能实现模拟信号到数字信号的转换)和数字/模拟转换器(D/A转换器,它能实现数字信号到模拟信号的转换)。
经过采样、量化后,还需要对数值进行编码,即将量化后的数值转换为二进制数。有时也将量化和编码过程统称为量化。
最终产生的音频数据量按照以下公式计算。
音频数据量(B)=采样时间(s)×采样频率(Hz)×量化位数(b)×声道数÷8
存储声音信息的文件格式有很多种,如WAV、MIDI、VOC、AU及AIF等。
图像是多媒体中最基本、最重要的数据,图像有黑白图像、灰度图像、彩色图像、摄影图像等。在自然界中,景和物有两种形态,即动态和静态。静态图像根据其在计算机中生成的原理不同,可分为矢量图像和位图两种类型。动态图像根据获取方式的不同可分为视频和动画两种类型。
(1)静态图像的数字化。
一幅图像可以近似地看成是由许多点组成的,因此它的数字化通过采样和量化就可以完成。图像的采样是指采集组成一幅图像的点。量化是指将采集到的信息转换为相应的数值。组成一幅图像的每个点都称为一个像素,像素的值表示其颜色等属性信息。存储图像颜色的二进制数的位数称为颜色深度。
(2)动态图像的数字化。
人眼看到的一幅图像消失后,该图像还会在视网膜上滞留几毫秒,动态图像依据这样的原理,将静态图像以每秒 n 幅的速度播放,当 n ≥25时,显示在人眼中的就是连续的画面。
(3)点位图和矢量图。
表达或生成图像时通常有点位图和矢量图两种方法。点位图是指将一幅图像分成很多个像素,每个像素用若干二进制数表示其颜色等属性信息。矢量图是指用一些指令来表示一幅图像,如画一条200像素长的红色直线、画一个半径为100像素的圆等。
(4)文件格式。
图像文件的格式包括BMP、GIF、TIF、PNG、WMF、DXF等。
视频文件的格式包括AVI、MOV等。
【熟记】多媒体数据压缩的方式。
多媒体信息数字化后的数据量非常大,需要经过压缩才能满足实际需求。数据压缩分为无损压缩和有损压缩两种类型。
无损压缩是利用数据的统计冗余进行压缩的方式,又称可逆编码,其原理是统计被压缩数据中重复数据的出现次数并对该重复数据进行编码。无损压缩能够确保解压后的数据不失真,能实现对原始对象的完整复制。它的主要特点是压缩比较小,广泛应用于文本数据、程序以及重要图形和图像的压缩。常用的无损压缩编码方法如下。
(1)行程编码。
行程编码(Run Length Encoding,RLE)简单直观,编码和解码的速度快;其压缩比与压缩数据本身有关,行程长度大,压缩比就大。它适用于用计算机绘制的图像,如BMP、AVI格式的文件。由于彩色照片的色彩丰富,采用行程编码时压缩比会较小。
(2)熵编码。
根据信源符号出现概率的分布特性进行码率压缩的编码方式称为熵编码,也称统计编码。其目的是在信源符号和码字之间建立一一对应关系,以便在恢复时能准确地再现原信号,同时使平均码长或码率尽量小。熵编码包括霍夫曼编码和算术编码。
霍夫曼编码依据字符出现的概率来构造异字头的平均长度最短的码字,又称最佳编码。它将文件中出现频率较高的符号用较短的位序列代替,而将那些很少出现的符号用较长的位序列代替。这种方式一般用来压缩文本和程序文件。
算术编码与其他编码方法的不同之处在于,其直接将整个输入的信息编码为一个小数
。算术编码的优点是每个传输符号都不需要被编码成整数“比特”。虽然算术编码的实现方法比较复杂,但它的性能通常优于霍夫曼编码。
在人们从互联网接收的信息中,图像和视频占据了大部分,JPEG和MPEG作为常见的图像、视频格式,具有占用存储空间小、清晰度高等优点,被广泛应用于互联网信息传播中。JPEG标准是为静态图像建立的第一个国际数字图像压缩标准,也是现在应用最广的图像压缩标准。JPEG标准可以提供有损压缩,其压缩比是其他传统压缩算法无法比拟的。MPEG标准是一种高效的压缩标准,它规定了声音数据和电视图像数据的编码与解码过程、声音和数据之间的同步等问题的解决方案等。MPEG-1和MPEG-2标准为数字电视标准,MPEG-4是基于内容的压缩编码标准,MPEG-7是“多媒体内容描述接口标准”,MPEG-21是有关多媒体框架的协议。
有损压缩又称不可逆编码,是指压缩后的数据不能完全还原成压缩前的数据,解压后的数据与原始数据不同但是非常接近的压缩方法。有损压缩也称破坏性压缩,以损失文件中的某些信息为代价来换取较大的压缩比,其损失的信息多是对视觉和听觉感知不重要的信息。有损压缩的压缩比通常较大,常用于音频、图像和视频的压缩。典型的有损压缩编码方法如下。
(1)预测编码。
预测编码根据离散信号之间存在一定相关的特点,利用前面一个或多个信号对下一个信号进行预测,然后对实际值和预测值之差进行编码和传输,再在接收端把差值与实际值相加,恢复原始值。在同等精度下,预测编码能用比较少的“比特”进行编码,以达到压缩数据的目的。预测编码中典型的压缩方法有脉冲编码调制(PCM)、差分脉冲编码调制(DPCM)、自适应差分脉冲编码调制(ADPCM)等。
(2)变换编码。
变换编码先对信号进行某种函数变换,从一种信号空间变换到另一种信号空间,然后再对信号进行编码。变换编码包括变换、变换域采样、量化和编码4个步骤。典型的变换有离散余弦变换(DCT)、离散傅里叶变换(DFT)、沃尔什-哈达玛变换(WHT)、小波变换等。量化将处于取值范围 X 的信号映射到一个较小的取值范围 Y 中,压缩后的信号比原信号所需的比特数少。
(3)基于模型的编码。
如果把预测编码和变换编码等基于波形的编码称为第一代编码技术,则基于模型的编码就是第二代编码技术。其基本思想是在发送端利用图像分析模块对输入图像提取紧凑和必要的描述信息,得到一些数据量不大的模型参数;然后在接收端利用图像综合模块重建原图像,对图像进行合成。
(4)分形编码。
分形编码是利用分形几何中的自相似原理实现的。它先对图像进行分块,然后寻找各块之间的相似形(由仿射变换确定,一旦找到了每块的仿射变换,就保存这个仿射变换的系数)。由于每块的数据量远大于仿射变换的系数,所以图像得以大幅压缩。
(5)矢量量化编码。
矢量量化编码是在图像、语音信号编码技术中研究较多的新型量化编码方法之一。矢量量化是一种限失真编码方法,其原理仍可用信息论中的信息率失真函数理论来分析。