【专题名称】
多媒体知识(软件设计师)
【主要内容概述】
本讲主要介绍作为一个专业软件开发从业人员应该掌握的多媒体方面的基础知识,特别是音频、视频的格式、图形和图像的处理过程。
【专题知识重点】
多媒体设备的性能、媒体文件的格式、音频和视频的计算方法、图形和图像文件特征
【专题授课内容】
1)色彩空间
彩色空间是彩色图像所使用的颜色描述方法。在PC机和多媒体系统中,表示图形和图像的颜色常常涉及不同的彩色空间,如RGB彩色空间、CMY彩色空间、YUV彩色空间等。不同的彩色空间对应着不同的应用场合,各有其特点,因此,数字图像的生成、存储、处理及显示时对应着不同的彩色空间,任何一种颜色都可以在上述彩色空间中被精确地进行描述。
(1)RGB彩色空间:计算机中的彩色图像一般都用R、G、B分量表示。彩色显示器通过发射出三种不同强度的电子束,使屏幕内侧覆盖的红、绿、蓝磷光材料发光而产生色彩。这种彩色表示方法称为RGB彩色空间表示法。因为彩色显示器的输入需要R、G、B彩色分量,所以通过三个分量的不同比例,在显示屏幕可合成任意所需要的颜色。无论多媒体系统的中间过程采用什么形式的彩色空间表示,最后的输出一定要转换成RGB彩色空间表示。
(2)CMY彩色空间:彩色打印的纸张是不能发射光线的,它只能使用能够吸收特定的光波而反射其他光波的油墨或颜料来实现。用油墨或颜料进行混合得到的彩色称为相减混色。之所以称为相减混色,是因为减少(吸收)了人眼识别颜色所需要的反射光。根据三基色原理,通常油墨或颜料的三基色是青、品红和黄。可以用这三种颜色的油墨或颜料按不同的比例混合成任何一种由油墨或颜料表现的颜色。这种彩色表示方法称为CMY彩色空间。
(3)YUV彩色空间:在现代彩色电视系统中,通常采用三管彩色摄像机或彩色CCD摄像机,把摄得的彩色图像信号,经过分色、放大和校正得到RGB三基色,再经过矩阵变换得到亮度信号Y和两个色差信号U(R—Y)、V(B—Y),最后发送端将亮度和两个色差信号分别进行编码,用同一信道发送出去。这就是通常常用的YUV彩色空间。电视图像一般都是采用Y、U、V分量表示,其亮度和色度是分离的,解决了彩色和黑白显示系统的兼容问题。如果只有Y分量而没有U、V分量,那么所表示的图像是黑白灰度图像。
视频信息数字化的过程比声音复杂一些,它是以一幅幅画面为单位进行的。电视信号使用的彩色空间是YUV空间,即每幅画面有亮度(Y)和色度(U、V)三个分量,对这三个分量需分别进行取样和量化,得到一幅数字图像。由于人眼对色度信号的敏感程度远不如对亮度信号那么灵敏,因此色度信号的取样频率可以比亮度信号的取样频率低一些,以减少数字视频的数据量。目前使用的色度信号取样格式有4:4:4格式、4:2:2格式、4:1:1格式等。
2)音频文件格式
模拟录音方式直接记录音频信号的波形,重放时用磁头拾取信号。目前模拟录音动态范围可达到80db(分贝,信噪比的单位),为进一步提高音质,采用数字音频技术。
计算机内的音频必须是数字形式的。数字声音是一个数据序列,是一种采样的声音,它是由模拟声音经抽样、量化和编码后得到的。
在对音频数据进行压缩时,需要从语音质量、数据率和计算量3个方面来加以考虑。
语音压缩编码从压缩方法来看,可分为3类。
Ø 波形编码:采用这种编码可获得高质量语音,但数据率不易降低。
Ø 参数编码:该方法的数据率低,但质量又不高。
Ø 混合编码:综合前面两种方法的编码方法。
语音、语言和音乐合成
语音合成从合成采用的技术来讲可分为:
Ø 发音参数合成
Ø 声道模型参数合成
Ø 波形编辑合成
实现计算机语音输出有两种方法:一.录音/重放;二.文-与转换;
语言合成目前和仅处于文字到语音转换的层次上。文-语转换(TTS)是一种智能型的语音合成,需要建立语音参数数据库、发音规则库等。
音乐合成技术有两种。
◆调频(FM)合成:FM合成方式是将多个频率的简单声音合成复合音来模拟各种乐器的声音。FM合成方式是早期使用的方法,用这种方法产生的声音音色少、音质差。
◆波形表(Wave Table)合成:这种方法是先把各种真正乐器的声音录下来,再进行数字化处理形成波形数据,然后将各种波形数据存储在只读存储器中。发音时通过查表找到所选乐器的波形数据,再经过调制、滤波、再合成等处理形成立体声送去发音。存储声音样本的ROM容量的大小对波表合成效果影响很大。
MIDI::MIDI(musical instrument digital interface)是数字乐器接口的国际标准,它定义了电子音乐设备与计算机的通讯接口,规定了使用数字编码来描述音乐乐谱的规范。
常见的MIDI设备有电子琴等。计算机中以MID为扩展名的文件称为MIDI文件,其中存放的是对MIDI设备的命令,即每个音符的频率、音量、通道号等指示信息。最后播出的声音是由MIDI设备根据这些信息产生的。
MIDI声音可以用于配音,它的缺点是对回放设备的依赖太强,还有就是不能记录人声;
|
名称 |
扩展名 |
特点 |
缺点 |
|
WAVE |
WAV |
完整记录声音的波形,不使用压缩 |
文件太大 |
|
MOD |
MOD、ST3、XT、S3M、FAR和669等 |
文件中不仅存放了乐谱,还存放了乐曲使用的各种音色样本。回放效果明确,音色种类永无止境。 |
低音效果差 |
|
MPEG-3 |
MP3 |
目前最流行的格式,压缩较大。 |
有损压缩,音质不完美 |
|
Real Audio |
RA |
压缩比高,失真度小 |
有损压缩,音质并不好 |
|
Create Musical Format |
CMF |
Creative公司专用音乐格式。 |
兼容性差 |
|
CD Audio |
CDA |
唱片采用格式,记录的是波形流 |
无法编辑、文件太大 |
|
MIDI |
MID |
音乐工业的数据标准 |
不能记录语音 |
如果不经过压缩,声音数字化后每秒所需的存储量(数据量)可按下式估算:
数据量=数据传输率(bit/s)×持续时间(s)÷8(Byte)
数据量以字节(Byte)为单位;数据传输率以每秒比特(bit)为单位;持续时间以秒为单位。未经压缩的数字声音数据传输率可按下式计算:
数据传输率(b/s)=采样频率(Hz)×量化位数(bit)×声道数
3)视频文件格式
动态图像,包括动画和视频信息,是连续渐变的静态图像或图形序列,沿时间轴顺次更换显示,从而构成运动视感的媒体。
当序列中每帧图像是由人工或计算机产生的图像时,称为动画。
当序列中每帧图像是通过实时摄取自然景象或活动对象时,称为视频。
动画是以每秒15~20帧的速度顺序的播放静止图像帧来产生运动的错觉。
比较流行的格式有两种。
Ø 苹果公司的Quicktime
Ø 微软的AVI
1.无损压缩和有损压缩
视频压缩中的无损和有损压缩的概念与静态图像基本类似。无损压缩指压缩前和解压后的数据完全一致,多数的无损压缩都采用RLE行程编码算法。这种算法特别适合于由计算机生成的图像,它们一般具有连续的色调。但是无损算法一般对数字视频和自然图像的压缩效果不理想,因为其色调细腻,不具备大块的连续色调。
有损压缩意味着压缩后的数据与压缩前的不一致,在压缩的过程中要丢失一些人眼和人耳所不敏感的图像或声音信息,而且丢失的信息不可恢复(所以也这叫做不可逆压缩)。几乎所有的高压缩的算法都采用有损压缩,这样才能达到低数据率的目标。丢失的数据率与压缩比有关,压缩比越大,丢失的数据越多,解压后的效果越差。此外,某些有损压缩算法采用多次重复压缩的方式,这样还会引起额外的数据丢失。
2.帧内压缩和帧间压缩
帧内压缩也称为空间压缩。同一景物表面上各采样点的颜色之间往往存在着连贯性,而基于离散像素采样表示景物颜色的方式没有利用景物表面颜色的空间连贯性,从而产生了空间冗余。当压缩一帧视频时,仅考虑本帧的数据而不考虑相邻帧之间的冗余信息,这实际上与静态图像压缩类似。由于帧内压缩时各个帧之间没有考虑相互关系,所以压缩后的视频数据仍可以以帧为单位进行编码。帧内压缩一般达不到很好的压缩率。
视频具有运动的特性,故还可以采用帧间压缩的方法。这是由于视频或动画的连续前后两帧具有很大的相关性,或者说是前后两帧中的大部分图像信息变化很小,除非后一帧是关键帧(如果该帧相对于前面一帧的图像信息大部分不同,该帧就是关键帧)。根据这一特性,压缩相邻帧之间的冗余就可以进一步提高压缩量。帧间压缩也成为时间压缩,它通过比较时间轴上的不同帧间数据进行压缩。
3.对称和不对称编码
对称性是压缩编码的一个关键特征。对成编码意味着压缩和解压缩需要相同的计算处理能力和时间。对成算法适合实时压缩和传送视频。不对称或非对成意味着压缩时需要花费大量的处理时间和能力,而解压时则能较好地实时回放,即以不同的速度进行压缩和解压缩。如电子出版和其他多媒体应用中,一般把视频预先压缩处理好,而后再回放,压缩3分钟的视频可能需要10分钟,而该片断的实时回放只需3分钟。
4)电视的制式
所谓制式,就是指传送电视所采用的技术标准。目前世界上用于彩色广播电视的彩色电视机制式主要有三大类。
(1)正交平衡调幅制,简称NTSC制。采用这种制式的主要国家有美国、加拿大和日本等。
(2)正交平衡调幅逐行倒相制,简称PAL制。德国、英国和其它一些西北欧国家采用这种制式。
(3)行轮换调频制,简称SECAM制。采用这种制式的有法国、前苏联和东欧一些国家。
同一制式在不同的国家采用时,对图像载频和伴音载频分别作了改动,因此互相并不通用。我国采用的彩色电视机制式为PAL-D制。所以进口的电视机除少数厂家按我国标准生产这类产品外,在世界市场上按照PAL-B、G、H、I、N制式制造的外国彩色电视机,要经过必要的改动和调整后才能在我国使用。其它制式的彩色电视机则不适合在我国使用。
国内供应的几种国外进口彩电都是按我国的电视制式专门设计制造的,所以可以正常使用。
电视信号的标准也称为电视的制式。目前各国的电视制式不尽相同,制式的区分主要在于其帧频(场频)的不同、分解率的不同、信号带宽以及载频的不同、色彩空间的转换关系不同等等。世界上现行的彩色电视制式有三种:NTSC(National Television System Committee)制(简称N制)、PAL(Phase Alternation Line)制和SECAM制。
|
彩色电视国际制式 |
|
TV制式 |
NTSC-M |
PAL-D |
SECAM |
|
帧频(Hz) |
30 |
25 |
25 |
|
行 / 帧 |
525 |
625 |
625 |
|
亮度带宽(MHz) |
4.2 |
6.0 |
6.0 |
|
彩色幅载波(MHz) |
3.58 |
4.43 |
4.25 |
|
色度带宽(MHz) |
1.3(I),0.6(Q) |
1.3(U),1.3(V) |
>1.0(U),>1.0(V) |
|
声音载波(MHz) |
4.5 |
6.5 |
6.5 |
一、NTSC彩色电视制式:它是1952年由美国国家电视标准委员会指定的彩色电视广播标准,它采用正交平衡调幅的技术方式,故也称为正交平衡调幅制。美国、加拿大等大部分西半球国家以及中国的台湾、日本、韩国、菲律宾等均采用这种制式。
二、PAL制式:它是西德在1962年指定的彩色电视广播标准,它采用逐行倒相正交平衡调幅的技术方法,克服了NTSC制相位敏感造成色彩失真的缺点。西德、英国等一些西欧国家,新加坡、中国大陆及香港,澳大利亚、新西兰等国家采用这种制式。PAL制式中根据不同的参数细节,又可以进一步划分为G、I、D等制式,其中PAL-D制是我国大陆采用的制式。
三、SECAM制式:SECAM是法文的缩写,意为顺序传送彩色信号与存储恢复彩色信号制,是由法国在1956年提出,1966年制定的一种新的彩色电视制式。它也克服了NTSC制式相位失真的缺点,但采用时间分隔法来传送两个色差信号。使用SECAM制的国家主要集中在法国、东欧和中东一带。
为了接收和处理不同制式的电视信号,也就发展了不同制式的电视接收机和录像机。
5)图形、图像格式
图形是指用计算机绘制工具绘制的画面,包括直线、曲线,圆/圆弧,方框等成分。图形一般按各个成分的参数形式存储,可以对各个成分进行移动、缩放、旋转和扭曲等变换,可以在绘图仪上将各个成分输出。
图像是由输入设备捕捉的实际场景或以数字化形式存储的任意画面。图像可以用位图或矢量图形式存储。
位图文件和矢量图文件的文件格式是多媒体中常出题的地方,这里只要了解一下各种文件格式的特点就可以了。
位图文件:
(1)BMP/DIB文件:BMP是微软为Windows环境设置的标准图像格式,DIB与BMP的功能基本相同,只是它能运用于多种硬件,且文件要大一些。
(2)PCP:由Zsoft公司创建的一种经过压缩的PC位图格式,它最高可表示24位的图形(图像)。
(3)JPEG文件:能够大幅度压缩数据,目前使用最广泛的位图文件格式之一。
(4)GIF文件:由Compuserve公司推出,已经成为网络和BBS上最频繁使用的图像文件格式。
(5)TGA:由True Vision公司设计,最高支持32位的彩色。
(6)PNG:为适应网络数据传输而设计。
(7)PSD:photoshop中的标准文件格式。
(8)TIF:最复杂的图像文件格式之一,支持多种编码方法。
(9)IFF:用于大型超级图形处理平台,效果逼真。
矢量图文件:
(1)DIF:AutoCAD中的图形文件,以ASCII文件方式存储图形,精确度较高。
(2)EPS:用PostScript语言描述的ASCII图形文件,最高支持32位图形,其中标准的EPS还分为图形格式和图像格式。
(3)WMF:图元文件,微软公司为Windows环境提供的又一文件格式。
位图与矢量图的区别:
(1)位图是以点阵形式描述图形的,比较适合于描述颜色、灰度级或形状变化比较复杂的图像,文件较大。
(2)矢量图是以数学方法描述的几何元素组成的图形(图像),适合于高级处理。
矢量图形的优点:
(1)可无限放大细节,不会出现失真或色块。
(2)文件小。
(3)存储后的文件大小与图形的面积和色彩的丰富程度无关。
(4)能够方便地转化为点阵图。
6)编码和解码
◆H.261
H.261是用于音频视频服务的视频编码解码器,也称为P×64标准。由CCITT(ITU-T)制定。其应用目标是可视电话和视频会议系统。含有此标准的系统必须能实时的按标准进行编码和解码。
H.261于JPEG、MPEG标准的区别在于它是为动态使用而设计的,并提供完全包含的组织的高水平的交互控制。
◆JPEG
JPEG是静止图像压缩和解压缩算法的标准,它是基于DCT的有损算法,是ISO的国际标准。
MPEG在三方面优于其他的压缩/解压方案:
Ø 开始就是一个国际化的标准,兼容性很好;
Ø 比其他算法有更高的压缩比,最高可达到200:1;
Ø 在提供高压缩比的同时,对数据的损失很小;
◆MPEG
MPEG-X是一组由ITU和ISO制定发布的视频、音频和数据的压缩标准。
◆MPEG-1
制定于1992年,传输率最高可达4Mbps~5Mbps,质量级别与VHS相当。可用于记录媒体或是在Internet上传输音频。
◆MPEG-2
制定于1994年,传输率在3Mbps~10Mbps之间,DVD指定标准。
◆MPEG-4
传输率要求在4800bps~64000bps之间。其主要特点是交互性和综合性。更适合交互AV服务记忆即远程监控,,是第一个使观众由被动变主动的动态图象标准。
◆DVI DVI视频图像压缩算法的性能与MPEG相当,图像质量可达到VHS的水平。压缩以后的图像传输率约为1.5Mbps。 |