简析视频编码标准中基于IP网络的几种关键技术

2022-09-20

近年来, 随着视频编解码技术的不断发展和宽带网络技术的发展, 视频传输的实现变得更容易和成本更低。通过网络传输连续媒体数据为人们呈现出一个极具吸引力的信息交流场景。多媒体压缩和信号处理技术以及网络建设的不断发展, 基于多媒体流传输技术的应用逐渐走向成熟, 视音频编码的目标也不断地从传统的面向存储变为面向传输。

而现在使用的视频编解码技术主要是由ITU-T与ISO/IEC两大组织制定的, ITU-T的标准包括H.261、H.263、H.264, 主要应用于实时视频通信领域, 如会议电视;MPEG系列标准是由ISO/IEC制定的, 主要应用于视频存储 (DVD) 、广播电视、因特网或无线网上的流媒体等。其中H.261、H.263以及MPEG-1、MPEG-2属于第一代压缩编码方法, 是基于数据统计的压缩编码方法;而MPEG-4和H.264属于第二代压缩编码方法, 是基于对象的压缩编码方法。

1 第一代压缩编码

1.1 MPEG-1标准

1992年11月成为国际标准, 名称为“面向数字存储的运动图像及其伴音的压缩编码”。MPEG-1的支持的视频参数为352×240×30帧/秒或相当。

1.2 MPEG-2标准

1994年11月成为国际标准, 名称为“运动图像及其伴音信息的通用编码”, 这是一个适应性广的动态影像和声音编码方案。最初目标是把视频及其伴音信号压缩到10Mb/s, 经实验可适用于1.5～60Mb/s的编码范围, 甚至还可以更高。MPEG-2可用于数字通信、存储、广播、高清晰度电视等的压缩编码。DVD和数字电视广播采用的是M P E G-2标准。1 9 9 4年后, MPEG-2标准还进行了一定扩展和修订。

1.3 H.261标准

H.261是ITU-T为在综合业务数字网 (ISDN) 上开展双向声像业务 (可视电话、视频会议) 而制定的, 名称为“P×64Kb/s的音视频服务的纺解码”。P×64K视频压缩算法也是一种混合编码方案, 即基于DCT的变换编码和带有运动预测差分脉冲编码调制 (IDPCM) 的预测编码方法的。在低传输速率时, 除QCIF外还可使用亚帧技术, 即每间隔一帧 (或数帧) 处理一帧, 压缩比可高达50∶1左右。

1.4 H.263标准

在H.261的基础上, 1996年ITU-T推出了H.263编码标准, 名称为“低比特率通信的视频编码”。H.263在许多方面对H.261进行了改进和扩充, 如在编码算法复杂度增加很少的基础上, H.263能提供更好的图像质量, 更低的速率, 十分适合于IP视频会议、电话应用。

1998年ITU-T提出的H.263+是H.263建议的第二版, 它提供了12个新的可协商模式和其他性, 进一步提高了压缩编码性能。如H.263只有5种视频源格式, H.263+允许使用更多的源格式, 图像开关和时钟频率也有多种选择, 拓宽了应用范围;另一重要的改进是可扩展性, 它允许多显示率、多速率及多分辨率, 增强活动视频信息在易误码、易丢包异构网络环境下的传输。另外, H.263+的图像分段依赖性也可以是受限的, 以减少差错传播。H.263+对H.263中的不受限运动矢量模式进行了改进, 加上12个新增的可选模式, 不仅提高了编码性能, 而且增强了应用的灵活性。

MPEG-1、MPEG-2、H.261、H.263都是采用第一代压缩编码技术, 着眼于图像信号的统计特性来设计编码器, 属于波形编码的范畴。第一代压缩编码方案把视频序列按时间先后分为一系列帧, 每一帧图像又分成宏块以进行运动补偿和编码, 这种编码方案存在以下缺陷。

(1) 将图像固定地分成相同大小的块, 在高压缩比的情况下会出现严重的块效应, 即马赛克效应。

(2) 不能对图像内容进行访问、编辑和回放等工作。

(3) 未充分利用人类视觉系统 (HVS, Human Visual System) 的特性。

2 第二代压缩编码

2.1 MPEG-4标准

运动图像专家组MPEG于1999年2月正式公布了MPEG-4 (ISO/IEC14496) 标准第一版本。同年年底MPEG-4第二版亦推出, 且于2000年年初正式成为国际标准。

MPEG-4与MPEG-1和MPEG-2有很大的不同。MPEG-4不只是具体压缩算法, 它是针对数字电视、交互式绘图应用 (影音合成内容) 、交互式多媒体 (WWW、资料撷取与分散) 等整合及压缩技术的需求而制定的国际标准。MPEG-4标准将众多的多媒体应用集成于一个完整的框架内, 旨在为多媒体通信及应用环境提供标准的算法及工具, 从而建立起一种能被多媒体传输、存储、检索等应用领域普遍采用的统一数据格式。

MPEG-4标准中基于IP的关键技术主要有以下几方面。

2.1.1 复用基本流技术使MPEG-4编码更加适应于不同特性宽范围网络

MPEG-4借助于用作定时和同步连续媒体MPEG-1和MPEG-2系统经验, 定义一个三层复用对策使其编码更加适应于不同特性宽范围网络和不同的应用场合。这对于异构网络的视频传输有着重要的意义。因为在传输过程中, 视频数据流应与整个连接链路的可用带宽相匹配, 这样可同时使网络拥塞和包丢失率达到最小, 获得给定码率下的最优质量。

2.1.2 MPEG-4视频编码可分级技术支持其面向传输的分层可扩展性

MPEG-4通过视频对象层 (VOL, Video Object Layer) 数据结构来实现分级编码。基本分级工具包括时间分级 (Temporal Scalability) 和空间分级 (Spatial Scalability) , 此外还支持这些基本分级工具的组合。每一种分级编码都至少有两层VOL, 低层称为基本层, 其它为增强层。基本层提供了视频序列的基本信息, 增强层提供了视频序列更高的分辨率和细节。空间分级使得编码数据流提供至少两种空间分辨率的视频信号, 基本层提供了SDTV, 增强层提供了HDTV。时间分级使得编码数据流提供至少两种帧速率的视频图像服务, 基本层提供了隔行扫描HDTV, 增强层提供逐行扫描HDTV。

2.1.3 容错技术保证了MPEG-4传输后的视频质量

MPEG-4具有修正传输过程中产生错误的特性, 即容错性。抗误码工具包括再同步, 数据恢复和误差隐藏, 且这些工具在MPEG-4均得到了进一步优化。

2.1.4 基于对象的编码技术提高了压缩效率及质量并实现了交互性

MPEG-4标准与MPEG-1和MPEG-2标准最根本的区别在于MPEG-4采用基于对象的编码方法。此编码方法实现了高效高质量压缩, 使多媒体信息得以在低带宽上传输。同时, 基于对象和内容的现代编码, 使得用户与场景交互, 便于操作和控制对象, 满足了多媒体应用中人机交互的需求。MPEG-4中所见的视音频已不再是过去MPEG-1、MPEG-2中图像帧的概念, 而是一个个视听场景 (A V场景) , 进行MPEG-4编码, 首要任务就是把视频图像分割成不同对象或者把运动对象从背景中分离出来, 然后针对不同对象采用相应的编码方法独立进行编码, 来实现高效高质量压缩。视频对象平面 (VOP, Video Object Plane) 是MPEG-4视频编码的核心概念。

MPEG-4标准的局限性体现在:

由于系统设计过于复杂, 使得MPEG-4难以完全实现并且兼容, 很难在视频会议、可视电话等领域实现, 这一点有点偏离原来的初衷。另外对于企业来说还要面临高昂的专利费问题, 目前规定:

(1) 每台解码设备需要交给MPEG-LA0.25美元。

(2) 编码/解码设备还需要按时间交费 (4美分/天=1.2美元/月=14.4美元/年) 。

2.2 H.264标准

从2001年开始, ISO和ITU开始组建了联合视频工作组 (JVT, Joint Video Team, ISO/IEC MPEG和ITU-T VCEG联合视频工作组) , 在H.26L的基础上开发新的视频编码标准, 即JVT标准。

JVT标准是一套兼顾广播和电信、覆盖从低码率通信到高清晰电视的广域标准。在ISO/IEC中, 该标准的正式名称为MPEG-4 AVC (Advanced Video Coding) 标准;在ITU-T中的正式名称为H.264标准。2003年下半年, ISO/IEC以MPEG-4第十部分 (ISO/IEC 14496-10) 的名义正式发布了这项标准。

H.264集中了以往标准的优点, 并吸收了以往标准制定中积累的经验, 采用简洁设计, 使它比MPEG4更容易推广。H.264创造性了多参考帧、多块类型、整数变换、帧内预测等新的压缩技术, 使用了更精细的分像素运动矢量 (1/4、1/8) 和新一代的环路滤波器, 使得压缩性能大大提高, 系统更加完善。

H.264标准中基于IP的技术特点主要有:

2.2.1 分层设计

视频编码层具有高效的视频内容表示功能, 网络提取层将网络中所需要的数据进行打包和传送。视频编码层独立于网络, 分为VCL编码器和VCL解码器, 负责高效的表示视频内容, 主要包括运动补偿、变换编码、熵编码等编码压缩单元, 以及基于块的运动补偿混合编码和块、宏块和片的语法句法定义等一些新特性。

网络提取层 (NAL) 用以按网络的要求对数据进行打包和传送, 使用下层网络的分段格式来封装数据, 把VCL产生的比特字符串适配到各种不同的网络环境中, 包括组帧、逻辑信道的信令、定时信息的利用或序列结束信号等。NAL可使编码器预先根据网络通道的传输质量, 选择合适的视频质量等级编码进行VCL数据映射, 为网络传输层提供了底层接口, 对VCL数据进入传输层起到了匹配作用。

2.2.2 高精度、多模式运动设计

在H.263中采用了半像素估计, 在H.264中则进一步采用1/4像素甚至1/8像素的运动估计。即真正的运动矢量的位移可能是以1/4甚至1/8像素为基本单位的。显然, 运动矢量位移的精度越高, 则帧间剩余误差越小, 传输码率越低, 即压缩比越高。

2.2.3 4×4块的整数变换

视频压缩编码中以往的常用单位为8×8块。在H.264中却采用小尺寸的4×4块, 由于变换块的尺寸变小了, 运动物体的划分就更为精确。这种情况下, 图像变换过程中的计算量小了, 而且在运动物体边缘的衔接误差也大为减少。

当图像中有较大面积的平滑区域时, 为了不产生因小尺寸变换带来的块间灰度差异, H.264可对帧内宏块亮度数据的16个4×4块的DCT系数进行第二次4×4块的变换, 对色度数据的4个4×4块的DC系数 (每个小块一个, 共4个DC系数) 进行2×2块的变换。

2.2.4 帧内预测功能

帧内编码用来缩减图像的空间冗余。为了提高H.264帧内编码的效率, 在给定帧中充分利用相邻宏块的空间相关性, 相邻的宏块通常含有相似的属性。因此, 在对一给定宏块编码时, 首先可以根据周围的宏块预测, 然后对预测值与实际值的差值进行编码。这样, 相对于直接对该帧编码而言, 可以大大减小码率。在H.264中, 每个4×4块中的每个像素都可用17个最接近先前已编码的像素的不同加权和来进行帧内预测。

2.2.5 熵编码

视频编码处理的最后一步就是熵编码, 在H.264中采用了两种不同的熵编码方法:通用可变长编码 (UVLC) 和基于文本的自适应二进制算术编码 (CABAC) 。

在H.263等标准中, 根据要编码的数据类型如变换系数、运动矢量等, 采用不同的VLC码表。H.264中的UVLC码表提供了一个简单的方法, 不管符号表述什么类型的数据, 都使用统一变字长编码表。其优点是简单;缺点是单一的码表是从概率统计分布模型得出的, 没有考虑编码符号间的相关性, 在中高码率时效果不是很好。

因此, H.2 6 4中还提供了可选的CABAC方法。算术编码使编码和解码两边都能使用所有句法元素 (变换系数、运动矢量) 的概率模型。为了提高算术编码的效率, 通过内容建模的过程, 使基本概率模型能适应随视频帧而改变的统计特性。内容建模提供了编码符号的条件概率估计, 利用合适的内容模型, 存在于符号间的相关性可以通过选择目前要编码符号邻近的已编码符号的相应概率模型来去除, 不同的句法元素通常保持不同的模型。

H.264的主要优点体现在:

(1) 低码流 (Low Bit Rate) , 和MPEG2和MPEG4 ASP等压缩技术相比, 在同等图像质量下, 采用H.264技术压缩后的数据量只有MPEG2的1/8, MPEG4的1/3。

(2) 对信道时延的适应性较强, 既可工作于低时延模式以满足实时业务, 如会议电视等;又可工作于无时延限制的场合, 如视频存储等。

(3) 提高网络适应性, H.264提供了网络适应层, 使得H.264的文件能容易地在不同网络上传输, 采用“网络友好”的结构和语法, 加强对误码和丢包的处理, 提高解码器的差错恢复能力。

(4) 在编/解码器中采用复杂度可分级设计, 在图像质量和编码处理之间可分级, 以适应不同复杂度的应用。

(5) H.2 6 4采用简洁设计, 使它比MPEG-4更容易推广, 更容易在视频会议、视频电话中实现, 更容易实现互连互通。MPEG LA吸收MPEG-4的高昂专利费而使它难以推广的教训, MPEG LA制定了以下低廉的H.264收费标准:H.264广播时基本不收费;产品中嵌入H.264编/解码器时, 年产量10万台以下不收取费, 超过10万台每台收取0.2美元, 超过500万台每台收取0.1美元。

综上所述, 随着计算机网络应用的多样化, 新一代视频编码技术的研究在提高压缩编码性能的同时, 更加注重网络适应性、用户交互性等方面的发展。未来是信息化的社会, 随着数字技术和网络技术的不断发展, 视频编码标准将发挥越来越大的作用。

摘要：视频技术和网络通信技术的发展使得视频流媒体应用日益广泛。本文主要介绍了视频编码技术的发展, 并分析了目前流行的几种视频编码标准中基于网络传输的一些关键技术。

关键词：视频编码,MPEG,网络传输