您可以添加到网摘 让更多人关注此文章:
摘要:TMS320DM642是TI公司新近推出的一款面向数字多媒体应用的专业芯片,它基于C64X内核,使用先进的甚长指令字结构(VLIW),具有强大的并行处理能力。本文完成了基于H.264的运动估计算法的DSP实现,结合算法特点,充分利用DM642特性,采取了一系列的优化措施,很好地解决了算法实现过程中的实时性问题。
关键词:DM642;运动估计;软件流水
Abstract: The TMS320DM642 Digital Media Processor is based on the C64x CPU, which uses an advanced very long instruction word (VLIW) architecture and allows to execute multiple instructions in a single clock cycle. This paper emphasizes on the implementation of H.264 motion estimation algorithm based on DM642 platform. By optimizing the usage of memory system and code, we realize and optimize the real-time processing of digital video based on DM642.
Key words: DM642; Motion estimation; Software pipeline
1 引言
多媒体业务的飞速发展对视频编码技术提出了更高的要求。如何在尽可能低的码率下获得尽可能好的图像质量是一系列视频编码标准的共同目标。H.264是新一代的面向低码率视频通信应用的视频图像压缩标准。与此前的视频编码标准相比较,H.264拥有极高的压缩效率和极强的容错性能,这使视频编码效率获得大幅提高,但同时这也使运算复杂度猛增。运动估计和运动补偿作为视频压缩编码系统的核心算法,占整个系统运算量的60%-80%。研究运动估计算法的DSP实现对整个H.264系统的嵌入式应用具有重要的指导意义。
TMS320DM642是TI公司推出的一款面向数字多媒体应用的专业芯片,它基于C64X内核,拥有强大的处理性能和丰富的外围接口。本文完成了基于H.264的运动估计算法的DSP实现,通过使用一系列优化方案,很好地实现了对算法的实时处理。
2 运动估计算法
运动估计算法是视频压缩编码的核心算法之一。高质量的运动估计算法是高效视频编码的前提和基础。其中块匹配法(BMA, Block Match Algorithm)由于算法简单和易于硬件实现,被广泛应用于各视频编码标准中。块匹配法的基本思想是先将图像划分为许多子块,然后对当前帧中的每一块根据一定的匹配准则在相邻帧中找出当前块的匹配块,由此得到两者的相对位移,即当前块的运动矢量。在H.264标准的搜索算法中,图像序列的当前帧被划分成互不重叠16×16大小的子块,而每个子块又可划分成更小的子块,当前子块按一定的块匹配准则在参考帧中对应位置的一定搜索范围内寻找最佳匹配块,由此得到运动矢量和匹配误差。运动估计的估计精度和运算复杂度取决于搜索策略和块匹配准则。这里使用H.264推荐算法UMHexagonS(Unsymmetrical-cross Multi-Hexagon-grid Search)作为DSP实现的算法参考,与FS算法比较,它在保证可靠搜索精度的前提下大幅降低搜索复杂度。同时使用绝对差和(SAD, the Sum of Absolute Difference)标准作为匹配准则,它具有便于硬件实现的优点。
式中, 是位移矢量 为当前子块左上角坐标, 分别为当前帧和上一帧的灰度值, 为子块大小。若在某一个点 达到最小,则该点为要找的最优匹配点,对应的块即为最优匹配块。
3 TMS320DM642 DSP硬件平台
数字多媒体处理器DM642的结构如图3.1所示。DM642是TI公司C6000系列的一款新型高性能DSP,基于C64x内核,扩展的高级甚长指令字(VLIW, Very Long Instruction Word)体系结构,具有64个32位通用寄存器,8个独立计算功能单元可并行运行。主频为600MHz,峰值计算速度达4800MIPS[1]。DM642采用两级缓存结构,第一级包括相互独立的L1P(16K字节)和L1D(16K字节),只能作为高速缓存使用。第二级L2(256K字节)是一个统一的程序/数据空间,可以整体作为SRAM映射到存储空间,也可以整体作为第二级Cache,或是二者按比例的一种组合来使用。DM642具有64个独立通道的增强型直接存储器访问(EDMA, Enhanced Direct Memory Access)控制器,负责片内L2与外设以及外设之间数据高速传输。
DM642具有丰富的外围设备接口:三个可配置的双通道视频端口Video Port;64bit的外部内存接口EMIF;10/100M以太网MAC;66MHz 32bit的PCI接口,符合PCI2.2标准。高性能DM642是目前构建数字多媒体处理应用的一个理想平台。

图3.1 DM642结构示意图 |
4 运动估计算法的DSP DM642实现与优化
4.1 算法实现流程
与基于PC的算法实现相比,基于DM642的算法实现对实时性提出了更高的要求。这就要求由视频采集、处理和显示组成的系统能够高效工作。基于DM642的视频处理系统流程如图4.1所示。

图4.1 DM642视频处理流程 |
运动估计算法实现流程如图4.2所示:

图4.2 基于DM642运动估计算法实现流程
[1] [2] 下一页
|
没有任何评论
*只显示最新10条评论。评论内容只代表网友观点,与本站立场无关。 更多评论
|
|
发帖须知:
一.所发文章必须遵守《互联网电子公告服务管理规定》;
二.严禁发布供求代理信息,公司介绍,产品信息等广告宣传信息;
三.严禁恶意重复发帖;
四.严禁对个人,实体,民族,国家等进行漫骂,污蔑,诽谤。 |
|
|