积分规则 网站地图 帮助中心    
嵌入式软件 单 片 机 DSP 存储器 传感控制 光电显示
嵌入式硬件 CPLD/FPGA SOPC AD/DA 接口电路 模拟设计
I C设计 通信产品 汽车电子 电源产品 消费电子 数控系统
工业控制 军工/航天 安防产品 医疗电子 计算机外设 测试测量
供应 I C
求购 公司库

  IC 求购 销售 公司 论文 DATASHEET 参考设计 论坛
当前位置: 电子技术 >> CPLD/FPGA >> 应用论文
  相关分类: 相关文章 | 应用论文 | 新产品 | 下载 |
基于FPGA的内积算法优化
 
作者:肖顺文,陈亚军   来源:电子技术应用    点击数:56   更新时间:2008-5-15
您可以添加到网摘 让更多人关注此文章:

    

摘 要: 针对在FPGA中直接运用分布式算法实现内积运算时,内积运算的系数大小、存储资源、运算速度难于达到最佳配置的问题,从算法、存储规模、查表速度三个方面进行了详细的分析和讨论,并给出了相应的优化和改进措施。

关键词: FPGA 内积算法 优化


  基于分布式算法通过FPGA查找表实现内积运算,实现如下算法:

  

  其中:Am为固定系数,Xm为输入数据(Xm<1)。利用分布式算法将内积运算转化为移位求和实现,用二进制补码表示,将Xm表示成如式(2)形式:

  

  式(3)中,由于Xmn的取值为0或1,所以存在2M 种不同的结果。如果事先构造一个查找表,该表存储了所有可能的组合值,即可以预先计算这2M个值,并存入查找表(LUT)中,用Xmn作为查找表的地址信号,将查找表的输出结果移位(2-1运算)和相加,经过N-1个周期即可直接获得乘法累加的结果。这样就将复杂的乘法累加运算转化为移位相加运算。为提高运算速度,采用并行运算。其硬件电路简化结构如图1所示。


  直接运用分布式算法实现内积运算,虽然实现了把复杂的内积运算转化为移位相加运算,但其查找表的规模随着系数呈指数增加。如果系数小,则可以方便地通过FPGA丰富的查找表结构实现;如果系数大,则将占用FPGA大量的存储资源,使运算速度降低。同时N-1个周期也使查表时间过长,运算速度降低。
  本文针对系数大小、存储资源、运算速度的配置问题,对算法进一步改进、优化,使算法达到存储规模小、运算速度快,进一步提高运算的性能。

1 算法的优化
  将Xm用下式表示:

  

  根据二进制补码的运算,-Xm可表示为:

  

  存在2M种不同的结果,但其中φmn的取值为±1,结果呈现出正负对称性。如果不考虑正负号,则只有2M-1种不同结果。存储规模减少了一半。用φmn作为LUT的地址信号,查找表存储器上一半地址对应的预存值将会是下一半的取负。其硬件电路简化结构如图2所示。


  其中括号内的地址为X的下一半地址。该地址查找上一半地址对应的预存值,同时作为Ctrl控制加/减器,完成下一半地址和上一半地址对应的预存值的正负转换,送到累加器,经过N-1个周期即可获得乘法累加的结果。
2 存储规模的优化
  由图2可知,算法优化后式(8)可以简化为:

  

  虽然经过算法优化后存储规模减少了一半,但查找表的规模随着m呈指数增加。为了进一步减少所用查找表的规模,可采用减小m的方法来实现。式(9)中可以定义为:

  

3 查表速度优化
  为便于并行处理,可将图3中的查找表设计为相同深度,则每一个输人数据Xm(N-1),分为C(为了与FPGA的4输入LUT相关,令C为4的倍数)段,则xmn可以表示为:

  


  从式(12)并结合图4可以看出,查找表只需N/c-1个周期就可以得到内积的结果。与前面需N-1个周期相比较,速度提高了近c倍,实现了高速、高效运算处理。其硬件电路简化结构如图4所示。


  用分布式算法将复杂的内积运算转化为移位相加运算,可清晰地表示内积结果。针对实现过程中系数大小、存储资源、运算速度的最佳配置问题,从存储规模、算法、查表速度三个方面对算法进行进一步改进和优化。算式推导过程层次清楚,电路结构合理,使内积算法达到存储规模小、运算速度快的目的,性能得到大大提高。
参考文献
1 褚振勇.FPGA设计与应用[M].西安:西安电子科技大学出版社,2002
2 徐以涛,王呈贵,王金龙.基于DA算法的FIR滤波器硬件实现[J].解放军理工大学学报:自然科学版,2003;4(3):22~25
3 梁学东,卜 天,田日才.基于分布式算法和FPGA实现基带信号成形的研究[J].电子技术应用,2004;30(5):67~69
4 单长虹,刘小平.基于VHDL语言的快速查表电路[J].半导体技术,2002;27(11):42~46
5 毕占坤,吴伶锡.FIR数字滤波器分布式算法的原理及FPGA实现[J].电子技术应用,2004;30(7)
6 Wang Wei,Swamy M.N.S,Ahmad,M.O.Novel Design and FPGA Implemention of DA-RNS FIR Filters[J].Journal of Circuits,Systems and Computers,2004;13(06):1233~1249
7 Girard Patrick,Hbron Olivier,Pravossoudovitch Serge et al.Delay Fault Testing of Look-Up Tables in SRAM-Based FPGAs[J].Journal of Electronic Testing,2005;21(1):43~55
8 Lu Shyue-Kung,Yeh Fu-Min,Shih Jen-Sheng.Fault Detection and Fault Diagnosis Techniques for Lookup Table FPGAs[J].VLSI Design 2002;15(1):397~406



相关文章
· 基于FPGA的数据无阻塞交换设计[11]
· 采用带软处理器的FPGA实现机器人车辆控制器[12]
· FPGA行业演进呈现三大趋势[52]
· 基于FPGA的四阶IIR数字滤波器[15]
· FPGA应用愈加广泛 行业演进呈现三大趋势[21]
热门评论排行
·江苏嵌入式Linux教育培训
·锐极LINUX驱动培训班定于
·VHDL设计中电路简化问题的
·基于实时操作系统μC/OS-
·ARM处理器应用开发4步骤

文章评论
    没有任何评论
*只显示最新10条评论。评论内容只代表网友观点,与本站立场无关。更多评论
发表评论
  * 请先[登陆]再进行评论,谢谢。
评分: 1分 2分 3分 4分 5分
内容: *
发帖须知:
一.所发文章必须遵守《互联网电子公告服务管理规定》;
二.严禁发布供求代理信息,公司介绍,产品信息等广告宣传信息;
三.严禁恶意重复发帖;
四.严禁对个人,实体,民族,国家等进行漫骂,污蔑,诽谤。
 
热点新闻 [更多]
 
HIPROS电梯视听系统----专业
PROLM12KM在光伏行业的应用
世界上最小巧的串口服务器联网,串口转
cheap prada sneake
中国女足!---赢球就是硬道理!
阿娇内地再度亮相 为篮球赛开球
钟欣桐杭州担任宣传大使 遭千名观众起
刘德华抵京充当志愿者 愿为运动员捡球
台湾佳营TWLA500 功
CSA Internati
 
热门下载 [更多]
 
[ ] 手把手学单片机20个例
[ ] 单片机做的智能台灯
[ ] 单片机入门书
[ ] linux系统移植开发文档
[ ] IC卡的读写程序
[ ] 8051单片机C语言彻底应用
[ 常用软件] 555定时器电路设计软件V1.2
[ 常用软件] 51定时器计算软件
[ ] ARM处理器应用开发4步骤
[ ] 实用电源电路集锦
 
论坛新帖 [更多]
 
铁电FM24C256读取几千次...
美图欣赏...
请教2410驱动ADS7864...
电子工程师了解最新IC设计及制...
防雷产品大全...
嵌入式系统软件工程师—就业班(...
嵌入式系统驱动工程师-高级班(...
FPGA/CPLD工程师—高级...
Symbian手机应用开发工程...
Symbian手机应用开发工程...

 
赞助商 [更多]
 


ICP许可证号:[粤 05056597]
联系电话:010-82517432 82517615 传真: 010-82517615

版权所有 Copyright © 2006 嵌入式技术网