现在的位置: 首页 > 综合 > 正文

TMS320DM642 VS Blackfin561

2013年10月08日 ⁄ 综合 ⁄ 共 2362字 ⁄ 字号小中大 ⁄ 评论关闭

TMS320DM642 VS Blackfin561

明田

德州仪器公司(Texas Instruments以下简称TI公司)和美国模拟器件公司(Analog Devices以下简称ADI公司)，作为全球领先的高性能DSP供应商，它们几乎占据了全球DSP市场全部分额。

TMS320DM642（以下简称DM462）是TI公司近来发布的新一代多媒体处理器，它基于其第二代高性能的VelociTI VLIW结构，适用于多种数字媒体应用，它的时钟频率为600MHz，指令速度高达4800MIPS。而ADSP-BF561（以下简称BF561）处理器是ADI公司推出的Blackfin 系列中的高性能产品，主要针对于多媒体和通信方面的各种应用。BF561的核心由两枚独立的Blackfin 处理器组成。它集成了一套通用的数字图像处理外围设备，为数字图像处理和多媒体应用创建了一个完整的系统级片上解决方案。下面我们将对TI公司的TMS320DM642与ADI公司的Blackfin561做一些简要介绍和比较。

一、体系结构

TMS320DM642与Blackfin561的体系结构的最大差别在于TMS320DM642是单核结构、而Blackfin561是双核结构，这就从整体上决定了它们之间的整个架构的不一致性。

图1 DM642的内核结构

如图1所示，DM642内核包含8 个并行的处理单元(.L1，.L2，.S1，.S2，M1，.M2，.D1，.D2)，两个通用寄存器组(A和B，各32 个32-bit通用寄存器)，两个从内存读取数据的通道(LD1和LD2)，两个写内存的数据通道(ST1和ST2)，两个数据地址通道(DA1和DA2)，两个寄存器组数据交叉通道(1X和2X)，两个乘法单元（M）、六个32-bit的算术单元、40-bit的ALU和40-bit的桶型移位器。DM642乘法单元（M）每个时钟周期执行两个16-bit的乘法，此外，每个乘法单元（M）可以在每个周期内作4 个8 bit 的乘法。DM642 的其他单元各有其强大的功能。例如，逻辑单元（L）可以作byte移位和四个8-bit的绝对值减法。该绝对值差指令对于实现运动估计算法是很有好处的。M单元和S单元都具有双向可变bit的移位功能。除S单元和L单元外，D单元也可以执行32-bit的逻辑指令。L单元和D单元可以装入5-bit 的常数，而S单元可以装入6-bit的常数。DM642 的每个功能单元组都各有其32 个32-bit 的寄存器组，每个程序可以将通用寄存器用于存放数据、地址指针或条件代码。

在DM642 中，两个功能单元组中的任何一个都可以使用另一个的寄存器组。允许每个功能单元组中的多个单元通过数据交叉通道，同时读同一个交叉通道信源。也就是说，一个功能单元组中的一个、多个、乃至全部单元，可以在一个VLIW执行包中使用交叉通道的操作数。DM642 可以使用非排队的存取方式，可以按byte边界访问，取消了执行包边界的限制，也就取消了填充的NOP 指令。CPU 可以在每个周期内执行1-8条指令，但数据的独立性、指令的反应时间、以及资源的冲突对性能的发挥有所限制。指令包的执行允许充分的并行、串行和并/串行的组合。同时，DM642要求八个串行指令和八个并行指令具有同样的长度，这就非常有利于编译器和汇编器的对代码进行优化。

如图2所示，Blackfin 内核包含2 个乘/累加器(MAC)，2 个40 位的ALU，4 个8位的ALU 和1个40 位移位器。运算单元可以处理来自寄存器组的8 位、16 位或者32 位数据。每个MAC 每周期可完成一个16 位乘16 位的乘法运算，并把结果累加到40 位的累加器中，提供8 位的精度扩展。ALU 单元执行标准的算术和逻辑运算，由于两个ALU 具备对16 或32 位数据操作的能力，因此运算单元具备的灵活性可以满足各种应用中信号处理的要求。每个32 位的输入寄存器可以作为两个16 位的寄存器，因此每个ALU 可以完成非常灵活的单16 位算术运算。通过把寄存器当作两个16 位的操作数使用，双16 位或单32 位操作可以在一个周期中完成。更好地利用第二个ALU，四个16 位操作可以简单地完成，加速了每个周期的吞吐量。

图2 Blackfin的内核结构

强大的40 位移位器功能丰富，可以对数据进行移位、循环移位、归一化、提取和存储等操作。运算单元所使用的数据来自具有16 个16 位操作数或8 个32 位操作数的寄存器组。

功能强大的程序控制器控制指令执行的顺序，包括指令对齐和译码。程序控制器支持条件跳转、子函数调用及零耗循环。循环缓冲区在本地储存指令，消除了循环代码访问指令存储器的时间。两个数据地址产生器(DAG)为从存储器同时取回双操作数提供地址。两个数据地址产生器共用一个寄存器组，包括四套32 位的索引、修改、长度和基地址寄存器。8 个额外的32 位寄存器为变量和堆栈位置的索引提供指针。

虽然S320DM642与Blackfin561的体系结构在整个架构上完全不同。但是，它们都有一个共同点，那就是采用多功能单元来实现指令的并行执行。

二、存储器体系结构

图3 DM642 的存储器体系结构

DM642和BF561都采用采用改进的哈佛结构和分级的存储器结构。Level 1（L1）存储器一般能够实现全速运行，没有或只有很少的延迟。而Level 2（L2）存储器分布在片内或片外，对它的访问需要耗费多个处理器周期。L2既可以作为存储器映射，又可作为缓存cache。DM642内部有16KB的一级程序缓存，16KB的一级数据缓存和256KB的程序数据共享二级缓存。系统通过外部存储器接口（EMIF）可以使用外部存储器，可以由SDRAM、FLASH和SRAM进行扩展。片内程序存储区和片内数据存储区分别由各自的控制器控制。