基于Keystone架构的DSP

来源:互联网 发布:手机淘宝怎么注销不了 编辑:程序博客网 时间:2024/06/05 03:58

一、keystone架构组成部分

 

1).全新的C66x定点/浮点内核:速度高达1.25GHz的高性能DSP内核,单个器件上可实现最高320GMAC和160GFLOP定点及浮点整合性能,整合多个DSP,节省板级空间,降低成本和电源需求。

2).可配置协处理器:用于减轻系统微处理器的特定处理任务。

3).层级存储器:重点讲述。

4).TeraNet交换结构:芯片内部总线矩阵。

5).多内核导航器(Multicore Navigator):将上述组件连接在一起,是一个创新的基于包的管理器,它控制8192个队列,当任务被分配到队列,多核导航器提供硬件加速分配(把任务分配给相应的可采用的硬件),不需要耗费TeraNet资源,包的搬移不会被内存存取阻塞。


 

二、keystone架构的层级存储器

 

1.KeyStone架构具备三个存储等级

每个C66x内核均拥有自己的一级程序(LlP)和一级数据(LID)存储器。

每个内核还拥有局域的二级统一存储器,每个局域存储器均能独立配置成存储器映射的SRAM、高速缓存,或两者的组合。

KeyStone架构包含共享的存储器子系统,由通过多内核共享存储器控制器(MSMC)连接的内部和外部存储器组成。

 

2.三个存储等级说明

本地L1:内存32KB,可配置成全速缓冲贮存、全内存映像SRAM或者是4、8或16KB快速缓冲贮存区选项的组合。L1P始终为直接映像,L1D始终为双向集合关联。

本地L2:内存高达1MB,可配置成全快速缓冲贮存、全内存映像SRAM,或32、64、128或512KB四路集合关联快速缓冲贮存的组合。

共享内存子系统:MSMC允许corepac动态地分享程序和数据的内外部内存。MSMC内部存储器被配置成共享二级(SL2)RAM或者共享三级(SL3)RAM,SL2仅能在本地L1D和L1P快速缓冲贮存区中缓存,SL3还可在本地L2快速缓冲贮存区中缓存,外部存储器内存视为SL3,可在L1和L2中缓存。

 

3.第二级效率

LL2内存以等同于CPU的时钟速率运行,可减少因L1快速缓冲贮存失效造成的停滞,在此情况下,必须从LL2快速缓冲贮存或SRAM获取内存。

无论是由使用者隐藏的还是有软件命令驱动的快速缓冲贮存一致性都会变得高效,而且执行周期数也更少。

 

4.共享内存效率

扩展内存控制器(XMC):共享内部存储器(SL2/SL3)和外部内存(DDR3 SRAM)通向MSMC的途径。

预取功能:通往SL2的存取路径与通往LL2的存取路径一样,在临近内部接口均有一个预取缓冲器,可隐藏对共享RAM库的存取延迟并可优化程序代码执行及对只读取数据的存取。

预取功能不仅能在造访内存之前拉近内存与DSP核心之间的距离来降低存取延时,还能减缓其他corepac和数据I/O透过MSMC争夺同于内存资源的竞争局面。


对于外部内存而言,keystone透过与共享内部存储器相同的通道存取,信道宽度是之前结构的2倍,速度是一半,能大大降低到外部DDR3内存控制器(透过MSMC和XMC)的延迟。

从外部内存执行程序时,XMC提供最佳通道,大幅提高L1/L2快速缓冲贮存效率,并在多个核心与数据I/O对外部内存同时并行判优时,显著降低延迟。

 

5.外部内存效率:外部内存控制器的改善

Keystone能以1333MT/S以上速率支持高效能DDR3 SRAM内存。

汇排流支持总线高达64位,相比之前的架构,宽度大,速度快,允许多个更高效能核心、加速器和数据I/O整合。

 

6.快速缓冲贮存一致性控制

保证SL2和SL3与L1和L2快速缓存同步,用软件控制往返于数据I/O页面的传输,以及对多核心之间共享缓冲器的存取。

简化操作:将fence(围篱)操作增加到corepac中,作为新的MFENCE指令实施fence操作,以保证读/写存取群组之间序列一致。

 

7.共享内存保护与地址扩展

Keystone将内存保护扩展至外部内存,还为内存保护增加灵活度。另外,MSMC允许将外部内存地址空间从32位扩展至36位。

每个C66X DSP都被分配一个独特的权限PrivID值,数据I/O主系统也被分配一个PrivID,EDMA例外,但可以继承为每次传输进行配置的主系统的PrivID值。Keystone装置总共支持16个PrivID,内存保护属性分别为管理员和用户分配访问权限。

 

8.本地内存存储保护

C66X corepac可提供有软件控制的请求者到内存的灵活映像,进一步从之前的C6000架构扩展内存保护协议。

内存请求者均拥有相关联的特权ID,内存控制器可区分6个不同的请求者,并配置其他请求者。

Corepac允许将系统主控器ID映像到保护逻辑中使用的ID,实现强大的保护功能。

 

9.共享内存的存储保护

C66X DSP透过XMC中的本地MPAX访问MSMC信道。数据I/O透过MSMC中的MPAX访问MSMC信道。并分别对内部和外部共享内存控制。

MPAX给每个交易事务承载特权ID,相关联的MPAX单元在内部共享内存和外部内存支持16个内存段定义,大小介于4KB-4GB,地址扩展功能可将外部空间从32位扩展到36位。

 

10.错误侦测和纠正

Keystone将软错误保护扩展至内存所有层级。

L1P、L2、SL2(或SL3内部RAM)包含128/256位内存段内单一位错误的奇偶校验讯息。

通过ECC逻辑可将软件错误进一步扩展到外部存储空间。

 

三、keystone架构特点

 

1).具有动态资源/负载共享

2).跨系统通信时低CPU开销/延迟

3).基于硬件的任务优先级排序

4).动态负载平衡

5).适用于所有IP模块(软件、I/O和DⅡ速器)的通用通信方法等特点

 

四、keystone架构的优势

 

1).与此前的产品相比,这些性能提升涉及异级存储器以及外部存储器等。

2).通过高效判优和预取机制,性能改进也体现在多内核、加速器以及数据I/O的并行访问方面。

3).实施存储器保护和地址扩展可实现高度灵活的编程模型、更大范围的地址搜索,并为错误访问提供保护。

4). Keystone架构在存储器性能、易操作性以及灵活性方面实现的改进可确保程序员实现由功能强大的新C66xDSP系列提供的全速性能优势。

5).该架构具有卓越的可扩展性,为具有各种数量的内核、加速器和数据I/O的SoC系列奠定了坚实的基础。

6).与以往架构相比,KeyStone来用TeraNet的多内核导航,且扩展性更好,这一架构不仅支持C66x处理器,也支持ARM内核的集成,非常灵活。

 

五、基于keystone架构的DSP的概述

 

Tl采用多个1.25GHzDSP内核构建TMS320C66X,在单个器件上首次实现了最高320GMAC与160GFLOP定点及浮点整合性能。C66xDSP系列采用TI最新KeyStone多内核架构,不但可最大限度提高片上数据流的吞吐量,还可消除可能出现的瓶颈问题。

TI新的C66x核整合了定点和浮点运算能力而不牺牲速度和功耗,其运算速度是业界领先32GMACS/核和16GFLOPS/核(1.2GHz运行频率),C66x兼容C64x器件,目前为业界处理能力最好的DSP。

TMS320C66x主要特征



 

六、基于keystone架构的DSP产品


TMS320C6672:2核DSP

TMS320C6674:4核DSP

TMS320C6678:8核DSP

TMS320C6670:4核通信片上系统(SoC)

MS320C6671:1核DSP,全系列封装引脚兼容


 

七、基于keystone架构DSP的性能


1).TMS320C66X系列DSP具有高性能、高集成、低功耗、多内核特性、完善开发环境、可扩展性强等特点。

2).多个速度高达1.25 GHz的高性能DSP内核,每周期定点性能高达32MAC,每周期浮点性能高达16FLOP,使用户能够整合多个DSP,节省板级空间,降低成本,并降低整体电源需求。

3).每个DSP内核都集成定点与浮点处理功能,可改进计算密集型算法的性能,与分别在定点和浮点器件上进行软件开发相比,可大幅缩短开发周期。

4).分利用TI突破性低功耗SmanReflex技术,可根据环境条件动态调节电源电压,在给定的功率预算内实现更高的处理功能。

5).采用最新KeyStone多内核架构,包括多内核导航器、多内核共享存储器控制器(MSMC)、HyperLink接口、PCIExpress Gen2、Serial RapidIO以及其他外设等丰富特性,可实现内核与存储器存取的直接通信,全面使用DSP内核、外设以及协处理器。

6).完整的软件支持,包括Linux操作系统、BIOS、多内核平台软件、开放式GCC工具、CCS软件与MC-SDK开发等,实现与C6000系列软件兼容。

C66x功能框图



 

八、基于keystone架构DSP的开发


配合使用多内核软件开发工具套件(MC-SDK)、多内核工具套件、编解码器和丰富的软硬件合作伙伴网络,可通过TI多核DSP的强大功能开发出全新的高性能产品,从而在降低成本的同时提高通道密度并实现更低功耗。

能与TI现有的TMS320C6000TM DSP实现软件兼容,满足多种不同多媒体应用的需求TI软件产品:

1).最新多核软件开发套件(MCSDK)

2).优化型多核软件库

3).C66x系列DSP的Linux内核支持

4).OpenMPTM应用程序接口(API)支持等。

TI为其C66x DSP指令集架构提供的优化库:

1).DSP库(DSPLta)

2).影像处理库(IMGLIB)

3).OpenMP API支持

Enea的OSEck实时操作系统为Keystone架构提供Enea@LINX进程间通信服务(IPC),使多核应用程序的概念化、分割和扩展更为简单。

 

九、基于keystone架构DSP的应用领域


TMS320C66x目标应用领域有并行多任务、测试与自动化、医疗影像、智能电网、新型宽带以及高性能计算等。

1).3G数字移动通信,其中包括基站和移动终端两方面的应用。

2).军事领域,主要包括软件无线电和目标识别两大方面。军用导弹、鱼雷、雷达中大量采用目标识别技术,采用多核DSP,就可以把整个任务划分成多个小块、实现高速并行处理,也可实现系统的一体化设计。

3).DSP是数字消费类电子产品中的关键器件。这类产品的更新换代非常快,对核心DSP的性能追求也无止境。

4).汽车电子设备是多核DSP进军的领域。

5).多核DSP在智能机器人、工业控制、宇航等领域也有非常广阔的市场。

 

原创粉丝点击