CE应用开发指导(Codec Engine Application Developer User's Guide)

来源:互联网 发布:ubuntu 清空系统 编辑:程序博客网 时间:2024/05/17 00:52

原文地址:http://hi.baidu.com/shmily_soc/item/f87532fa07a4d5ea1a111f52

标签: CE是一系列APIs,供用户用于实例化和运行xDAIS算法。一个VISA接口被当做与xDM-兼容的xDAIS算法交互的接口。介绍各个整合器及之间联系,并讲到trace调试方法。这里的记录适合于以下情况:嵌入式操作系统应用开发,且将达芬奇的DSP侧当成一个黑盒处理,通过API表示。个人觉得这种应用开发将会越来越重要,因为很多codec已经免费开放了,研发人员需要做的就是根据上层应用的需要将codec lib做CE封装,包括多个codecs的封装调用。

1.1 CE含义:
       CE的APIs对于以下条件都是相同的: 算法运行在本地端(GPP)或运行在远端(DSP); 系统可以是GPP+DSP, DSP-Only, GPP-Only; 所有被支持的GPPs和DSPs;所有受支持的操作系统,如Linux,PrOS,VxWorks,DSP/BIOS,WinCE.
      xDM(xDAIS-DM)是xDAIS标准针对数字媒体的扩展部分,总是与xDAIS接口兼容。xDM接口将codec算法分为4类:video,image,speech,audio(VISA),针对每个codec类都有一系列APIs,由此,不需要改动应用程序源码,即可以将MP3 codec代替WMA codec,仅需要将配置改动。
      CE还提供APIs,用于访问内存,查询CPU使用率统计以及支持的trace信息等。
      CE安装后主目录下的packages里面是整个CE包,其下ti.sdo.ce里面包含所有VISA APIs及用于远程调用的stubs和skeletons,osal目录下包含OS抽象层。主目录下的xdoc里面的是针对packages里面内容的各部分说明文档。

1.2 算法创建
      算法创建负责创建xDAIS算法并提供必要的封装,使得CE可以调用和配置算法。如果codec是xDM兼容的,CE的VISA APIs不需要额外支持即可以用于远程执行,但如果non-xDM兼容,要想实现远程调用的话,算法创建就需要提供codec engine skeletons和stubs(这就是我们的工作)。算法创建使用xDAIS和XDC工具,通过这些工具,生成一个codec library。同时创建一个XDC module,以实现ti.sdo.ce.ICodec的接口。算法创建器传递一个released的codec package到server整合器,这个package包含了一个模块,该模块实现上面说到的ti.sdo.ce.ICodec接口,并包含算法实现的libraries。

1.3 server 整合器
       要支持远程codecs,就必须要用到server整合器,若仅GPP-Only或DSP-Only,就用不到这一块了。server整合和配置各种组件(如DSP/BIOS,FC,DSP/BIOS Link diriver,codecs,Codec Engine)来容纳codecs,并产生一个可执行文件即Codec Server。对于server的配置已经看过很多次了,tcf文件配置DSP/BIOS(参考DSP/BIOS Tconf User's Guide_SPRU007和C6000 DSP/BIOS API Reference_SPRU403),如果应用需要,可以在tcf文件中添加自己的non-Codec Engine条目,其它的就是配置剩余组件,其中一个简单的main()程序用以实现最小程度的初始化工作。然后server整合器将生成的可执行文件传递给下面要讲的Engine整合器.

1.4 Engine 整合器
       Engine整合器定义各种Engine配置,包括Engines名字,codecs和他们在每个Engine中的名字,每个codec是本地还是在远端,决定每个codec应该整合到哪一组(利于支持资源共享),对远程调用的codec,确定Codec Server镜像的名字,等等,以上工作通过XDC配置脚本*.cfg完成。Engine整合器接收Codec Server名字,及它在Server整合器中包含的一系列codecs。对于DSP-Only或GPP-only平台,Codec Server没有启用,所有codecs配置成本地调用("local: true"). 完了Engine整合器将Engine配置文件传递给上层应用程序。

1.5 上层应用程序
       应用程序使用CE APIs(Engine_,VISA,等等)创建/删除已配置好的Engine instances,创建/删除codecs并与之交互,为codecs获取合适的buffers。负责处理I/O操作,包括文件读取和驱动交互(buffer 管理),并负责编译应用程序代码,链接合适的内容,生成一个可执行的镜像文件。生成可执行文件的过程高度依赖于应用程序的操作系统,比如,如果应用程序跑在DSP上,使用DSP/BIOS,则需要一个.tcf文件来配置DSP/BIOS内核,如果跑在Linux上,则应用程序不需要配置操作系统。


2. 使用CE APIs
      这里只提供了APIs的概览,及如何使用他们,对于详细的调用语法,参考安装文献CE_INSTALL_DIR/docs/html

2.1 Core Engine APIs
      Core Engine有一个核心模块即Engine,应用程序使用这个模块打开和关闭Engine instances。多线程应用的话,必须要么顺序访问(不能同时)一个共享Engine instance,要么为每个线程创建一个独立的Engine instance。注意:Engine 句柄不受线程保护,使用Engine instance的每个线程应该单独执行Engine_open()并使用自己所有的Engine句柄,这样在多线程环境下,可保护每个Engine instance不会被其他线程访问。

...

2.2 算法控制MOD_control()并用算法处理数据MOD_process()
       MOD_create()创建算法实例后,可通过MOD_control()函数控制和查询算法, CE定义了很多个宏,根据返回值可查询宏的意义。相关参数传递见相关文档。

2.3 配置优先级决定最重要的算法
      这一点之前没太注意过,应该很有用,比如,一个应用程序可能希望按不同优先级远程运行多个codec instances,例如希望运行两个同样的audio code,一个优先级4,一个优先级5,此时server配置中可以这样写:
Server.algs = [{name: "audenc_copy" , mod: AUDENC_COPY, threadAttrs:{stackMemId:0,priority:Server.MINPRI+3}},
               {name: "audenc_copy_2", mod: AUDENC_COPY, threadAttrs:{stackMemId:0,priority:Server.MINPRI+4}}
               ...
              ]
      这样配置后编译server会报错,因我这两个同样的codec产生UUIDs是由mod(AUDENC_COPY)决定,而非由name决定,因此他们的UUID是相同的。由ARM应用程序传递到DSP server实例化codec的是UUID,而非name,这样server就无法将这两个codec区别开来。解决的办法是在算法创建时以优先级来区别,通过name参数传递到MOD_create() API,格式如下:
Engine_Handle         ce;
AUDENC_Handle   enc;
AUDENC_Handle   enc_high;   // 从这里也可以看出,同一个句柄类型可以定义多个句柄名,比如同样的视频解码VIDDEC_Handle,可以定义一个MP4的,还可                            // 以定义一个h264的,这就解决了之前我们在多解码器封装时用enc的句柄来指向mpeg4解码器的矛盾
ce        = Engine_open("audio_copy", NULL, NULL);
enc      = AUDENC_create(ce, "audenc_copy", NULL);
enc_high = AUDENC_create(ce, "audenc_copy : 5", NULL); // 附加: 5来强调优先级,以表明是不同的codec.(以类似的方式可以指定codec buffers布置)


3. Server APIs
       运行在GPP端的应用程序可以通过下述server APIs来DSP Server相关信息并控制DSP Server。而且,可以使得应用程序获得在DSP Server上配置的内存堆栈信息,当前堆栈的使用情况,并可以对算法堆栈基址和大小做重新配置,相关APIs有以下这些:
Engine_getServer();
Server_getNumMemSegs();
Server_getMemStat();
Server_redefineHeap);
Server_restoreHeap();

3.1 获取Server句柄
       要访问引擎的DSP Server,应用程序首先得通过API获得一个Server句柄,如:
static string engineName = "auddec";
Engine_handle ce;
Server_Handle server;
Engine_Error err;

ce        = Engine_open(engineName, NULL, &err); // 先打开引擎
server = Engine_getServer(ce);     // 如果返回为NULL,则ce没有Server----是不是可以用来判断当前是否为remote调用?

3.2 下面以例子说明以上几个函数的用法:

Server_Handle   server = NULL;
Server_Status   status;
Engine_Handle   ce = NULL;
XDAS_Int8      *buf;
Uint32          base;
String engineName = "audio_copy";
String decoderName = "auddec_copy";
String encoderName = "audenc_copy";

// 打开引擎并获取server句柄,engine_open()将会load并start DSP
ce = Engine_open(engineName, NULL, NULL);
server = Engine_getServer(ce);

// 在连续物理内存上分配一块连续内存, 可以0字节对齐,通常8字节对齐
buf = (XDAS)Int8 *)Memory_contigAlloc(BUFSIZE, ALIGNMENT);

// 转换虚地址到物理地址:因为上面GPP程序分配连续内存的函数返回的地址是一个虚地址,故先得调用本函数将之转换为DSP地址才能传入下面函数
base = Memory_getBufferPhysicalAddress(buf, BUFSIZE, NULL);

// 重新分配算法heap,这块heap必须是物理连续的,而且当前在该heap上没有分配内存
status = Server_redefineHeap(server, "DDRALGHEAP", base, BUFSIZE);

// ...创建、运行codecs
// ...删除codecs

// 重新分配算法heap到其原始状态
status = server_restoreHeap(server, "DDRALGHEAP");

// 释放buffer
Memory_contigFree(buf, BUFSIZE);

// 注: DSP Server可以配置一块内存专门用于算法heap(如tcf中配置的DDRALGHEAP通常有128M之多)。在某些情况下,DSP Server可能只配置了一个较小的算法heap(DDRALGHEAP),而GPP应用程序在运行时希望能有一块更大的连续内存供DSP Server用于算法heap(DDRALGHEAP). 这时,如果有一块之前连续分配的内存DSP没有使用到,则可以收回这块内存,交给DSP Server供做算法Heap用,用完后恢复过来。通常应该是用于多codecs间切换。

3.3 连续物理地址创建的问题
       在ARM端,因为有Linux或类似OS通过内存管理单元MMU维护了一张表,实现虚地址与物理地址之间的匹配对应关系,所以GPP可以处理非连续的buffers,但在DSP端是没有维护这样一张表的,故传给DSP端的地址都必须是实际物理地址,并作cache对齐。
       有一种情况特别需要注意:开始创建A,B,C三个codec instances,给他们各自分配了所需连续的物理空间,codecs能正常运行,然后当删除codec A和codec C,然后再次创建codec C,此时A可能就无法创建了,因为此时给C分配的连续地址占据了原先给A分配的空间剩下的可能就没有足够大的连续空间供A使用了,导致A无法创建。


4. DSP的实时性问题
       GPP应用程序负责处理所有多线程和实时性问题,例如,频率高但持续时间短的处理(如audio)被Linux OS调度在一个较高的优先级上,相对时间长的处理(如video)优先级较低。每秒钟内,app可以使用CE run或control一个算法达7000次之多,对于每秒30~50帧的视频处理,这看似非常足够了,但事实上因为各种限制,达不到这个切换频率的。

4.1 多处理-单处理性能比较
      VISA APIs被调用后会等待函数返回,由此,多线程就派到用场了,当等待DSP处理算法时,这个等待时间可以交给其他线程来处理其他的事情,对于GPP多线程与CE的联合管理见相关文档。

5. CE debugging (trace) 相关
       CE模块在app端和server端都提供了非常丰富的trace信息,若任何object---codec或一个CE,或本地或远端,在app端创建失败,按照下面介绍实现各种trace方法做基本调试。

5.1 从ARM端实现ARM+DSP系统的调试
       在run app前设置下CE_DEBUG的环境变量值,其中1为级别最低的调试信息输出,包括ARM和DSP端的warnings和errors,2中等级别,3为最高级别。
:~# CE_DEBUG=1/2/3 .app.out [any app args...] >> log.txt

5.2 DSP-only系统的CE调试
       对DSP-only系统,假定从CCS调试应用程序,显示CE trace信息,可以在C code中打开tracing。做法如下:首先保证添加了两个头文件<stdio.h><ti/sdo/ce/trace/gt.h>,然后紧跟在CERuntime_init()函数后添加下面语句:
GT_setprintf( (GT_PrintFxn)printf );
GT_set( "*+67"); // 表示打开多少trace,这里输出warnings and errors。如果希望打开所有trace,则使用下面一句:
---->GT_set( "*+01234567, GT_prefix=1235, GT_time=0" ); // 这句等效于setenv CE_TRACE "*=01234567,GT_prefix=1235,GT_time=", 其中time不看

6. 软件trace调试
      TraceUtil模块可以帮助在CE应用中实现软件trcaing,用于调试和收集实时数据;另外,类似SoC Analyzer等工具可以帮助显示trace数据,而TraceUtil可以用于简化以上工具的使用。

6.1 配置TraceUtil模块
      要使能TraceUtil module,在GPP端配置脚本文件cfg中任何位置处添加下行:
var TraceUtil = xdc.useModule('ti.sdo.ce.utils.trace.TraceUtil');
      缺省设置使得GPP应用程序打印所有GPP侧的errors和warnings到标准输出,收集DSP侧errors和warning到标准输出,不会使能或扑捉任何DSP/BIOS logging。但可以通过设置trace属性值(NO_TRACING,DEFAULT_TRACING,SOCRATES_TRACING,FULL_TRACING)来修改输出内容,比如:
TraceUtil.attrs = TraceUtil.SOCRATES_TRACING; // 使能SOC分析器和DSP/BIOS logging,GPP侧输出到/tmp/cearmlog.txt,DSP侧输出到/tmp/cedsp0log.txt,DSP/BIOS logging输出到/tmp/bilslog.dat。此属性值关闭了所有tracing。如打开tracing,则:
TraceUtil.attrs = TraceUtil.FULL_TRACING;         <ti.sdo.ce.utils.trace.TraceUtil>

6.2 app C code中支持TraceUtil
      先得添加头文件<ti/sdo.ce/utils/trace/TraceUtil.h>,并在CERuntime_init()后添加以下行代码:
#include <ti/sdo.ce/utils/trace/TraceUtil.h>
TraceUtil_start(engineName);
....
TraceUtil_stop(); // app结束时调用

6.3 DSP Server的配置
      如果前面在GPP侧使用了DSP/BIOS logging,则必须在DSP Server image中也要使能DSP/BIOS logging,配置脚本中添加:
var LogServer = xdc.useModule('ti.sdo.ce.bioslog.LogServer');
并通过设置环境变量CE_TRACE的值来改变输出模式,详见文档58。

7. 下面提供一个实际的reusable example脚本配置示例供参考。