rtmp和声学回声消除调研

来源:互联网 发布:颀乎其 编辑:程序博客网 时间:2024/04/30 19:44

来源 http://www.qttaudio.com/rtmpandaec.html


一、应用场景

低延时应用场景包括:
  .  
互动式直播:譬如2013年大行其道的美女主播,游戏直播等等
     
各种主播,流媒体分发给用户观看。用户可以文字聊天和主播互动。
  .  
视频会议:我们要是有同事出差在外地,就用视频会议开内部会议。
     
其实会议1秒延时无所谓,因为人家讲完话后,其他人需要思考,
     
思考的延时也会在1秒左右。当然如果用视频会议吵架就不行。
  .  
其他:监控,直播也有些地方需要对延迟有要求,
     
互联网上RTMP协议的延迟基本上能够满足要求。

二、RTMP和延时

1. RTMP的特点如下:

1) Adobe支持得很好:
   RTMP
实际上是现在编码器输出的工业标准协议,基本上所有的编码器(摄像头之类)都支持RTMP输出。
   
原因在于PC市场巨大,PC主要是WindowsWindows的浏览器基本上都支持flash
   Flash
又支持RTMP支持得非常好。
2) 
适合长时间播放:
   
因为RTMP支持的很完善,所以能做到flash播放RTMP流长时间不断流,
   
当时测试是100万秒,即10天多可以连续播放。
   
对于商用流媒体应用,客户端的稳定性当然也是必须的,否则最终用户看不了还怎么玩?
   
我就知道有个教育客户,最初使用播放器播放http流,需要播放不同的文件,结果就总出问题,
   
如果换成服务器端将不同的文件转换成RTMP流,客户端就可以一直播放;
   
该客户走RTMP方案后,经过CDN分发,没听说客户端出问题了。
3
)延迟较低:
   
比起YY的那种UDP私有协议,RTMP算延迟大的(延迟在1-3秒),

采用UDP自己开发一套私有协议,可以大幅度减少延迟,缺点会有丢包,而且发送端包的顺序,到接收端会有乱码,需要自己实现一套排序机制,进行正确排序。
   
比起HTTP流的延时(一般在10秒以上)RTMP算低延时。
   
一般的直播应用,只要不是电话类对话的那种要求,RTMP延迟是可以接受的。
   
在一般的视频会议应用中,RTMP延时也能接受,原因是别人在说话的时候我们一般在听,
   
实际上1秒延时没有关系,我们也要思考(话说有些人的CPU处理速度还没有这么快)。
4) 
有累积延迟:
   
技术一定要知道弱点,RTMP有个弱点就是累积误差,原因是RTMP基于TCP不会丢包。
   
所以当网络状态差时,服务器会将包缓存起来,导致累积的延迟;
   
待网络状况好了,就一起发给客户端。
   
这个的对策就是,当客户端的缓冲区很大,就断开重连。

2. RTMP延迟的测量

如何测量延时,是个很难的问题,
不过有个行之有效的方法,就是用手机的秒表,可以比较精确的对比延时。
(网上说的方法,觉得不靠谱)
我是目前根据分段统计时间,Speex编码阶段耗时平均10ms,解码平均11ms,播放端最大80ms,播放端的播放队列目前buffer大小是80ms的数据流,4帧。服务器端大概有1-3s延时。这一块大概数据RTMP协议部分(包括Red5服务器)的延时。

延时测量方面,开始设想的是在发送数据的第二字节,加上一个当前time,传到播放端后进行解析,拿到time再和本地time比较时间差,发现让两台设备统一时间到ms,没有找到设置途径,时统问题。
经过测量发现,在网络状况良好时:
  . RTMP
延时可以做到0.8秒左右。
  . 
多级边缘节点不会影响延迟(和SRS同源的某CDN的边缘服务器可以做到)
  . Nginx-Rtmp
延迟有点大,估计是缓存的处理,多进程通信导致?
  . GOP
是个硬指标,不过SRS可以关闭GOPcache来避免这个影响.
  . 
服务器性能太低,也会导致延迟变大,服务器来不及发送数据。
  . 
客户端的缓冲区长度也影响延迟。
   
譬如flash客户端的NetStream.bufferTime设置为10秒,那么延迟至少10秒以上。

3. GOP-Cache

什么是GOP?就是视频流中两个I帧的时间距离。
GOP
有什么影响?
Flash
(解码器)只有拿到GOP才能开始解码播放。
也就是说,服务器一般先给一个I帧给Flash
可惜问题来了,假设GOP10秒,也就是每隔10秒才有关键帧,
如果用户在第5秒时开始播放,会怎么样?
第一种方案:等待下一个I帧,
也就是说,再等5秒才开始给客户端数据。
这样延迟就很低了,总是实时的流。
问题是:等待的这5秒,会黑屏,现象就是播放器卡在那里,什么也没有,
有些用户可能以为死掉了,就会刷新页面。
总之,某些客户会认为等待关键帧是个不可饶恕的错误,延时有什么关系?
我就希望能快速启动和播放视频,最好打开就能放!

第二种方案:马上开始放,
放什么呢?
你肯定知道了,放前一个I帧。
也就是说,服务器需要总是cache一个gop
这样客户端上来就从前一个I帧开始播放,就可以快速启动了。
问题是:延迟自然就大了。

有没有好的方案?
有!至少有两种:
编码器调低GOP,譬如0.5秒一个GOP,这样延迟也很低,也不用等待。
坏处是编码器压缩率会降低,图像质量没有那么好。

4. 累积延迟

除了GOP-Cache,还有一个有关系,就是累积延迟。
服务器可以配置直播队列的长度,服务器会将数据放在直播队列中,
如果超过这个长度就清空到最后一个I帧:


当然这个不能配置太小,
譬如GOP1秒,queue_length1秒,这样会导致有1秒数据就清空,会导致跳跃。


有更好的方法?有的。
延迟基本上就等于客户端的缓冲区长度,因为延迟大多由于网络带宽低,
服务器缓存后一起发给客户端,现象就是客户端的缓冲区变大了,
譬如NetStream.BufferLength=5秒,那么说明缓冲区中至少有5秒数据。

处理累积延迟的最好方法,是客户端检测到缓冲区有很多数据了,如果可以的话,就重连服务器。

积累延时这个需要测试后调整。

本人实际测量,先将red5.property修改send_bufferreceive_buffer

数据头加上时间码,测量后传输层延时几乎为0.

三、声学回声消除

Speex 简介

Speex 语音是一个开源、免费软件专利的自由音频压缩格式的语音设计。该项目旨在降低Speex语音处理的免费性,来替代昂贵的专有语音编码及应用进入壁垒。此外,Speex 可适应互联网的应用,并提供有用的功能。

Speex GNU工程的一部分,是根据经修订的BSD许可证发布的。

技术实现:

Speex 是基于CELP码激励线性预测编码)的,旨在将语音压缩比特率降到从244kbps

功能:

窄带(8kHz),宽带(16kHz)和超宽带(32kHz)在同一个码流压缩。

强度立体声编码

数据包丢失隐藏

可变比特率(VBR

语音活动检测(VAD

间断变速器(DTX

定点模式

声学回声消除(AEC

噪音抑制(NOISE

Speex本身自带了一些回声消除算法接口。大概实现思路,

1.是先取得当前扬声器的声音player

2.是从Mic采集声音recorder

3.是进行回音消除,得到OutBuffer。消除回声的buffer发给接收端。

目前问题是扬声器播放端buffer是一个queue结构,采集端数据存储也是一个queue结构,现在分别在两个线程中维持着,如何能够同步的获取playerrecorderbuffer是一个难题。因为稍稍有些不同步,声学回声消除器中的自适应滤波器就会发散,不但消除不了回声,还会破坏原始采集到的声音。

Speex 1.2

speex的窄带编码算法是基于 8k 16bit 单声道,每帧数据160个采样
speex
内部将160个采样点,分成了4个子帧,每个子帧40(…)

计算8000 frequency 下的 framesize 160个采样点,filter_length = 160*8;

 

 

Framesize 采样的帧长一般是80,160320

Filter 回音消除的尾长 一般是80*10,160*10,320*10

这些需要实际验证。

SpeexEchoState*echo_state = speex_echo_state_init(frame_size, filter_length);

frame_size 的取值最好是一个编码的frame大小, 在低带宽条件下,一般延迟20ms,而大小为160
filter_length,
最好是房间内反射时间的1/3
一个房间的反射时延为300ms
    
那么这个filter_length就最好是100ms(这个长度又被称为tail length).


原创粉丝点击