视音频pts计算

来源：互联网发布：蜂窝移动网络启用4g 编辑：程序博客网时间：2024/04/30 01:02

1、概述

这段时间做转码，计算pts的时候都是转换一下时间基，我就在想这个pts如果没有原来的pts做参考如何计算其值？摸索一番总算明白了头绪记录于此。

2、视频pts

视频比较好理解，就是每帧递增，假如fps是25帧的，时间基为fps的倒数1/25，那么pts递增即可。

如下：

第一帧：pts=0

第二帧：pts=1

第三帧：pts=3

第n帧：pts = n - 1;

。。。以此类推

计算公式为：第n帧的pts = n * (（1 / timbase）/ fps);

3、音频pts

音频相对来说更难理解一些，因为音频的一个packet不止一帧，所以一秒到底有多少个packet就不知道，就别说如何计算pts了。

假设音频一秒有num_pkt个packet，那么这个num_pkt到底是多少？

这的从音频基础开始说起，我们知道音频有个采样率，就是一秒钟采用多少次，很多音频都是44100的采样率，也有8k的，那么这个采样率和num_pkt有什么关系呢？

我们发现在AVFrame中有一个比较重要的字段叫做nb_samples，这个字段名为采样数，此字段可以结合音频数据格式计算这个frame->data有多大，其实这个字段联合采样率还可以计算音频一秒有多少个packet。

计算公式如下：

num_pkt = 采样率 / nb_samples;

这样我们就知道了音频每秒的包数目（可以见到理解为帧），有了此数据计算pts就和视频一模一样了，

计算公式如下：

第n个包的pts = n * (（1 / timbase）/ num_pkt);

很多音频时间基和采样率成倒数( 例如44100采样率 time_base.num =1, time_base.den=44100 )，那么根据公式我们的音频pts就可以很简单的以nb_samples递增了，如下：

第一个包：pts = 0 * nb_samples;

第二个包：pts = 1 * nb_samples;

第三个包：pts = 2 * nb_samples;

第n个包：pts = (n - 1) * nb_samples;

注：以上说的timebase为AVStream里的timebase。

I,P，B帧和PTS，DTS时间戳的关系

FFmpeg里有两种时间戳：DTS（Decoding Time Stamp）和PTS（Presentation Time Stamp）。顾名思义，前者是解码的时间，后者是显示的时间。要仔细理解这两个概念，需要先了解FFmpeg中的packet和frame的概念。

FFmpeg中用AVPacket结构体来描述解码前或编码后的压缩包，用AVFrame结构体来描述解码后或编码前的信号帧。对于视频来说，AVFrame就是视频的一帧图像。这帧图像什么时候显示给用户，就取决于它的PTS。DTS是AVPacket里的一个成员，表示这个压缩包应该什么时候被解码。如果视频里各帧的编码是按输入顺序（也就是显示顺序）依次进行的，那么解码和显示时间应该是一致的。可事实上，在大多数编解码标准（如H.264或HEVC）中，编码顺序和输入顺序并不一致。于是才会需要PTS和DTS这两种不同的时间戳。

I,P，B帧和PTS，DTS的关系

基本概念：

I frame ：帧内编码帧又称intra picture，I 帧通常是每个 GOP（MPEG 所使用的一种视频压缩技术）的第一个帧，经过适度地压缩，做为随机访问的参考点，可以当成图象。I帧可以看成是一个图像经过压缩后的产物。

P frame: 前向预测编码帧又称predictive-frame，通过充分将低于图像序列中前面已编码帧的时间冗余信息来压缩传输数据量的编码图像，也叫预测帧；

B frame: 双向预测内插编码帧又称bi-directional interpolated prediction frame，既考虑与源图像序列前面已编码帧，也顾及源图像序列后面已编码帧之间的时间冗余信息来压缩传输数据量的编码图像，也叫双向预测帧；

PTS：Presentation Time Stamp。PTS主要用于度量解码后的视频帧什么时候被显示出来

DTS：Decode Time Stamp。DTS主要是标识读入内存中的ｂｉｔ流在什么时候开始送入解码器中进行解码。

在没有B帧存在的情况下DTS的顺序和PTS的顺序应该是一样的。

ＩＰＢ帧的不同：

I frame:自身可以通过视频解压算法解压成一张单独的完整的图片。

P frame：需要参考其前面的一个I frame 或者B frame来生成一张完整的图片。

B frame:则要参考其前一个I或者P帧及其后面的一个P帧来生成一张完整的图片。

两个I frame之间形成一个GOP，在x264中同时可以通过参数来设定bf的大小，即：I 和p或者两个P之间B的数量。

通过上述基本可以说明如果有B frame 存在的情况下一个GOP的最后一个frame一定是P.

DTS和PTS的不同：

DTS主要用于视频的解码,在解码阶段使用.PTS主要用于视频的同步和输出.在display的时候使用.在没有B frame的情况下.DTS和PTS的输出顺序是一样的.

例子:

下面给出一个GOP为15的例子,其解码的参照frame及其解码的顺序都在里面:

ibpdtspts

如上图：I frame 的解码不依赖于任何的其它的帧.而p frame的解码则依赖于其前面的I frame或者P frame.B frame的解码则依赖于其前的最近的一个I frame或者P frame 及其后的最近的一个P frame.

阅读全文

0 0