x264编码学习

来源：互联网发布：淘宝天猫仓储编辑：程序博客网时间：2024/06/06 15:52

定位到x264_encoder_encode这个函数，这个函数应该是H264编码最上层的函数，实现编码一帧视频。在进行下一步分析之前有必要了解，控制X264编码的全局性结构体x264_t，这个结构体控制着视频一帧一帧的编码，包括中间参考帧管理、码率控制、全局参数等一些重要参数和结构体。
下面是x264_t这个结构体的定义（这里仅对几个关键的结构和变量进行分析）：

struct x264_t{    x264_param_t    param;//编码器编码参数，包括量化步长、编码级别等等一些参数    int             i_frame;//编码帧号，用于计算POC（picture of count 标识视频帧的解码顺序）    int             i_nal_type;     /* Nal 单元的类型，可以查看编码标准，有哪几种类型，需要理解的类型有：不分区（一帧作为一个片）非IDR图像的片；片分区A、片分区B、片分区C、IDR图像中的片、序列参数集、图像参数集 */    int             i_nal_ref_idc;  /* Nal 单元的优先级别<span style="background-color: rgb(255, 255, 255); ">取值范围[0,1,2,3]，值越大表示优先级越高，此Nal单元就越重要</span>*/    /* We use only one SPS（序列参数集） and one PPS（图像参数集） */    x264_sps_t      sps_array[1];//结构体的数组    x264_sps_t      *sps;    x264_pps_t      pps_array[1];    x264_pps_t      *pps;    int             i_idr_pic_id;......    struct    {//这个结构体涉及到X264编码过程中的帧管理，理解这个结构体中的变量在编码标准的理论意义是非常重要的        x264_frame_t *current[X264_BFRAME_MAX*4+3];/*已确定帧类型，待编码帧，每一个GOP在编码前，每一帧的类型在编码前已经确定。当进行编码时，从这里取出一帧数据。*/        x264_frame_t *next[X264_BFRAME_MAX*4+3];//尚未确定帧类型的待编码帧，当确定后，会将此数组中的帧转移到current数组中去。        x264_frame_t *unused[X264_BFRAME_MAX*4 + X264_THREAD_MAX*2 + 16+4];/*这个数组用于回收那些在编码中分配的frame空间，当有新的需要时，直接拿过来用，不用重新分配新的空间，提高效率*/        /* For adaptive B decision */        x264_frame_t *last_nonb;        /* frames used for reference + sentinels */        x264_frame_t *reference[16+2];//参考帧队列，注意参考帧都是重建帧        int i_last_idr; /* 上一次刷新关键帧的帧号，配合前面的i_frame，可以用来计算POC */        int i_input;    /* Number of input frames already accepted *///frames结构体中i_input指示当前输入的帧的（播放顺序）序号。        int i_max_dpb;  /* 分配解码图像缓冲的最大数量（DPB） */        int i_max_ref0;//最大前向参考帧数量        int i_max_ref1;//最大后向参考帧数量        int i_delay;    /* Number of frames buffered for B reordering *///i_delay设置为由B帧个数（线程个数）确定的帧缓冲延迟，在多线程情况下为i_delay = i_bframe + i_threads - 1。//而判断B帧缓冲填充是否足够则通过条件判断：h->frames.i_input <= h->frames.i_delay + 1 - h->param.i_threads。        int b_have_lowres;  /* Whether 1/2 resolution luma planes are being used */        int b_have_sub8x8_esa;    } frames;//指示和控制帧编码过程的结构    /* current frame being encoded */    x264_frame_t    *fenc;//指向当前编码帧    /* frame being reconstructed */    x264_frame_t    *fdec;//指向当前重建帧，重建帧的帧号要比当前编码帧的帧号小1    /* references lists */    int             i_ref0;//前向参考帧的数量    x264_frame_t    *fref0[16+3];     /* 存放前向参考帧的数组（注意参考帧均是重建帧） */    int             i_ref1;//后向参考帧的数量    x264_frame_t    *fref1[16+3];     /* 存放后向参考帧的数组*/    int             b_ref_reorder[2];........};

看看别人写的对x264结构体的说明

typedef struct x264_param_t{  /* CPU 标志位 */  unsigned int cpu;  int i_threads; /* 并行编码多帧 */  int b_deterministic; /*是否允许非确定性时线程优化*/  int i_sync_lookahead; /* 线程超前缓冲 */  /* 视频属性 */  int i_width; /* 宽度*/  int i_height; /* 高度*/  int i_csp; /* 编码比特流的CSP,仅支持i420，色彩空间设置 */  int i_level_idc; /* level值的设置*/  int i_frame_total; /* 编码帧的总数, 默认 0 *//*Vui参数集视频可用性信息视频标准化选项 */  struct  {  /* they will be reduced to be 0 < x <= 65535 and prime */  int i_sar_height;  int i_sar_width; /* 设置长宽比 */  int i_overscan; /* 0=undef, 1=no overscan, 2=overscan 过扫描线，默认"undef"(不设置)，可选项：show(观看)/crop(去除)*/  /*见以下的值h264附件E */  Int i_vidformat;/* 视频格式，默认"undef"，component/pal/ntsc/secam/mac/undef*/  int b_fullrange; /*Specify full range samples setting，默认"off"，可选项：off/on*/  int i_colorprim; /*原始色度格式，默认"undef"，可选项：undef/bt709/bt470m/bt470bg，smpte170m/smpte240m/film*/  int i_transfer; /*转换方式，默认"undef"，可选项：undef/bt709/bt470m/bt470bg/linear,log100/log316/smpte170m/smpte240m*/  int i_colmatrix; /*色度矩阵设置，默认"undef",undef/bt709/fcc/bt470bg,smpte170m/smpte240m/GBR/YCgCo*/  int i_chroma_loc; /* both top & bottom色度样本指定，范围0~5，默认0 */  } vui;  int i_fps_num;  int i_fps_den;/*这两个参数是由fps帧率确定的，赋值的过程见下：{ float fps;  if( sscanf( value, "%d/%d", &p->i_fps_num, &p->i_fps_den ) == 2 )  ;  else if( sscanf( value, "%f", &fps ) )  {  p->i_fps_num = (int)(fps * 1000 + .5);  p->i_fps_den = 1000;  }  else  b_error = 1;  }Value的值就是fps。*/  /*流参数 */  int i_frame_reference; /* 参考帧最大数目 */  int i_keyint_max; /* 在此间隔设置IDR关键帧 */  int i_keyint_min; /* 场景切换少于次值编码位I, 而不是 IDR. */  int i_scenecut_threshold; /*如何积极地插入额外的I帧 */  int i_bframe; /*两个相关图像间B帧的数目 */  int i_bframe_adaptive; /*自适应B帧判定*/  int i_bframe_bias; /*控制插入B帧判定，范围-100~+100，越高越容易插入B帧，默认0*/  int b_bframe_pyramid; /*允许部分B为参考帧 *//*去块滤波器需要的参数*/  int b_deblocking_filter;  int i_deblocking_filter_alphac0; /* [-6, 6] -6 light filter, 6 strong */  int i_deblocking_filter_beta; /* [-6, 6] idem */  /*熵编码 */  int b_cabac;  int i_cabac_init_idc;  int b_interlaced; /* 隔行扫描 */  /*量化 */  int i_cqm_preset; /*自定义量化矩阵(CQM),初始化量化模式为flat*/  char *psz_cqm_file; /* JM format读取JM格式的外部量化矩阵文件，自动忽略其他—cqm 选项*/  uint8_t cqm_4iy[16]; /* used only if i_cqm_preset == X264_CQM_CUSTOM */  uint8_t cqm_4ic[16];  uint8_t cqm_4py[16];  uint8_t cqm_4pc[16];  uint8_t cqm_8iy[64];  uint8_t cqm_8py[64];  /* 日志 */  void (*pf_log)( void *, int i_level, const char *psz, va_list );  void *p_log_private;  int i_log_level;  int b_visualize;  char *psz_dump_yuv; /* 重建帧的名字 */  /* 编码分析参数*/  struct  {  unsigned int intra; /* 帧间分区*/  unsigned int inter; /* 帧内分区 */  int b_transform_8x8; /* 帧间分区*/  int b_weighted_bipred; /*为b帧隐式加权 */  int i_direct_mv_pred; /*时间空间队运动预测 */  int i_chroma_qp_offset; /*色度量化步长偏移量 */  int i_me_method; /* 运动估计算法 (X264_ME_*) */  int i_me_range; /* 整像素运动估计搜索范围 (from predicted mv) */  int i_mv_range; /* 运动矢量最大长度(in pixels). -1 = auto, based on level */  int i_mv_range_thread; /* 线程之间的最小空间. -1 = auto, based on number of threads. */  int i_subpel_refine; /* 亚像素运动估计质量 */  int b_chroma_me; /* 亚像素色度运动估计和P帧的模式选择 */  int b_mixed_references; /*允许每个宏块的分区在P帧有它自己的参考号*/  int i_trellis; /* Trellis量化，对每个8x8的块寻找合适的量化值，需要CABAC，默认0 0：关闭1：只在最后编码时使用2：一直使用*/  int b_fast_pskip; /*快速P帧跳过检测*/  int b_dct_decimate; /* 在P-frames转换参数域 */  int i_noise_reduction; /*自适应伪盲区 */  float f_psy_rd; /* Psy RD strength */  float f_psy_trellis; /* Psy trellis strength */  int b_psy; /* Toggle all psy optimizations */  /*，亮度量化中使用的无效区大小*/  int i_luma_deadzone[2]; /* {帧间, 帧内} */  int b_psnr; /* 计算和打印PSNR信息 */  int b_ssim; /*计算和打印SSIM信息*/  } analyse;  /* 码率控制参数 */  struct  {  int i_rc_method; /* X264_RC_* */  int i_qp_constant; /* 0-51 */  int i_qp_min; /*允许的最小量化值 */  int i_qp_max; /*允许的最大量化值*/  int i_qp_step; /*帧间最大量化步长 */  int i_bitrate; /*设置平均码率 */  float f_rf_constant; /* 1pass VBR, nominal QP */  float f_rate_tolerance;  int i_vbv_max_bitrate; /*平均码率模式下，最大瞬时码率，默认0(与-B设置相同) */  int i_vbv_buffer_size; /*码率控制缓冲区的大小，单位kbit，默认0 */  float f_vbv_buffer_init; /* <=1: fraction of buffer_size. >1: kbit码率控制缓冲区数据保留的最大数据量与缓冲区大小之比，范围0~1.0，默认0.9*/  float f_ip_factor;  float f_pb_factor;  int i_aq_mode; /* psy adaptive QP. (X264_AQ_*) */  float f_aq_strength;  int b_mb_tree; /* Macroblock-tree ratecontrol. */  int i_lookahead;  /* 2pass 多次压缩码率控制 */  int b_stat_write; /* Enable stat writing in psz_stat_out */  char *psz_stat_out;  int b_stat_read; /* Read stat from psz_stat_in and use it */  char *psz_stat_in;  /* 2pass params (same as ffmpeg ones) */  float f_qcompress; /* 0.0 => cbr, 1.0 => constant qp */  float f_qblur; /*时间上模糊量化 */  float f_complexity_blur; /* 时间上模糊复杂性 */  x264_zone_t *zones; /* 码率控制覆盖 */  int i_zones; /* number of zone_t's */  char *psz_zones; /*指定区的另一种方法*/  } rc;  /* Muxing parameters */  int b_aud; /*生成访问单元分隔符*/  int b_repeat_headers; /* 在每个关键帧前放置SPS/PPS*/  int i_sps_id; /* SPS 和 PPS id 号 */  /*切片（像条）参数 */  int i_slice_max_size; /* 每片字节的最大数，包括预计的NAL开销. */  int i_slice_max_mbs; /* 每片宏块的最大数，重写 i_slice_count */  int i_slice_count; /* 每帧的像条数目: 设置矩形像条. */  /* Optional callback for freeing this x264_param_t when it is done being used.  * Only used when the x264_param_t sits in memory for an indefinite period of time,  * i.e. when an x264_param_t is passed to x264_t in an x264_picture_t or in zones.  * Not used when x264_encoder_reconfig is called directly. */  void (*param_free)( void* );} x264_param_t;

这个是老版本的，新的x264好像新增了一些参数。

typedef struct{    /* In: force picture type (if not auto)     *     If x264 encoding parameters are violated in the forcing of picture types,     *     x264 will correct the input picture type and log a warning.     *     The quality of frametype decisions may suffer if a great deal of fine-grained     *     mixing of auto and forced frametypes is done.     * Out: type of the picture encoded */    int     i_type;    /* In: force quantizer for > 0 */    int     i_qpplus1;    /* In: user pts, Out: pts of encoded picture (user)*/    int64_t i_pts;    /* In: raw data */    x264_image_t img;} x264_picture_t;

I_type 指明被编码图像的类型，有X264_TYPE_AUTO X264_TYPE_IDR X264_TYPE_I X264_TYPE_P X264_TYPE_BREF X264_TYPE_B可供选择，初始化为AUTO，说明由x264在编码过程中自行控制。

I_qpplus1 ：此参数减1代表当前画面的量化参数值。

I_pts ：program time stamp 程序时间戳，指示这幅画面编码的时间戳。

Img :存放真正一副图像的原始数据.

typedef struct{    int     i_csp;    int     i_plane;    int     i_stride[4];    uint8_t *plane[4]; } x264_image_t;

i_csp: color space parameter 色彩空间参数 X264只支持I420

i_Plane 代表色彩空间的个数。一般为3，YUV。

typedef struct{    int i_ref_idc;  /* nal_priority_e */    int i_type;     /* nal_unit_type_e */    int b_long_startcode;    int i_first_mb; /* If this NAL is a slice, the index of the first MB in the slice. */    int i_last_mb;  /* If this NAL is a slice, the index of the last MB in the slice. */    /* Size of payload in bytes. */    int     i_payload;    /* If param->b_annexb is set, Annex-B bytestream with startcode.     * Otherwise, startcode is replaced with a 4-byte size.     * This size is the size used in mp4/similar muxing; it is equal to i_payload-4 */    uint8_t *p_payload;} x264_nal_t;