【每周一文】Field-aware Factorization Machine（2014）

来源：互联网发布：库里2016季后赛数据编辑：程序博客网时间：2024/04/29 04:19

概述

FFM 近年来在各类比赛取得不俗的成绩，该文介绍了FFM的算法思路和求解过程。

线性模型由于其简单好优化在工业界广泛使用，特别是LR、SVM等表达能力比较强的线性模型。这些模型一个共同的问题是需要人工进行特征组合进行模型优化，沿着这个思路出现了几个模型。

基础模型，表示为：

Φ (w, x) = w 0 + \sum i = 1 n w i x i

线性模型对特征进行线性加权去表达目标，表达能力较弱。

为了考虑二维特征组合，考虑如下模型

Φ (w, x) = w 0 + \sum i = 1 n w i x i + \sum i = 1 n \sum j = i + 1 n w i, j x i, j

加入一个二次项，将特征进行两两组合。此时能够自动进行特征组合，但是模型计算复杂度和本身复杂度都较大。

多项式模型相当于得到一个权重的矩阵，并且非常稀疏，可以采用降维的思路将权重表示成一个向量，由此得到FM模型

Φ (w, x) = w 0 + \sum i = 1 n w i x i + \sum i = 1 n \sum j = i + 1 n < v i, v j > x i x j

这样可以解决样本不足导致过拟合的问题，但是FM模型本身也比较容易过拟合，并且向量长度不好选择，过长不容易优化，过短效果不好。

FM模型的改进，将特征进行按照域划分，在每一个维度上都学到一个向量表示，此时选择较小的向量长度就可以得到较好的效果，目标如下:

Φ (w, x) = w 0 + \sum i = 1 n w i x i + \sum i = 1 n \sum j = i + 1 n < v i, f j, v j, f i > x i x j

（FFM提出者直接将常数项和一次项去掉）

基于FFM的LR模型的损失函数表示为

m i n \sum i = 1 L (l o g (1 + e x p (- y i ϕ (w, x))) + λ 2 | | w | | 2)

直接采用SGD进行求解。具体可以参考

目前FFM模型在公司CTR、CVR预估上广泛使用，由于该类预测问题会很自然的将特征划分为用户特征、广告特征和上下文特征等，采用FM模型交叉太多而且模型也非常大。采用FFM能够进行特定域下的交叉，方便也很直观。

0 0