SVM支持矢量机

来源：互联网发布：linux device is busy 编辑：程序博客网时间：2024/05/20 04:26

通过间隔最大化→分离超平面:wTx+b=0→决策函数：h(x)=sign(wTx+b)

函数间隔与几何间隔：

函 数 间 隔 ： γ^i = y i (w \cdot x i + b) 几 何 间 隔 ： γ i = y i (w ∥ w ∥ \cdot x i + b ∥ w ∥)

间隔最大化：

max w, b γ s . t . y i (w ∥ w ∥ \cdot x i + b ∥ w ∥) \geq γ 相 当 于 max w, b γ ^ ∥ w ∥ s . t . y i (w \cdot x i + b) \geq γ^

因为函数间隔的取值不影响问题求解

取 γ^= 1, 最 终 优 化 问 题 为 ：; min w, b 1 2 ∥ w ∥ 2 s . t . y i (w \cdot x i + b) \geq 1

使等号成立的样本成为“支持向量”

优化问题求解：

拉 格 朗 日 乘 数 法 一 般 形 式 ： min w f (w) s . t . g i (w) \leq 0, b i (w) = 0, i = 1, 2, 3, \dots L (w, α, β) = f (w) + \sum i = 1 m α i g i (w) + \sum i = 1 m β i b i (w) K K T 条 件 ： α i \geq 0, β i \geq 0 g i (w) \leq 0, b i (w) = 0 α i g i (w) = 0, β i b i (w) = 0

L (w, b, α) = 1 2 ∥ w ∥ 2 + \sum i = 1 m α i (1 - y i (w T x i + b)) 令 L (w, b, α) 对 w 和 b 的 偏 导 为 零 可 得 ： w = \sum i = 1 m α i y i x i, \sum i = 1 m α i y i = 0 L (w, b, α) = 1 2 w T w + \sum i = 1 m α i - \sum i = 1 m α i y i w T x i - \sum i = 1 m α i y i b) = = 1 2 w T w - w T w + \sum i = 1 m α i = \sum i = 1 m α i - 1 2 w T w 可 得 L (w, b, α) 的 对 偶 问 题 ： max α \sum i = 1 m α i - 1 2 \sum i = 1 m \sum j = 1 m α i α j y i y j x T i x j s . t . \sum i = 1 m α i y i = 0, α i \geq 0 需 满 足 的 K K T 条 件 为 ： α i \geq 0, y i (w T x i + b) \geq 1, α i (1 - y i (w T x i + b)) = 0 则 ： 对 任 意 样 本 总 有 α i = 0 或 y i (w T x i + b) = 1 ， 若 α i = 0, 则 对 应 的 w i = 0 样 本 对 算 法 无 影 响 ； 若 α i > 0 有 y i (w T x i + b) = 1 ， 则 样 本 为 支 持 向 量 。

SVM的一个重要性质:训练完成后，大部分样本不需要保留，最终模型仅与支持向量有关。

核函数

将样本从原始空间映射到高维特征空间，使其线性可分

如果原始空间是有限的，即特征维数有限，那么一定存在一个高维特征空间是样本可分

令 ϕ (x) 表 示 映 射 后 的 特 征 向 量 \to f (x) = w t ϕ (x) + b min w, b 1 2 ∥ w ∥ 2 s . t . y i (w T ϕ (x i) + b) \geq 1 max α \sum i = 1 m α i - 1 2 \sum i = 1 m \sum j = 1 m α i α j y i y j ϕ (x i) T ϕ (x j) s . t . \sum i = 1 m α i y i = 0, α i \geq 0 “ 核 函 数 ” ： K (x i, x j) = < ϕ (x i), ϕ (x j) > = ϕ (x i) T ϕ (x j) \to max α \sum i = 1 m α i - 1 2 \sum i = 1 m \sum j = 1 m α i α j y i y j K (x i, x j) f (x) = w t ϕ (x) + b = \sum i = 1 m α i y i ϕ (x i) T ϕ (x) + b = \sum j = 1 m α i y i K (x i, x j) + b 核 函 数 定 义 ： 另 X 表 示 输 入 空 间 ， k (\cdot, \cdot) 是 定 义 在 X \times X 上 的 对 称 函 数 ， 则 当 k 是 核 函 数 当 且 仅 当 对 于 任 意 数 据 D = {x 1, x 2, \dots, x m}, 核 矩 阵 K (K i j = k (x i, x j)) 总 是 半 正 定 的 。

任何一个核函数都隐式地定义了一个称为“再生核希尔伯特空间RKHS”的特征空间

常 用 核 函 数 ： 线 性 核 ： k (x i, x j) = x T i x j; 等 同 于 未 使 用 核 函 数 多 项 式 核 ： k (x i, x j) = (x T i x j) d; d \geq 1 为 多 项 式 的 次 数 高 斯 核 ： k (x i, x j) = e x p (- ∥ x i - x j ∥ 2 2 σ 2) σ > 0 为 高 斯 核 的 带 宽 拉 普 拉 斯 核 ： k (x i, x j) = e x p (- ∥ x i - x j ∥ 2 σ) σ > 0 S i g m o i d 核 ： k (x i, x j) = t a n h (β x T i x j + θ) t a n h 为 双 曲 正 切 函 数 ， β > 0, θ < 0

核函数的选择应用：

当特征维数小，样本数适中大时，选用RBF高斯核；
当特征维数远大于样本数时，选用线性核；
当特征维数和样本数都很大时，选用线性核；
当特征维数远行小于样本数时，选用RBF高斯核，或者增加特征使用线性核或LR；

软间隔与正则化

“软间隔”：允许某些样本不满足约束：yi(w⋅xi+b)≥1

在最大化间隔时，不满足约束的样本应尽可能少，优化目标为：

min w, b 1 2 ∥ w ∥ 2 + C \sum i = 1 m l 0 / 1 (y i (w \cdot x i + b) - 1) ， 其 中 “ 0 / 1 损 失 函 数 ” l 0 / 1 (z) = 1 当 z < 0 时 否 则 为 0

当C无穷大时，硬间隔所有样本均要满足约束；当C为有限值时，软间隔允许某些样本不满足约束

由 于 “ 0 / 1 损 失 函 数 ” 非 凸 ， 非 连 续 ， 导 致 优 化 目 标 不 易 求 解 ， 有 “ 替 代 损 失 ” （ 凸 的 连 续 函 数 且 是 l 0 / 1 的 上 界 ） ： h i n g e 损 失 ： l h i n g e (z) = m a x (0, 1 - z) 指 数 损 失 ： l e x p (z) = e x p (- z) 对 率 损 失 ： l l o g (z) = l o g (1 + e x p - z) 采 用 h i n g e 损 失 ， 优 化 目 标 为 ： min w, b 1 2 ∥ w ∥ 2 + C \sum i = 1 m m a x (0, 1 - y i (w \cdot x i + b)) ， 引 入 松 弛 变 量 ξ i \geq 0 ： min w, b 1 2 ∥ w ∥ 2 + C \sum i = 1 m ξ i s . t . y i (w \cdot x i + b) \geq 1 - ξ i, ξ i \geq 0 拉 格 朗 日 函 数 ： L (w, b, α, β) = 1 2 ∥ w ∥ 2 + C \sum i = 1 m ξ i + \sum i = 1 m α i (1 - ξ i - y i (w \cdot x i + b)) - \sum i = 1 m β i ξ i 令 对 w, b, ξ i 的 偏 导 为 0 得 ： w = \sum i = 1 m α i y i x i; \sum i = 1 m α i y i = 0; C = α i + β i 对 偶 问 题 ： max α \sum i = 1 m α i - 1 2 \sum i = 1 m \sum j = 1 m α i α j y i y j x T i x j s . t . \sum i = 1 m α i y i = 0, 0 \leq α i \leq C 需 满 足 的 K K T 条 件 为 ： α i \geq 0, β i \geq 0; y i (w \cdot x i + b) \geq 1 - ξ i, ξ i \geq 0; α i (1 - ξ i - y i (w \cdot x i + b)) = 0, β i ξ i = 0 分 析 ： 对 于 任 意 样 本 （ x i, y i ） ， 总 有 α i = 0 或 y i f (x i) = 1 - ξ i . 若 α i = 0 ， 则 样 本 不 会 对 f (x) 有 影 响; 若 α i > 0, 则 y i f (x i) = 1 - ξ i, 即 该 样 本 为 支 持 向 量 . 若 α i < C ， 则 β i > 0, 进 而 ξ i = 0, 即 该 样 本 恰 在 最 大 间 隔 上; 若 α i = C 则 β i = 0, 此 时 若 ξ i \leq 1, 即 该 样 本 在 最 大 间 隔 内 部 ， 若 ξ i > 1, 即 该 样 本 在 最 大 间 隔 外 部 。

软间隔支持向量机的最终模型仅与支持向量有关，即采用hinge损失仍保持了稀疏性

如果使用log对率损失函数，几乎就得到了逻辑（对率）回归模型。实际上LR和SVM的优化目标想接近，性能也相当。LR的优势在于其输出具有概率意义，即在给出预测标记的同时也给出了概率。

hinge损失函数使得SVM的解具有稀疏性，而对率损失是光滑的递减函数，不能导出类似支持向量的概念，因此对率回归的解依赖于更多的训练样本，预测开销更大。

不同损失函数的SVM优化目标：

min f Ω (f) + C \sum i = 1 m l (f (x i), y i), 其 中 Ω (f) 称 为 “ 结 构 风 险 ” ， 用 于 描 述 模 型 f 的 某 些 性 质; 第 二 项 C \sum i = 1 m l (f (x i), y i) 称 为 “ 经 验 风 险 ” ， 用 于 描 述 模 型 与 训 练 数 据 的 契 合 度 。 从 经 验 风 险 最 小 化 的 角 度 来 看 ， Ω (f) 称 为 正 则 化 项 ， C 为 正 则 化 常 数 。 L p 范 数 是 常 用 的 正 则 化 项 ， 其 中 L 2 范 数 ∥ w ∥ 2 倾 向 于 w 的 分 量 取 值 尽 可 能 均 衡 ， 即 非 零 分 量 个 数 尽 量 稠 密 ， 而 L 0 ∥ w ∥ 0 和 L 1 范 数 ∥ w ∥ 1 则 倾 向 于 w 的 分 量 尽 可 能 的 稀 疏 ， 即 非 零 分 量 个 数 尽 量 少 。

SMO(Sequence Minimal Optimization)序列最小化：

固定一对需要更新的变量，固定其他变量，优化它们，重复上述步骤直至收敛。

min α 1 2 \sum i = 1 m \sum j = 1 m α i α j y i y j K (x i, x j) - \sum i = 1 m α i s . t . \sum i = 1 m α i y i = 0, 0 \leq α i \leq C 假 定 选 择 的 两 个 变 量 是 α 1, α 2, 其 他 变 量 α i (i = 3, 4, \dots, N) 是 固 定 的 ， 则 S M O 优 化 问 题 为 ： min α 1, α 2 W (α 1, α 2) = 1 2 K 11 α 21 + 1 2 K 22 α 22 + y 1 y 2 K 12 α 1 α 2 - (α 1 + α 2) + y 1 α 1 \sum i = 3 N y i α i K i 1 + y 2 α 2 \sum i = 3 N y i α i K i 2 s . t . α 1 y 1 + α 2 y 2 = - \sum i = 3 N y i α i = ς; 0 \leq α i \leq C, i = 1, 2 其 中 K i j = K (x i, x j), ς 是 常 数

约束的二维空间图形表示：

这里写图片描述

假 定 初 始 可 行 解 为 α o l d 1, α o l d 2, 最 优 解 为 α n e w 1, α n e w 2, 并 且 假 设 再 沿 着 约 束 方 向 未 经 剪 辑 时 α 2 的 最 优 解 为 α n e w, u n c 2 L \leq α n e w 2 \leq H, 其 中 L 与 H 是 α n e w 2 所 在 的 对 角 线 段 端 点 的 界 : 若 y 1 \neq y 2 : L = m a x (0, α o l d 2 - α o l d 1), H = m i n (C, C + α o l d 2 - α o l d 1); 若 y 1 = y 2 : L = m a x (0, α o l d 2 + α o l d 1 - C), H = m i n (C, α o l d 2 + α o l d 1); 记 g (x) = \sum i = 1 N α i y i K (x i, x) + b, E i = g (x i) - y i = (\sum j = 1 N α j y j K (x j, x i) + b) - y i, i = 1, 2 α n e w, u n c 2 = α o l d 2 + y 2 ( E 1 - E 2 ) η 其 中 η = K 11 + K 22 - 2 K 12

这里写图片描述

变量的选择方法

第一个变量的选择（外层循环）：在训练样本中选择违背KKT条件最严重的样本点，并将其对应的变量作为第1个变量。检验过程中，首先遍历所有支持向量点，检验它们是否满足KKT条件。如果这些样本点均满足KKT条件，遍历整个训练集，检验它们是否满足KKT条件。

第二个变量的选择（内层循环）：选择足够大变化的变量，即使|E1-E2|最大。（特殊情况下，上述方法选择的变量不能使目标函数有足够的下降，那么采用启发式规则选择：遍历支持向量点，依次将其对应的变量选为第二个变量，直到目标函数有足够的下降。若找不到，那么遍历整个训练集；若仍找不到，则退到外层循坏重新找第一个变量。）

计算阈值b和插值E

当 0 < α n e w 1 < C 时, b n e w 1 = y 1 - \sum i = 3 N α i y i K i 1 - α n e w 1 y 1 K 11 - α n e w 2 y 2 K 21 E 1 = \sum i = 3 N α i y i K i 1 + α n e w 1 y 1 K 11 + α n e w 2 y 2 K 21 + b o l d - y 1 则 ： b n e w 1 = - E 1 - y 1 K 11 (α n e w 1 - α o l d 1) - y 2 K 21 (α n e w 2 - α o l d 2) + b o l d 同 样 有 ： b n e w 2 = - E 2 - y 1 K 12 (α n e w 1 - α o l d 1) - y 2 K 22 (α n e w 2 - α o l d 2) + b o l d 如 果 0 < α n e w 1, α n e w 2 < C, 那 么 b n e w 1 = b n e w 2 . 如 果 α n e w 1, α n e w 2 是 0 或 C ， 那 么 b n e w 1 和 b n e w 2 以 及 它 们 中 间 的 数 都 是 符 合 K K T 条 件 的 ， 这 时 选 择 它 们 的 中 点 作 为 b n e w . 更 新 E i 值 ： E n e w i = \sum S y j α j K (x i, x j) + b n e w - y i

#SMO主要代码def selectJrand(i,m):    j=i #we want to select any J not equal to i    while (j==i):        j = int(random.uniform(0,m))    return jdef clipAlpha(aj,H,L):    if aj > H:        aj = H    if L > aj:        aj = L    return aj#计算核函数值def kernelTrans(X, A, kTup): #kTup参数，kTup[0]是使用何种核函数，之后是核函数参数    m,n = shape(X)    K = mat(zeros((m,1)))    if kTup[0]=='lin': K = X * A.T   #linear kernel    elif kTup[0]=='rbf':        for j in range(m):            deltaRow = X[j,:] - A            K[j] = deltaRow*deltaRow.T        K = exp(K/(-1*kTup[1]**2))    else: raise NameError('Houston We Have a Problem -- \    That Kernel is not recognized')    return Kclass optStruct:    def __init__(self, dataMatIn, classLabels, C, toler, kTup):         self.X = dataMatIn        self.labelMat = classLabels        self.C = C        self.tol = toler #容错率        self.m = shape(dataMatIn)[0]        self.alphas = mat(zeros((self.m, 1)))        self.b = 0        self.eCache = mat(zeros((self.m, 2)))  # 差值矩阵，第一列是有效的标志位        self.K = mat(zeros((self.m, self.m)))  #核函数        for i in range(self.m):            self.K[:, i] = kernelTrans(self.X, self.X[i, :], kTup)#计算更新后的Ekdef calcEk(oS, k):    fXk = float(multiply(oS.alphas, oS.labelMat).T * oS.K[:, k] + oS.b)    Ek = fXk - float(oS.labelMat[k])    return Ek#内循环，选择第二个变量，使得Ei-Ej最大def selectJ(i, oS, Ei):     maxK = -1    maxDeltaE = 0    Ej = 0    oS.eCache[i] = [1, Ei]      validEcacheList = nonzero(oS.eCache[:, 0].A)[0]    if (len(validEcacheList)) > 1:        for k in validEcacheList:              if k == i: continue              Ek = calcEk(oS, k)            deltaE = abs(Ei - Ek)            if (deltaE > maxDeltaE):                maxK = k                maxDeltaE = deltaE                Ej = Ek        return maxK, Ej    else:          j = selectJrand(i, oS.m)        Ej = calcEk(oS, j)    return j, Ej#更新Ekdef updateEk(oS, k):     Ek = calcEk(oS, k)    oS.eCache[k] = [1, Ek]#更新alpha,E,bdef innerL(i, oS):    Ei = calcEk(oS, i)    if ((oS.labelMat[i]*Ei < -oS.tol) and (oS.alphas[i] < oS.C)) or ((oS.labelMat[i]*Ei > oS.tol) and (oS.alphas[i] > 0)):        j,Ej = selectJ(i, oS, Ei)         alphaIold = oS.alphas[i].copy(); alphaJold = oS.alphas[j].copy()        if (oS.labelMat[i] != oS.labelMat[j]):            L = max(0, oS.alphas[j] - oS.alphas[i])            H = min(oS.C, oS.C + oS.alphas[j] - oS.alphas[i])        else:            L = max(0, oS.alphas[j] + oS.alphas[i] - oS.C)            H = min(oS.C, oS.alphas[j] + oS.alphas[i])        if L==H: print("L==H"); return 0        eta = oS.K[i,i] + oS.K[j,j] - 2.0 * oS.K[i,j]        if eta >= 0: print("eta>=0"); return 0        #更新第二个变量        oS.alphas[j] += oS.labelMat[j]*(Ei - Ej)/eta        oS.alphas[j] = clipAlpha(oS.alphas[j],H,L)        updateEk(oS, j)         if (abs(oS.alphas[j] - alphaJold) < 0.00001): print("j not moving enough"); return 0        oS.alphas[i] += oS.labelMat[j]*oS.labelMat[i]*(alphaJold - oS.alphas[j])#更新第一个变量        b1 = oS.b - Ei- oS.labelMat[i]*(oS.alphas[i]-alphaIold)*oS.K[i,i] - oS.labelMat[j]*(oS.alphas[j]-alphaJold)*oS.K[i,j]        b2 = oS.b - Ej- oS.labelMat[i]*(oS.alphas[i]-alphaIold)*oS.K[i,j]- oS.labelMat[j]*(oS.alphas[j]-alphaJold)*oS.K[j,j]        if (0 < oS.alphas[i]) and (oS.C > oS.alphas[i]): oS.b = b1        elif (0 < oS.alphas[j]) and (oS.C > oS.alphas[j]): oS.b = b2        else: oS.b = (b1 + b2)/2.0        updateEk(oS, i)        return 1    else: return 0#SMO主函数def smoP(dataMatIn, classLabels, C, toler, maxIter,kTup=('lin', 0)):      oS = optStruct(mat(dataMatIn),mat(classLabels).transpose(),C,toler)    iter = 0    entireSet = True; alphaPairsChanged = 0    while (iter < maxIter) and ((alphaPairsChanged > 0) or (entireSet)):        alphaPairsChanged = 0        #选择第一个alpha        '''理论应该先遍历边界值，不行再遍历整个数据集，但alph初始为0，所以可以可以直接遍历整个数据集'''        if entireSet:   #遍历所有值            for i in range(oS.m):                alphaPairsChanged += innerL(i,oS)                print("fullSet, iter: %d i:%d, pairs changed %d" % (iter,i,alphaPairsChanged))            iter += 1        else:#遍历边界值            nonBoundIs = nonzero((oS.alphas.A > 0) * (oS.alphas.A < C))[0]            for i in nonBoundIs:                alphaPairsChanged += innerL(i,oS)                print("non-bound, iter: %d i:%d, pairs changed %d" % (iter,i,alphaPairsChanged))            iter += 1        if entireSet: entireSet = False        elif (alphaPairsChanged == 0): entireSet = True        print("iteration number: %d" % iter)    return oS.b,oS.alphas#计算Wdef calcWs(alphas,dataArr,classLabels):    X = mat(dataArr); labelMat = mat(classLabels).transpose()    m,n = shape(X)    w = zeros((n,1))    for i in range(m):        w += multiply(alphas[i]*labelMat[i],X[i,:].T)    return w

支持向量回归SVR

min w, b 1 2 ∥ w ∥ 2 + C \sum i = 1 m l ϵ (f (x i) - y i), 其 中 l ϵ 是 ϵ - 不 敏 感 损 失, l ϵ (z) = 0, i f | z | \leq ϵ; | z | - ϵ, o t h e r w i s e 引 入 松 弛 变 量 ξ i 和 ξ^i \to min w, b 1 2 ∥ w ∥ 2 + C \sum i = 1 m (ξ i + ξ^i) s . t . f (x i) - y i \leq ϵ + ξ i; y i - f (x i) \leq ϵ + ξ^i; ξ i \geq 0; ξ^i \geq 0 通 过 引 入 拉 格 朗 日 乘 子 α i \geq 0, α^i \geq 0, β i \geq 0, β^i \geq 0 得 到 拉 格 朗 日 函 数 ： L (w, b, ξ, ξ^, α, α^, β, β^) = 1 2 ∥ w ∥ 2 + C \sum i = 1 m (ξ i + ξ^i) + \sum i = 1 m α i (f (x i) - y i - ϵ - ξ i) - \sum i = 1 m β i ξ i + \sum i = 1 m α^i (y i - f (x i) - ϵ - ξ^i) - \sum i = 1 m β^i ξ^i 令 上 式 对 w, b, ξ i, ξ^i 的 偏 导 为 零 可 得 ： w = \sum i = 1 m (α^i - α i) x i; 0 = \sum i = 1 m (α^i - α i); C = α i + β i; C = α^i + β^i S V R 的 对 偶 问 题 ： max α, α^\sum i = 1 m y i (α^i - α i) - ϵ (α^i + α i) - 1 2 \sum i = 1 m \sum j = 1 m (α^i - α i) (α^j - α j) x T i x j s . t . \sum i = 1 m (α^i - α i) = 0, 0 \leq α i, α^i \leq C 需 满 足 的 K K T 条 件 是 ： α i (f (x i) - y i - ϵ - ξ i) = 0, α^i (y i - f (x i) - ϵ - ξ^i) = 0, (C - α i) ξ i = 0 (C - α^i) ξ^i = 0 α i α^i = 0, ξ i ξ^i = 0 当 且 仅 当 f (x i) - y i - ϵ - ξ i = 0 时 ， α i 才 能 取 非 零 值 ， 当 且 仅 当 y i - f (x i) - ϵ - ξ^i = 0 时 ， α^i 才 能 取 非 零 值 。 此 外 上 述 情 况 不 能 同 时 成 立 ， α i 和 α^i 至 少 一 个 零 。 (α i - α^i) \neq 0 的 样 本 为 S V R 的 支 持 向 量 ， 其 解 仍 具 有 稀 疏 性 。 此 外 ， 对 于 每 个 样 本 均 有 (C - α i)) ξ i = 0 且 α i (f (x i) - y i - ϵ - ξ i) = 0 。 若 0 < α i < C ， 则 ξ i = 0 进 而 有 b = y i + ϵ - \sum i = 1 m (α^i - α i) x T i x 模 型 ： f (x) = \sum i = 1 m (α^i - α i) x T i x + b

优缺点：

分析：支持向量机依靠边界样本来建立需要的分离曲线。它可以处理非线性决策边界。对边界的依赖，也使得它们有能力处理缺失数据中“明显的”样本实例。支持向量机能够处理大的特征空间，也因此成为文本分析中最受欢迎的算法之一，由于文本数据几乎总是产生大量的特征，所以在这种情况下逻辑回归并不是一个非常好的选择。SVM的结果并不像决策树那样直观。同时使用非线性核，使得支持向量机在大型数据上的训练非常耗时。

优点：

1.能够处理大型特征空间

2.能够处理非线性特征之间的相互作用

3.无需依赖整个数据

缺点：

1.当观测样本很多时，效率并不是很高

2.有时候很难找到一个合适的核函数

LR 与 SVM：

如果Feature的数量很大，跟样本数量差不多，这时候选用LR或者是Linear Kernel的SVM
如果Feature的数量比较小，样本数量一般，不算大也不算小，选用SVM+Gaussian Kernel
如果Feature的数量比较小，而样本数量很多，需要手工添加一些feature变成第一种情况

阅读全文

0 0