一、 简介 (6.1节)支持向量机是在第2章统计学习理论基础上发展起来的一类有教师学习机器。与多层感知器基于经验风险最小化不同SVM遵循结构风险最小化原则通过最小化经验风险与置信区间之和旨在获得更好的泛化能力。核心思想SVM的目标是在特征空间中寻找一个最优超平面将不同类别的样本分开。所谓“最优”是指该超平面不仅能正确分类训练样本还能使两类样本到超平面的间隔最大。这使得SVM在处理高维数据、小样本问题时表现出色。通俗理解想象你要在两组人之间划一条分界线。最朴素的方法是随便划一条能分开的线但这条线可能离某一组人太近稍有扰动就会误判。SVM的策略是找到一条离两组人都最远的线。这条线不仅分开了当前的人而且对后来可能出现的、有轻微变化的人也有最大的容错空间。这条线就是“最优超平面”而离这条线最近的那些人训练样本就是支持向量他们“撑起”了这个决策边界。二、 线性可分模式的最优超平面 (6.2节)这是SVM最基础的情形假设训练数据是线性可分的。 核心公式通俗讲解间隔与对偶问题决策函数与间隔给定线性可分的数据集超平面方程可以写成 wTxb0 分类决策函数为 ysgn(wTxb)间隔是样本点到超平面的距离。对于样本点 (xi​,yi​)其中 yi​∈{1,−1}其函数间隔为 γi​yi​(wTxi​b)。几何间隔为 ∥w∥γi​​。通俗讲解函数间隔是一个“按比例”的度量受参数 w,b 缩放影响几何间隔才是真正的物理距离。SVM要最大化的是所有样本的最小几何间隔。优化问题最大化间隔最大化最小几何间隔等价于 maxw,b​∥w∥1​s.t.yi​(wTxi​b)≥1,∀i 为方便求解转换为凸二次规划问题 minw,b​21​∥w∥2s.t.yi​(wTxi​b)−1≥0,∀i拉格朗日对偶问题引入拉格朗日乘子 αi​≥0构造拉格朗日函数 L(w,b,α)21​∥w∥2−∑i1N​αi​[yi​(wTxi​b)−1] 对 w 和 b 求偏导并令其为0得到对偶问题 maxα​∑i1N​αi​−21​∑i1N​∑j1N​αi​αj​yi​yj​xiT​xj​ s.t.∑i1N​αi​yi​0,αi​≥0通俗讲解原始问题直接在特征空间优化超平面参数 w,b。对偶问题则转化为在样本空间优化拉格朗日乘子 α。这个转变至关重要简化约束不等式约束变成了更简单的 αi​≥0 和一个等式约束。自然引入核函数对偶问题中样本点仅以内积 xiT​xj​ 形式出现这为后续使用核函数解决非线性问题埋下伏笔。确定支持向量解对偶问题后大部分 αi​ 为0只有少数 αi​0 对应的样本点才是支持向量它们是决定超平面的关键样本。三、 不可分模式的最优超平面 (6.3节)实际数据往往是线性不可分的即存在噪声或异常点。解决方案引入松弛变量ξi​≥0允许某些样本点违反间隔约束但要付出代价。优化问题变为minw,b,ξ​21​∥w∥2C∑i1N​ξi​s.t.yi​(wTxi​b)≥1−ξi​,ξi​≥0,∀i通俗讲解ξi​是“特许权证”允许第 i 个样本点比正常的支持向量更靠近超平面甚至误分类。C是“惩罚系数”。C很大对误分类的惩罚极重模型会竭力避免误分类但可能导致过拟合间隔变窄。C很小对误分类较宽容倾向于寻找更大的间隔但可能欠拟合。权衡C 控制着“最大化间隔”与“最小化训练误差”之间的平衡。相应的对偶问题约束变为 0≤αi​≤C。四、 怎样建立用于模式识别的支持向量机 (6.4节)对于非线性可分问题SVM通过核技巧将数据映射到高维特征空间在其中寻找线性最优超平面。 核心概念核函数映射思想根据Cover定理第5章将数据非线性映射 Φ:Rd→RD 到高维空间 F 后数据更有可能线性可分。核技巧注意到对偶问题中样本点以内积形式出现。在高维空间 F 中的内积 ⟨Φ(xi​),Φ(xj​)⟩F​ 可以用原始空间中的核函数K(xi​,xj​) 来计算而无需显式计算映射 Φ。 K(xi​,xj​)⟨Φ(xi​),Φ(xj​)⟩F​通俗讲解核技巧是SVM处理非线性问题的“魔法”。它相当于告诉我们你不用关心“升维”这个复杂的过程具体是什么只要在低维空间里算一个“相似度核”比如多项式核、高斯核它就直接等价于在高维空间里算好了内积。这样我们既享受了高维空间线性可分的便利又避免了“维度灾难”和显式映射的计算负担。决策函数最终的决策函数变为 f(x)sgn(∑i1N​αi​yi​K(xi​,x)b) 求和仅对支持向量进行。五、 例子XOR问题 (6.5节)异或问题是验证SVM非线性能力的经典案例。问题在二维输入空间XOR问题线性不可分。SVM解决方案使用一个非线性核函数如二次多项式核 K(x,z)(xTz1)2。SVM会自动将数据映射到一个高维空间例如对于二次核相当于映射到包含所有二次单项式的空间在这个空间中XOR问题变成线性可分从而找到最优超平面。通俗讲解这再次印证了Cover定理。通过核函数SVM在“幕后”将二维平面上的红蓝球“举”到了一个三维或更高维空间在那个空间里轻松地插上一块平板超平面将它们分开。整个过程我们只用了原始二维坐标来计算核函数。六、 ε-不敏感损失函数与支持向量回归 (6.7 - 6.8节)SVM不仅用于分类也可用于回归即支持向量回归。 核心公式通俗讲解ε-管在SVR中我们预测一个连续值。引入ε-不敏感损失函数Lε​(d,f(x)){∣d−f(x)∣−ε,0,​if ∣d−f(x)∣εotherwise​通俗讲解ε是一个“容忍度”。如果预测值 f(x) 与真实值 d 的差距在 ε 之内则认为这次预测是“完美”的损失为0。ε-管可以想象在拟合函数 f(x) 周围拉起一个宽度为 2ε 的“管子”。只有当样本点落到管子外面时才会产生损失。目标SVR的目标是找到一个“平坦”参数范数小的函数同时让尽可能多的样本点落在 ε-管内只有那些落在管外的点才需要“拉”回来成为支持向量。相应的优化问题是在松弛变量的控制下最小化函数的复杂度类似分类问题中的 21​∥w∥2与违反管外损失的总和。七、 小结与讨论 (6.9节)支持向量机的优势理论基础坚实基于结构风险最小化原则和统计学习理论。泛化能力强特别适合小样本、高维数据。全局最优解优化问题是凸二次规划有唯一全局最优解避免陷入局部极小。核函数灵活性通过选择不同的核函数可以灵活处理各种非线性问题。稀疏性决策函数只依赖于少数支持向量存储和预测效率高。支持向量机的局限大规模数据训练困难传统求解二次规划的计算和存储开销随样本数平方增长。核函数与参数选择缺乏统一的理论指导常需经验尝试如 C,γ 等。对缺失数据敏感对数据预处理要求较高。️ 第六章知识全景脑图codemindmap root((神经网络原理br/第六章 支持向量机)) 简介(6.1) 基于统计学习理论 结构风险最小化原则 目标(寻找最优超平面) 核心(间隔最大化) 线性可分最优超平面(6.2) 决策函数与超平面 间隔定义(函数间隔与几何间隔) 优化问题 最大化最小几何间隔 等价于最小化‖w‖² 拉格朗日对偶问题 转化到样本空间求解 引入核函数的契机 支持向量的定义(α0) 不可分最优超平面(6.3) 线性不可分情况 引入松弛变量ξ 引入惩罚参数C 权衡间隔与训练误差 对偶问题约束变化(0≤α≤C) 构建支持向量机(6.4) 非线性可分问题 核技巧核心思想 映射到高维空间 用核函数计算高维内积 决策函数 f sgn(ΣαᵢyᵢK(xᵢ,x)b) 仅依赖支持向量 例子XOR问题(6.5) 验证非线性能力 使用多项式核解决 ε-不敏感损失与SVR(6.7-6.8) SVM用于回归 ε-不敏感损失函数 定义(ε-管外才有损失) ε含义(容忍度) 优化目标 函数平坦 管内样本多 小结与讨论(6.9) 优势 理论坚实泛化强 全局最优解稀疏 核函数灵活 局限 大规模数据计算难 核/参数选择凭经验 对缺失数据敏感 /code 第六章学习要点本章引入了在统计学习理论框架下诞生的强大模型。重点掌握间隔最大化的几何直观和数学表述理解其对泛化能力的保证。对偶问题的重要性它是引入核函数和确定支持向量的桥梁。核函数的“魔法”它如何在避免显式映射的同时让SVM具备处理非线性问题的能力。松弛变量与C参数如何控制SVM对误分类的容忍度。SVR中ε-不敏感损失的思想它使得回归函数只关注那些“真正”重要的点管外的点从而获得稀疏、鲁棒的解。