神经网络原理第六章：支持向量机

张

张建站

2026/5/11 1:24:02

10分钟阅读

一、简介 (6.1节)支持向量机是在第2章统计学习理论基础上发展起来的一类有教师学习机器。与多层感知器基于经验风险最小化不同SVM遵循结构风险最小化原则通过最小化经验风险与置信区间之和旨在获得更好的泛化能力。核心思想SVM的目标是在特征空间中寻找一个最优超平面将不同类别的样本分开。所谓“最优”是指该超平面不仅能正确分类训练样本还能使两类样本到超平面的间隔最大。这使得SVM在处理高维数据、小样本问题时表现出色。通俗理解想象你要在两组人之间划一条分界线。最朴素的方法是随便划一条能分开的线但这条线可能离某一组人太近稍有扰动就会误判。SVM的策略是找到一条离两组人都最远的线。这条线不仅分开了当前的人而且对后来可能出现的、有轻微变化的人也有最大的容错空间。这条线就是“最优超平面”而离这条线最近的那些人训练样本就是支持向量他们“撑起”了这个决策边界。二、线性可分模式的最优超平面 (6.2节)这是SVM最基础的情形假设训练数据是线性可分的。核心公式通俗讲解间隔与对偶问题决策函数与间隔给定线性可分的数据集超平面方程可以写成 wTxb0 分类决策函数为 ysgn(wTxb)间隔是样本点到超平面的距离。对于样本点 (xi,yi)其中 yi∈{1,−1}其函数间隔为 γiyi(wTxib)。几何间隔为 ∥w∥γi。通俗讲解函数间隔是一个“按比例”的度量受参数 w,b 缩放影响几何间隔才是真正的物理距离。SVM要最大化的是所有样本的最小几何间隔。优化问题最大化间隔最大化最小几何间隔等价于 maxw,b∥w∥1s.t.yi(wTxib)≥1,∀i 为方便求解转换为凸二次规划问题 minw,b21∥w∥2s.t.yi(wTxib)−1≥0,∀i拉格朗日对偶问题引入拉格朗日乘子 αi≥0构造拉格朗日函数 L(w,b,α)21∥w∥2−∑i1Nαi[yi(wTxib)−1] 对 w 和 b 求偏导并令其为0得到对偶问题 maxα∑i1Nαi−21∑i1N∑j1NαiαjyiyjxiTxj s.t.∑i1Nαiyi0,αi≥0通俗讲解原始问题直接在特征空间优化超平面参数 w,b。对偶问题则转化为在样本空间优化拉格朗日乘子 α。这个转变至关重要简化约束不等式约束变成了更简单的 αi≥0 和一个等式约束。自然引入核函数对偶问题中样本点仅以内积 xiTxj 形式出现这为后续使用核函数解决非线性问题埋下伏笔。确定支持向量解对偶问题后大部分 αi 为0只有少数 αi0 对应的样本点才是支持向量它们是决定超平面的关键样本。三、不可分模式的最优超平面 (6.3节)实际数据往往是线性不可分的即存在噪声或异常点。解决方案引入松弛变量ξi≥0允许某些样本点违反间隔约束但要付出代价。优化问题变为minw,b,ξ21∥w∥2C∑i1Nξis.t.yi(wTxib)≥1−ξi,ξi≥0,∀i通俗讲解ξi是“特许权证”允许第 i 个样本点比正常的支持向量更靠近超平面甚至误分类。C是“惩罚系数”。C很大对误分类的惩罚极重模型会竭力避免误分类但可能导致过拟合间隔变窄。C很小对误分类较宽容倾向于寻找更大的间隔但可能欠拟合。权衡C 控制着“最大化间隔”与“最小化训练误差”之间的平衡。相应的对偶问题约束变为 0≤αi≤C。四、怎样建立用于模式识别的支持向量机 (6.4节)对于非线性可分问题SVM通过核技巧将数据映射到高维特征空间在其中寻找线性最优超平面。核心概念核函数映射思想根据Cover定理第5章将数据非线性映射 Φ:Rd→RD 到高维空间 F 后数据更有可能线性可分。核技巧注意到对偶问题中样本点以内积形式出现。在高维空间 F 中的内积 ⟨Φ(xi),Φ(xj)⟩F 可以用原始空间中的核函数K(xi,xj) 来计算而无需显式计算映射 Φ。 K(xi,xj)⟨Φ(xi),Φ(xj)⟩F通俗讲解核技巧是SVM处理非线性问题的“魔法”。它相当于告诉我们你不用关心“升维”这个复杂的过程具体是什么只要在低维空间里算一个“相似度核”比如多项式核、高斯核它就直接等价于在高维空间里算好了内积。这样我们既享受了高维空间线性可分的便利又避免了“维度灾难”和显式映射的计算负担。决策函数最终的决策函数变为 f(x)sgn(∑i1NαiyiK(xi,x)b) 求和仅对支持向量进行。五、例子XOR问题 (6.5节)异或问题是验证SVM非线性能力的经典案例。问题在二维输入空间XOR问题线性不可分。SVM解决方案使用一个非线性核函数如二次多项式核 K(x,z)(xTz1)2。SVM会自动将数据映射到一个高维空间例如对于二次核相当于映射到包含所有二次单项式的空间在这个空间中XOR问题变成线性可分从而找到最优超平面。通俗讲解这再次印证了Cover定理。通过核函数SVM在“幕后”将二维平面上的红蓝球“举”到了一个三维或更高维空间在那个空间里轻松地插上一块平板超平面将它们分开。整个过程我们只用了原始二维坐标来计算核函数。六、 ε-不敏感损失函数与支持向量回归 (6.7 - 6.8节)SVM不仅用于分类也可用于回归即支持向量回归。核心公式通俗讲解ε-管在SVR中我们预测一个连续值。引入ε-不敏感损失函数Lε(d,f(x)){∣d−f(x)∣−ε,0,if ∣d−f(x)∣εotherwise通俗讲解ε是一个“容忍度”。如果预测值 f(x) 与真实值 d 的差距在 ε 之内则认为这次预测是“完美”的损失为0。ε-管可以想象在拟合函数 f(x) 周围拉起一个宽度为 2ε 的“管子”。只有当样本点落到管子外面时才会产生损失。目标SVR的目标是找到一个“平坦”参数范数小的函数同时让尽可能多的样本点落在 ε-管内只有那些落在管外的点才需要“拉”回来成为支持向量。相应的优化问题是在松弛变量的控制下最小化函数的复杂度类似分类问题中的 21∥w∥2与违反管外损失的总和。七、小结与讨论 (6.9节)支持向量机的优势理论基础坚实基于结构风险最小化原则和统计学习理论。泛化能力强特别适合小样本、高维数据。全局最优解优化问题是凸二次规划有唯一全局最优解避免陷入局部极小。核函数灵活性通过选择不同的核函数可以灵活处理各种非线性问题。稀疏性决策函数只依赖于少数支持向量存储和预测效率高。支持向量机的局限大规模数据训练困难传统求解二次规划的计算和存储开销随样本数平方增长。核函数与参数选择缺乏统一的理论指导常需经验尝试如 C,γ 等。对缺失数据敏感对数据预处理要求较高。️ 第六章知识全景脑图codemindmap root((神经网络原理br/第六章支持向量机)) 简介(6.1) 基于统计学习理论结构风险最小化原则目标(寻找最优超平面) 核心(间隔最大化) 线性可分最优超平面(6.2) 决策函数与超平面间隔定义(函数间隔与几何间隔) 优化问题最大化最小几何间隔等价于最小化‖w‖² 拉格朗日对偶问题转化到样本空间求解引入核函数的契机支持向量的定义(α0) 不可分最优超平面(6.3) 线性不可分情况引入松弛变量ξ 引入惩罚参数C 权衡间隔与训练误差对偶问题约束变化(0≤α≤C) 构建支持向量机(6.4) 非线性可分问题核技巧核心思想映射到高维空间用核函数计算高维内积决策函数 f sgn(ΣαᵢyᵢK(xᵢ,x)b) 仅依赖支持向量例子XOR问题(6.5) 验证非线性能力使用多项式核解决 ε-不敏感损失与SVR(6.7-6.8) SVM用于回归 ε-不敏感损失函数定义(ε-管外才有损失) ε含义(容忍度) 优化目标函数平坦管内样本多小结与讨论(6.9) 优势理论坚实泛化强全局最优解稀疏核函数灵活局限大规模数据计算难核/参数选择凭经验对缺失数据敏感 /code 第六章学习要点本章引入了在统计学习理论框架下诞生的强大模型。重点掌握间隔最大化的几何直观和数学表述理解其对泛化能力的保证。对偶问题的重要性它是引入核函数和确定支持向量的桥梁。核函数的“魔法”它如何在避免显式映射的同时让SVM具备处理非线性问题的能力。松弛变量与C参数如何控制SVM对误分类的容忍度。SVR中ε-不敏感损失的思想它使得回归函数只关注那些“真正”重要的点管外的点从而获得稀疏、鲁棒的解。

构建AI助手记忆系统：基于记忆宫殿与情绪标签的智能知识管理

1. 项目概述：一个为AI助手打造的“第二大脑” 最近在折腾AI助手，发现一个挺普遍的问题：它记性不好。你跟它聊了半小时，讨论了项目架构、技术选型，甚至吐槽了某个难搞的bug，但当你下次再问“我们之前讨论的那…...

2026/5/11 1:20:47 阅读更多 →

不到成衣价买定制？希颜西装体验：899起，商务休闲两穿

兄弟们，今天聊个让我挺意外的东西——定制西装。先交代背景啊。我，普通打工仔，平时见客户要穿商务一点，但下班又想直接去吃饭逛街不想换衣服。一直想搞套“能上班能休闲”的西装。商场里逛一圈，好看的全羊毛基本3000往…...

2026/5/11 1:15:32 阅读更多 →

2026届毕业生推荐的十大降重复率平台推荐榜单

Ai论文网站排名（开题报告、文献综述、降aigc率、降重综合对比） TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 核心在于增强人类独有的逻辑跳跃与情感渗透，以此来降低文本中AIGC痕迹。首先&…...

2026/5/11 1:13:31 阅读更多 →

BriSe AI：构建类脑自我层次模型，从模式匹配迈向自主理解

1. 项目概述：从“模仿”到“涌现”的范式跃迁最近和几位做认知科学和神经科学的朋友聊得比较多，大家都有一个共同的感受：当前主流的人工智能，无论是大语言模型还是多模态模型，本质上还是在做“模式匹配”和“概率预测…...

2026/5/10 0:03:41 阅读更多 →

6G边缘计算与生成式AI融合：基于LDM与DRL的协同优化架构实践

1. 项目概述：当6G边缘计算遇上生成式AI最近和几个做通信和AI的朋友聊天，大家不约而同地提到了一个词：6G边缘生成式AI。这听起来像是把几个最前沿的技术名词硬凑在一起，但当你真正拆开来看，会发现它背后指向的是一个非常…...

2026/5/10 0:03:49 阅读更多 →

DriverStore Explorer完全指南：轻松管理Windows驱动，释放宝贵磁盘空间

DriverStore Explorer完全指南：轻松管理Windows驱动，释放宝贵磁盘空间【免费下载链接】DriverStoreExplorer Driver Store Explorer 项目地址: https://gitcode.com/gh_mirrors/dr/DriverStoreExplorer 你是否曾因为Windows系统变得越来越臃肿而…...

2026/5/10 0:10:01 阅读更多 →