移动学习网 导航

支持向量机

2024-05-13m.verywind.com
~

本文主要参考了李航的《统计学习方法》。是本人学习支持向量机的学习笔记。
首先对支持向量机做简单介绍,然后分别介绍以下三个模型:
(1)线性可分支持向量机: 又称为硬间隔支持向量机,通过硬间隔最大化来学习一个线性分类器。适合 数据线性可分 情况;
(2)线性支持向量机: 又称为软间隔支持向量机,通过软间隔最大化来学习一个线性分类器。适合 数据近似线性可分 情况;
(3)非线性支持向量机: 通过核技巧和软间隔最大化来学一个非线性分类器。适合 数据非线性可分 情况
本文将对三个模型的介绍,从原始问题导出对偶问题。得到对偶问题以后,通过SMO算法对模型参数进行求解。最后,如果有机会再介绍以下支持向量机模型参数是如何利用SMO算法学习和训练的。

两堆数据怎么样才是线性可分就不再赘述,否则请出门左拐百度“线性可分”。支持向量机学习的目的是找到一个将两类数据分离的超平面,这个超平面可以描述为:

但实际上,我们通过给定的线性可分数据集能够拟合出来的模型为:

其中带了星号的 和 是超平面模型的参数,表示是从数据集中学习得到的经验值或者说是估计值。与理论上的模型差别就在于这两个参数。如果数据足够多,那么经验值与理论值就近似相等了。

为什么要引入间隔呢?为什么还有除了函数间隔之外还有个几何间隔?

什么是间隔,间隔就是样本点与分离超平面之间的距离。支持向量机学习的目标就是将间隔最大化。
支持向量机在学习过程中最终目的是找到一个能将数据分离的超平面。但将数据分离完成后还不够完美,还需要使得这个分离超平面具有足够的正确性和确信度。
假设我们得到了一个超平面 ,如果有一个点 ,则我们可以采用 来表示分类的正确性和确信度。 的正负取值描述正确性; 的取值描述确信度。

我们用变量 来表示第i个样本与超平面之间的函数间隔描述式:

在定义和寻找超平面的时候就是在训练集 中寻找最小的函数间隔,即:

先不废话,直接给出几何间隔的描述式,然后再解释要引入几何间隔。免得看一堆字看的懵逼。

可以看到函数间隔和集合间隔相比,参数 和 的分母上多了个 ,为什么要这样做呢?因为我们需要对参数 和 进行约束。如果不进行约束,求出来的超平面 与不加约束是相同的(毕竟 和 前面的系数可以约掉),但 和 的实际可能会大个好几倍,会导致超平面的确信度 变得十分不可靠。因此,我们对函数间隔加以约束,引入几何间隔的概念。
在定义和寻找超平面的时候就是在训练集 中寻找最小的几何间隔,即:

函数间隔和几何间隔的关系:

支持向量机学习的目的是找到一个几何间隔最大的、能正确划分数据集 的分离超平面。有目标,有约束,那么就可以表示为一个有约束的最优化问题,用几何间隔描述:

用函数间隔描述:

为了方便转换为最优化问题,我们将约束项 保留的同时,对 积分得到 ,使得最大化 问题等价转换为最小化 ;令 ; 利用两个数学技巧得到最终的最优化问题:
线性可分支持向量机最优化问题

我们求出最优解 后,可以得到分离超平面:

对新样本进行决策分类函数为:

决策分类函数的意思就是将新样本的特征值 带入式子 中,根据得出正负取值来进行分类。
其中, 函数:

原始问题:线性可分支持向量机最优化问题

为了导出它的对偶问题,我们构造一个拉格朗日函数:

根据拉格朗日对偶性,原始问题的对偶问题是极大极小问题

先求极小化问题,再求极大化问题。
(1)求极小化问题 :
将 对 和 求偏导并令其等于0

将上面两个式子得出的结果代回到 :

于是就求得:

(2)求极大化问题 :
我们把上一步的结果带入第二步中,再加上约束条件可以得到:

再把负号去掉,使得最大化问题等价转化为最小化问题

这样就得到了对偶问题的最优化问题,然后采用如SMO这种参数估计方法来对参数进行求解。
原始问题的解
假设我们求出了对偶最优化问题的解 ,则存在一个下标j使得 ,我们就可以根据关系推导出原始最优化问题的解 ( 这是一个定理,证明请参考李航的《统计学习方法》 ):

正如本文开篇所说的,线性支持向量机用来解决近似线性可分的数据分类问题。我们在线性可分支持向量机的基础对数据集 中的每一个样本都引入一个松弛变量 ,并对目标函数引入一个惩罚项,改变原来的目标函数和约束条件,使得线性支持向量机的 原始问题 为:

根据原始问题构造拉格朗日函数:

根据拉格朗日对偶性,原始问题的对偶问题是极大极小问题

(1)求极小化问题
将 对 求偏导并令其等于0:

将上面的结果代回拉格朗日函数得到:

(2)求极大化问题
通过上一步我们求解得到了极小化问题的表达式,接下来我们求解极大化问题:

实际上,通过约束条件中的非零关系,可以进一步将约束条件简化为 .我们可以得到最终的 线性支持向量机的对偶最优化问题:

原始问题的解
原始问题的解与前面的线性可分支持向量机一样,假设我们求出了对偶最优化问题的解 ,则存在一个下标j使得 ,我们就可以根据关系推导出原始最优化问题的解 ( 这也是一个定理,证明请参考李航的《统计学习方法》 ):

对新样本进行决策分类函数的对偶形式为:

决策分类函数的意思就是将新样本的特征值 带入式子 中,根据得出正负取值来进行分类。
其中, 函数:

非线性支持向量机中用一个核函数来替代输入实例向量之间的内积,从而实现了把线性不可分的低维数据映射成线性可分的高维数据,然后再用超平面对高维空间内的数据进行分类。

其实,可以看到上面的最优化问题和分类决策函数中只涉及到了输入实例# 的内积,因此我们可以通过核函数代替输入实例之间的内积。从而达到用核函数把数据映射到高维空间的目的。
我们用核函数 来代替实例之间的内积 后可以写出 非线性支持向量机的对偶最优化问题 分类决策函数:
最优化问题:

分类决策函数:

当核函数 是正定核函数时,最优化问题是凸二次规划问题,解存在。

为了搞清楚这个问题,首先要想想提出核函数的动机什么?提出核函数的目的是为了把低维数据映射成高维数据啊,然后好用一个分类超平面对这些数据分类。但是映射完成后的高维空间是什么样的我们并不清楚,好像目前只能保证哪些函数可以作为核函数使用,而不能为每种输入数据分布巧妙地设计出一个个核函数。而实际应用中也是在尝试使用各种各样的核函数,如高斯核函数、多项式核函数、线性核函数、sigmoid核函数、拉普拉斯核函数、字符串核函数等。
既然不能对每次的输入数据设计出合适的核函数,我们总能讨论一下什么样的函数才有资格成为核函数,因此我们退而求其次,有空去了解一下为什么核函数 必须要是正定核函数?虽然在实际应用中我们直接就采用几种常见的核函数进行尝试。

参考: https://blog.csdn.net/jiangjieqazwsx/article/details/51418681



  • svm是什么意思?
  • 答:svm是一种典型的二类分类模型。支持向量机(英语:support vector machine,常简称为SVM,又名支持向量网络)是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。给定一组训练实例,每个训练实例被标记为属于两个类别中的一个或另一个,SVM训练算法创建一个将新的实例分配给两个类别之一的模型...

  • 支持向量机的对偶问题是什么
  • 答:支持向量机的对偶问题是将原问题中的最小化和最大化互换,得到一个新的优化问题,可以通过求解对偶问题来找到原问题的解,并引入核函数使算法更加灵活和高效。从数学角度来看,对偶问题是将原问题中的最小化和最大化互换,得到一个新的优化问题。具体来说,支持向量机的原问题是寻找一个最优的超平面来...

  • svm算法是什么?
  • 答:支持向量机(英语:support vector machine,常简称为SVM,又名支持向量网络)是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。SVM使用铰链损失函数(hinge loss)计算经验风险(empirical risk)并在求解系统中加入了正则化项以优化结构风险(structural risk),是一个具有稀疏性和稳健性的...

  • 支持向量机分为哪三个超平面
  • 答:支持向量机分为分类超平面、间隔最大化和凸二次规划三个超平面。分类超平面是最基础也最典型的支持向量机,要求所有样本都必须被正确地划分到各自所属类别中。在此基础上发展出了间隔最大化方法,该方法旨在找到一个能够使得两个不同类别之间距离尽可能远且仍然可以完全区分它们的决策边界。凸二次规划是...

  • 支持向量机分类法
  • 答:支持向量机(Support Vector Machine,SVM)分类过程是基于Vapnik和Cher- vonenkis提出的统计学习理论(Statistical Learning Theory,SLT),Vapnik对SVM进行了详细的讨论(Vapnik,1995;Shah et al.,2003;Mahesh et al.,2004;李海涛等,2007;张兵等,2011)。支持向量机(SVM)分类的主要思想是寻找...

  • SVM mode是什么?
  • 答:支持向量机(support vector machines, SVM)是一种二分类模型,所谓二分类模型是指比如有很多特征(自变量X)对另外一个标签项(因变量Y)的分类作用关系,比如当前有很多特征,包括身高、年龄、学历、收入、教育年限等共5项,因变量为‘是否吸烟’,‘是否吸烟’仅包括两项,吸烟和不吸烟。那么该5个...

  • 什么是支持向量机(SVM)以及它的用途?
  • 答:SVM - support vector machine, 俗称支持向量机,为一种supervised learning算法,属于classification的范畴。在数据挖掘的应用中,与unsupervised的Clustering相对应和区别。广泛应用于机器学习(Machine Learning), 计算机视觉(Computer Vision) 和数据挖掘(Data Mining)当中。假设要通过三八线把实心圈和空心圈分成...

  • 支持向量机(SVM)
  • 答:支持向量机(support vector machine),故一般简称SVM,通俗来讲,它是一种二分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,这族分类器的特点是他们能够同时最小化经验误差与最大化几何边缘区,因此支持向量机也被称为最大边缘区分类器。其学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解...

  • 支持向量机为什么能解决维数灾难和局部最小
  • 答:支持向量机,通俗来讲,它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,即支持向量机的学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。其思路是简单情况,线性可分,把问题转化为一个凸优化问题,可以用拉格朗日乘子法简化,然后用既有的算法解决。复杂情况...

  • svm算法是什么?
  • 答:SVM算法中文翻译为支持向量机,它的英文全称是Support Vector Machine。之所以叫作支持向量机,是因为该算法最终训练出来的模型,由一些支持向量决定。所谓的支持向量,也就是能够决定最终模型的向量。SVM算法最初是用来解决二分类问题的,而在这个基础上进行扩展,也能够处理多分类问题以及回归问题。SVM算法的...

    户户网菜鸟学习
    联系邮箱
    返回顶部
    移动学习网