支持向量机研究现状支持向量机(SVM)是否适合大规模数据？

2024-05-23m.verywind.com

关于SVM研究的热点和难点是什么~

　　支持向量机的发展

　　自从90年代初经典SVM的提出，由于其完整的理论框架和在实际应用中取得的很多好的效果，在机器学习领域受到了广泛的重视。其理论和应用在横向和纵向上都有了发展。

　　理论上：1.模糊支持向量机，引入样本对类别的隶属度函数，这样每个样本对于类别的影响是不同的，这种理论的应用提高了SVM的抗噪声的能力，尤其适合在未能完全揭示输入样本特性的情况下。

　　2．最小二乘支持向量机。这种方法是在1999年提出，经过这几年的发展，已经应用要很多相关的领域。研究的问题已经推广到：对于大规模数据集的处理；处理数据的鲁棒性；参数调节和选择问题；训练和仿真。

　　3．加权支持向量机（有偏样本的加权，有偏风险加权）。

　　4．主动学习的支持向量机。主动学习在学习过程中可以根据学习进程，选择最有利于分类器性能的样本来进一步训练分类器，特能有效地减少评价样本的数量。也就是通过某种标准对样本对分类的有效性进行排序，然后选择有效样本来训练支持向量机。

　　5．粗糙集与支持向量机的结合。首先利用粗糙集理论对数据的属性进行约简，能在某种程度上减少支持向量机求解计算量。

　　6．基于决策树的支持向量机。对于多类问题，采用二岔树将要分类的样本集构造出一系列的两类问题，每个两类构造一个SVM。

　　7．分级聚类的支持向量机。基于分级聚类和决策树思想构建多类svm，使用分级聚类的方法，可以先把n-1个距离较近的类别结合起来，暂时看作一类，把剩下的一类作为单独的一类，用svm分类，分类后的下一步不再考虑这单独的一类，而只研究所合并的n-1类，再依次下去。

　　8．算法上的提高。

　　l Vapnik在95年提出了一种称为”chunking”的块算法，即如果删除矩阵中对应Lagrange乘数为0的行和列，将不会影响最终结果。

　　l Osuna提出了一种分解算法，应用于人脸识别领域。

　　l Joachims在1998年将Osuna提出的分解策略推广到解决大型SVM学习的算法

　　l Platt于1998年提出了序贯最小优化（Sequential Minimal Optimization）每次的工作集中只有2个样本。

　　9．核函数的构造和参数的选择理论研究。基于各个不同的应用领域，可以构造不同的核函数，能够或多或少的引入领域知识。现在核函数广泛应用的类型有：多项式逼近、贝叶斯分类器、径向基函数、多层感知器。参数的选择现在利用交叉验证的方法来确认。

　　10．支持向量机从两类问题向多类问题的推广：

　　n Weston在1998年提出的多类算法为代表。在经典svm理论的基础上，直接在目标函数上进行改进，重新构造多值分类模型，建立k分类支持向量机。通过sv方法对新模型的目标函数进行优化，实现多值分类。这类算法选择的目标函数十分复杂，变量数目过多，计算复杂度也非常高，实现困难，所以只在小型问题的求解中才能使用。Weston,Multi-class support vector machines

　　n 一对多（one-against-rest）----- Vapnik提出的,k类---k个分类器，第m个分类器将第m类与其余的类分开，也就是说将第m类重新标号为1，其他类标号为-1。完成这个过程需要计算k个二次规划，根据标号将每个样本分开，最后输出的是两类分类器输出为最大的那一类。不足：容易产生属于多类别的点（多个1）和没有被分类的点（标号均为-1）--不对，训练样本数据大，训练困难，推广误差无界.

　　n 一对一（one-against-one）---Kressel 对于任意两个分类，构造一个分类器，仅识别这两个分类，完成这个过程需要k(k-1)/2个分类器，计算量是非常庞大的。对于每一个样本，根据每一个分类器的分类结果，看属于哪个类别的次数多，最终就属于哪一类(组合这些两类分类器并使用投票法，得票最多的类为样本点所属的类)。不足：如果单个两类分类器不规范化，则整个N类分类器将趋向于过学习；推广误差无界；分类器的数目K随类数急剧增加，导致在决策时速度很慢。

　　n 层（数分类方法），是对一对一方法的改进，将k个分类合并为两个大类，每个大类里面再分成两个子类，如此下去，直到最基本的k个分类，这样形成不同的层次，每个层次都用svm来进行分类------1对r-1法，构建k-1个分类器，不存在拒绝分类区。

　　应用上：人脸检测，汽轮发电机组的故障诊断，分类，回归，聚类，时间序列预测，系统辨识，金融工程，生物医药信号处理，数据挖掘，生物信息，文本挖掘，自适应信号处理，剪接位点识别，基于支持向量机的数据库学习算法，手写体相似字识别，支持向量机函数拟合在分形插值中的应用，基于支持向量机的惯导初始对准系统，岩爆预测的支持向量机，缺陷识别，计算机键盘用户身份验证，视频字幕自动定位于提取，说话人的确认，等等。

　　主要研究热点

　　从上面的发展中，我们可以总结出，目前支持向量机有着几方面的研究热点：核函数的构造和参数的选择；支持向量机从两类问题向多类问题的推广；更多的应用领域的推广；与目前其它机器学习方法的融合；与数据预处理（样本的重要度，属性的重要度，特征选择等）方面方法的结合，将数据中脱离领域知识的信息，即数据本身的性质融入支持向量机的算法中从而产生新的算法；支持向量机训练算法的探索。

关于什么是大规模机器学习，可以参考[1, 2, 3]的讨论。显然，大小是个相对的概念，在机器学习的语境下也不例外，什么是大规模，这很大程度上取决于你所面对的应用以及可用的计算资源。在互联网应用成为机器学习主要应用领域之一的今天，能不能处理Google或者淘宝这样重量级的网站所生成的数据，成为互联网从业人员心目中大规模的标尺。从技术角度看，统计学习算法所能处理的数据规模有几个分水岭：1）算法是否依赖于对训练集的随机访问。依赖于训练集随机访问的算法需要将训练集全部加载进内存，所能处理的数据量受内存大小的限制。2）算法是否能有效地利用分布式（或并行的）计算资源。单台计算机（或单处理器）的处理能力毕竟是有限的。如果可用的计算资源增长100倍，算法能处理的数据量的增长远小于100倍，则算法的适用范围也会有很大的限制。以上主要是围绕训练集的规模在讨论，实际上还会有更多需要考虑的问题，比如数据的维数、分类类别的数目、检测时的效率等等问题，可以参考[2]及其中提到的相关文献。如[3]中所说，（传统的？）统计学习的核心问题是样本不足时如何得到泛化能力很强的模型，但对于大规模学习来说，障碍往往在于算法的计算能力不足，不是数据不够，所以也可以说传统的统计学习方法都不适合大规模数据处理(不只是SVM)。因为互联网应用的推动，最近几年这个领域新结果非常多。总体来说，对于基于支持向量机的大规模线性分类问题，目前已经能比较好地解决。[4]对现有结果做了比较好的总结，[2]则对需要进一步解决的问题有很好的概述。对于非线性分类问题，基于Dual Decomposition（或者SMO）方法的SVM-Light和LibSVM目前仍被广泛使用，他们最坏情况下复杂度是O(训练样本数的平方)，并不适合在大规模数据集上做训练。Pegasos[5]的复杂度同训练样本数呈线性关系，但实验中效率并不高于SMO方法。盛佳提到的PSVM[6]利用分布式计算资源降低训练耗时。不过在我接触过的应用场景里（比如对象检测），非线性SVM的最大问题不是训练时代价问题，而是检测时代价太高，在实际应用中基本上已经退出竞争。当然，相关的研究并没有终止——毕竟不同的应用场景会有不同的需求。对于未来的发展，还是多看看[2]吧。

支持向量机能较好地解决小样本、非线性、高维数和局部极小点等实际问题，已成为机器学习界的研究热点之一。目前，国际上对这一理论的讨论和进一步研究较为深入。我国国内对这一理论已经开展了积极，有效的研究工作，尤其是近几年支持向量机越来越广泛地被应用到生产和生活中。支持向量机开始主要应用在模式识别方面，如手写数字的识别问题，语音识别等，后来应用于人脸检测，以及文本分类网等各种领域。支持向量机在生物信息领域，如蛋白质的分类，DNA分析等，取得了较好的结果。此外支持向量机还应用于时间序列分析、回归分析、聚类分析。但相比之下，分类问题的研究较为成熟，其他方面如时间序列分析，聚类分析等方面的研究，还有待进一步的完善。另一方面，在实际应用中，出现的算法参数选择，特征选择问题等，还需要进一步的研究。支持向量机方法虽然是针对两类分类问题而提出的，但如何将两类的分类方法推广到多类问题的分类也是支持向量机理论研究的重要内容之一。目前，将支持向量机的思想应用于解决多类问题的方法，主要有一类对余类、成对分类以及决策树的方法等。

基坑降水环境影响评价问题，是基坑降水环境系统和孕灾环境系统分析的问题。基坑降水环境影响评价指标是用来表征具体环境特性和质量的指标体系。因为实际的环境千差万别，研究内容各不相同，所以建立统一的指标体系解决不同区域的环境评价显然是不切实际的，但是根据影响因素分析，建立相对统一的指标层次结构体系又是可行的。影响因素包括两个方面，一是基坑工程本身固有的工程水文地质和设计要素，二是基坑开挖和运营期间周边环境的影响。其样本是有限样本、非线性、多维问题。因此新兴的机器学习支持向量机能够解决基坑降水环境影响评价与预测问题。

支持向量机研究现状

答：支持向量机开始主要应用在模式识别方面，如手写数字的识别问题，语音识别等，后来应用于人脸检测，以及文本分类网等各种领域。支持向量机在生物信息领域，如蛋白质的分类，DNA分析等，取得了较好的结果。此外支持向量机还应用于时间序列分析、回归分析、聚类分析。但相比之下，分类问题的研究较为成熟，其他方面...

支持向量机和神经网络那个前景更好?

答：你好！支持向量机SVM ( Support Vector Machines)是由Vanpik领导的AT&TBell实验室研究小组在1963年提出的一种新的非常有潜力的分类技术, SVM是一种基于统计学习理论的模式识别方法，主要应用于模式识别领域.由于当时这些研究尚不十分完善,在解决模式识别问题中往往趋于保守,且数学上比较艰涩,因此这些研究一...

支持向量机还有研究的必要吗

答：有。支持向量机的整套体系有扎实的数学理论基础，例如最大间隔，拉格朗日对偶问题，核技巧等，对这些理论的学习和研究，也可以用在深度学习项目中。支持向量机(SupportVectorMachine)是一种监督模式识别和机器学习方法，采用最大分类间隔准则实现有限训练样本情况下推广能力的优化。

支持向量机的英文缩写是

答：支持向量机（英语：Support Vector Machine, 简称SVM)，是一种有监督学习方法，可被广泛应用于统计分类以及线性回归。Vapnik等人在多年研究统计学习理论基础上对线性分类器提出了另一种设计最佳准则。其原理也从线性可分说起，然后扩展到线性不可分的情况。甚至扩展到使用非线性函数中去，这种分类器被称为...

医学论文开题报告

答：其中又以启发发(heuristic method,简称HM),支持向量机(Support Vector Machine,简称SVM),基因表达式编程(Gene Expression Programming,简称GEP)比较常见。支持向量机(Support Vector Machine)是Vapnik[10]等人根据统计学理论提出的一种新的通用学习方法,它是建立在统计学理论的VC维理论和结构风险最小原理基础上的,能较好...

计算机视觉与图像识别的目录

答：2．4实验2．3基于相位一致性的红外图像匹配方法2．3．1相位一致性和局部能量2．3．2基于相位一致性的边缘检测2．3．3基于相位一致性的红外图像区域匹配2．3．4实验第3章支持向量机算法3．1概述3．1．1统计学习理论3．1．2支持向量机3．1．3支持向量机研究现状与应用3．2支持向量机求解方法3．...

基于支持向量机方法的土地退化信息提取

答：表3 -4 研究区土地退化监测指标体系 (二) 支持向量机方法与神经网络方法 1. 支持向量机方法支持向量机方法 ( Support Vector Machines,SVM) 是建立在统计学习理论基础上的一种新兴的学习方法,应用思路充分体现了统计学习理论中关于学习过程一致性和结构风险最小化的思想,它的设计方法是在保持经验风险固定 ( 甚至...

支持向量机(SVM)基本原理

答：支持向量机 ,因其英文名为support vector machine,故一般简称SVM,通俗来讲,它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。线性分类器给定一些数据点,它们分别属于两个不同的类,现在要找到一个线性分类器把这些...

【技术综述】人脸脸型分类研究现状(2018年版)

答：脸型特征在表情识别、个性化眼镜选择等领域展现出显著的价值。研究者们广泛利用数据集如JAFFE、CAS-PEAL和CelebA进行深入研究。传统的轮廓拟合方法与现代的机器学习算法如支持向量机（SVM）相结合，例如通过one-vs-one策略，如将三类脸型A、B、C分别形成SVM1(A,B)，通过投票机制确定类别。AAM（Active ...

SVM(支持向量机)属于神经网络范畴吗?

答：回答：支持向量机是什么?SVM是英语“支持向量机”的缩写,支持向量机是一种常见的识别方法。在机器学习领域,它是一种监督学习模式,通常用于模式识别、分类和回归分析。特别是这个线性支持向量机的计算部分和单层神经网络是一样的,这只是一个矩阵乘积。SVM的关键在于它的铰链损耗和最大限度的概念。这种损耗...

支持向量机研究现状 支持向量机(SVM)是否适合大规模数据？

相关主题

支持向量机研究现状支持向量机(SVM)是否适合大规模数据？