支持向量机分类为什么会出现分3类比分2类准确度高很多 分类精度评价
支持向量机SVM ( Support Vector Machines)是由Vanpik领导的ATTBell实验室研究小组
在1963年提出的一种新的非常有潜力的分类技术, SVM是一种基于统计学习理论的模式识别方法,主要应用于模式识别领域.由于当时这些研究尚不十分完善,在解决模式识别问题中往往趋于保守,且数学上比较艰涩,因此这些研究一直没有得到充的重视.直到90年代,一个较完善的理论体系—统计学习理论 ( StatisticalLearningTheory,简称SLT) 的实现和由于神经网络等较新兴的机器学习方法的研究遇到一些重要的困难,比如如何确定网络结构的问题、过学习与欠学习问题、局部极小点问题等,使得SVM迅速发展和完善,在解决小样本 、非线性及高维模式识别问题中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中.从此迅速的发展起来,现在已经在许多领域(生物信息学,文本和手写识别等)都取得了成功的应用。
SVM的关键在于核函数,这也是最喜人的地方。低维空间向量集通常难于划分,解决的方法是将它们映射到高维空间。但这个办法带来的困难就是计算复杂度的增加,而核函数正好巧妙地解决了这个问题。也就是说,只要选用适当的核函数,我们就可以得到高维空间的分类函数。在SVM理论中,采用不同的核函数将导致不同的SVM算法
它是一种以统计学理论为基础的,以结构风险最小化的学习机学习方法,要优于神经网络学习。
通过比较原始遥感图像和经过MNF变换后的图像(图2.4)及其经过MNF_SAM(图版1.1)、SVM(图版1.2)、MNF_SVM(图版1.3)分类后的分类结果,可以明显地发现基于最小噪声分类的支持向量机算法(MNF_SVM)最接近真实的地物信息,支持向量机算法的分类结果也好于光谱角制图法的分类结果。分类结果的精度是通过三种分类模型的混淆矩阵来进行计算的。MNF_SAM分类结果的混淆矩阵见表2.2,SVM分类结果的混淆矩阵见表2.3,MNF_SVM分类结果的混淆矩阵见表2.4。
表2.2 MNF_SAM分类精度的混淆矩阵 (单位:像元数目/%)
注:总体精度=8472/9368=90.44%;Kappa系数=0.89。
表2.3 SVM分类精度的混淆矩阵 (单位:像元数目/%)
注:总体精度=8896/9368=94.96%;Kappa系数=0.94。
表2.4 MNF_SVM分类精度的混淆矩阵 (单位:像元数目/%)
注:总体精度=8929/9368=95.31%;Kappa系数=0.95。
从表2.2~2.4中可以明显的得出,MNF _ SAM的总体分类精度=8472/9368 =90.44%,Kappa系数=0.89;SVM的总体分类精度=8896/9368=94.96%,Kappa系数=0.94;MNF_SVM总体分类精度=8929/9368=95.31%,Kappa系数=0.95。即:(1)SVM的总体分类精度要比MNF_SAM的总体分类精度高4.53%,Kappa系数提高0.05;(2)MNF_SVM的总体分类精度要比MNF_SAM的总体分类精度高4.88%,Kappa系数提高0.06;(3)MNF_SVM的总体分类精度要比SVM的总体分类精度高0.35%,Kappa系数提高0.01。
MNF_SAM分类结果显示树木和草地的地物分类有许多错误的分类点,在SVM的分类结果图中也有类似的错误,而它的错误信息要比MNF_SAM分类图少;但是这种现象在MNF_SVM分类图中虽然也存在,但是错误量极少。尽管MNF_SVM的分类方法不能做到百分之百的分类正确性,但是相对于MNF_SAM和SVM,不失为一种很好的分类方法,在三种分类方法中是最佳的一种。
由此可见,无论从总体分类考虑还是具体地物类别考虑,MNF_SVM方法和SVM方法分类精度都高于MNF_SAM方法,这说明了SVM方法在高光谱影像分类中有着突出表现,同时MNF_SVM方法比SVM方法有更好的表现,其原因主要是因为MNF _SVM方法在分类前经过了MNF变换,去除了噪音波段,对原始信息进行了优化处理,选择了有效的特征信息参加分类,这不仅可以降低高光谱数据的维数,还可以在一定程度上克服Hughes现象,最终达到了高维信息的数据降维和高效利用以及高精度分类的目的。