移动学习网 导航

【十分钟 机器学习 系列课程】讲义(49):SVM 非线性支持向量机 正定核函数的充要条件和常用的和函数

2024-05-12m.verywind.com
~

欢迎来到机器学习的神奇世界,本节我们将深入探讨SVM(支持向量机)中的非线性处理,特别是通过正定核函数来扩展模型的表达能力。首先,让我们明确一个关键概念:一个函数被称为正定核的,当且仅当它所对应的Gram矩阵具备半正定性,这对于理解核方法的数学基础至关重要。


核心原理</: 正定核的判定条件 —— 一个函数若能保证其对应的Gram矩阵每一项都非负,即对任意向量,<v, K(v, v')>总是非负,这样的函数便满足正定性。这样的特性使得我们能在低维空间构建出高维的“映射”空间,从而解决非线性问题。

接下来,我们来看看两种常用的核函数,它们是构建非线性SVM的强大工具:


1. 多项式核函数</:
多项式核(如 K(x, x') = (γ(<x, x'> + r)^d)),其中 γ 是缩放因子,r 是偏置项,d 是多项式的阶数。多项式核在决策函数中表现为复杂的曲线拟合,如 f(x) = ∑_i α_i (γ(<x, x_i> + r)^d)。
2. 高斯核函数</ 或称 高斯核(RBF,Radial Basis Function)</:
高斯核(K(x, x') = exp(-γ||x - x'||^2)),通过衡量两个样本间的欧氏距离并应用指数衰减,它在文本分类等离散数据处理中非常有效。决策函数为 f(x) = ∑_i α_i exp(-γ||x - x_i||^2),生成的是基于高斯分布的分类器。

在处理文本数据时,比如进行文本相似度分析,我们常采用衰减参数的幂函数核,它根据字符串中特定字符组合的出现频率进行权重赋值。


字符串映射的魔法</:
当我们将字符串映射到希尔伯特空间时,一个简单的例子是“big”可以表示为7维向量,其中bi和bg的长度均为2。未出现的字符长度记为0。通过幂函数(如 ||x||^p)来计算向量的内积,从而衡量两个字符串的相似度,余弦相似度便是常用的度量工具。

想更深入地理解这个过程和背后的数学细节?请继续关注我们的视频教程,那里有更多实用的实例和详细解释。下期内容,我们不见不散!



相关主题

    相关链接:
户户网菜鸟学习
联系邮箱
返回顶部
移动学习网