移动学习网 导航

用于数据挖掘的分类算法有哪些,各有何优劣 用于数据挖掘的分类算法有哪些?各有何优劣呢?

2024-05-09m.verywind.com
用于数据挖掘的分类算法有哪些,各有何优劣~

数据挖掘的核心是为数据建立模型的过程。所有的数据挖掘产品都有这个建模过程,不同的是它们构造模型的方式互不相同。进行数据挖掘时可采用许多不同的算法。决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来作预测。常用的算法有CHAID、CART、ID3和C4.5。决策树方法很直观,这是它的最大优点,缺点是随着数据复杂性的提高,分支数增多,管理起来很困难。ANGOSS公司的KnowedgeSEEKER产品采用了混合算法的决策树。神经网络近来越来越受到人们的关注,因为它为解决大复杂度问题提供了一种相对来说比较有效的简单方法。神经网络常用于两类问题:分类和回归。它的最大优点是它能精确地对复杂问题进行预测。神经网络的缺点是网络模型是个黑盒子,预测值难于理解;神经网络有过拟合的现象。IBM、SAS、SPSS、HNC、ANGOSS等公司是这个产品的供应者。遗传算法是一种基于进化过程的组合优化方法。它的基本思想是随着时间的更替,只有最适合的物种才得以进化。遗传算法能够解决其它技术难以解决的问题,然而,它也是一种最难于理解和最开放的方法。遗传算法通常与神经网络结合使用。采用上述技术的某些专门的分析工具已经发展了大约十年的历史,不过这些工具所面对的数据量通常较小。而现在这些技术已经被直接集成到许多大型的工业标准的数据仓库和联机分析系统中去了。

用数据挖掘的分类算法比如有代入法,换算法等,我个人还是建议你选择代入法,这样方便简单,出来结果也很快,准确。

1、朴素贝叶斯(Naive Bayes, NB)

简单,就像做一些数数的工作。

如果条件独立假设成立的话,NB将比鉴别模型(如Logistic回归)收敛的更快,所以你只需要少量的训练数据。

如果你想做类似半监督学习,或者是既要模型简单又要性能好,NB值得尝试.


2. Logistic回归(Logistic Regression, LR)

LR有很多方法来对模型正则化。比起NB的条件独立性假设,LR不需要考虑样本是否是相关的。

如果你想要一些概率信息(如,为了更容易的调整分类阈值,得到分类的不确定性,得到置信区间),或者希望将来有更多数据时能方便的更新改进模型,LR是值得使用的.


3.决策树(Decision Tree, DT)

DT是非参数的,所以你不需要担心野点(或离群点)和数据是否线性可分的问题(例如,DT可以轻松的处理这种情况:属于A类的样本的特征x取值往往非常小或者非常大,而属于B类的样本的特征x取值在中间范围)。

DT的主要缺点是容易过拟合,这也正是随机森林(Random Forest, RF)(或者Boosted树)等集成学习算法被提出来的原因。

此外,RF在很多分类问题中经常表现得最好,且速度快可扩展,也不像SVM那样需要调整大量的参数,所以最近RF是一个非常流行的算法.


4.支持向量机(Support Vector Machine, SVM)

很高的分类正确率,对过拟合有很好的理论保证,选取合适的核函数,面对特征线性不可分的问题也可以表现得很好。

SVM在维数通常很高的文本分类中非常的流行。由于较大的内存需求和繁琐的调参,我认为RF已经开始威胁其地位了.



朴素贝叶斯(Naive Bayes, NB)
超级简单,就像做一些数数的工作。如果条件独立假设成立的话,NB将比鉴别模型(如Logistic回归)收敛的更快,所以你只需要少量的训练数据。即使条件独立假设不成立,NB在实际中仍然表现出惊人的好。如果你想做类似半监督学习,或者是既要模型简单又要性能好,NB值得尝试。

Logistic回归(Logistic Regression, LR)
LR有很多方法来对模型正则化。比起NB的条件独立性假设,LR不需要考虑样本是否是相关的。与决策树与支持向量机(SVM)不同,NB有很好的概率解释,且很容易利用新的训练数据来更新模型(使用在线梯度下降法)。如果你想要一些概率信息(如,为了更容易的调整分类阈值,得到分类的不确定性,得到置信区间),或者希望将来有更多数据时能方便的更新改进模型,LR是值得使用的。

决策树(Decision Tree, DT)
DT容易理解与解释(对某些人而言——不确定我是否也在他们其中)。DT是非参数的,所以你不需要担心野点(或离群点)和数据是否线性可分的问题(例如,DT可以轻松的处理这种情况:属于A类的样本的特征x取值往往非常小或者非常大,而属于B类的样本的特征x取值在中间范围)。DT的主要缺点是容易过拟合,这也正是随机森林(Random Forest, RF)(或者Boosted树)等集成学习算法被提出来的原因。此外,RF在很多分类问题中经常表现得最好(我个人相信一般比SVM稍好),且速度快可扩展,也不像SVM那样需要调整大量的参数,所以最近RF是一个非常流行的算法。

支持向量机(Support Vector Machine, SVM)
很高的分类正确率,对过拟合有很好的理论保证,选取合适的核函数,面对特征线性不可分的问题也可以表现得很好。SVM在维数通常很高的文本分类中非常的流行。由于较大的内存需求和繁琐的调参,我认为RF已经开始威胁其地位了。

回到LR与DT的问题(我更倾向是LR与RF的问题),做个简单的总结:两种方法都很快且可扩展。在正确率方面,RF比LR更优。但是LR可以在线更新且提供有用的概率信息。鉴于你在Square(不确定推断科学家是什么,应该不是有趣的化身),可能从事欺诈检测:如果你想快速的调整阈值来改变假阳性率与假阴性率,分类结果中包含概率信息将很有帮助。无论你选择什么算法,如果你的各类样本数量是不均衡的(在欺诈检测中经常发生),你需要重新采样各类数据或者调整你的误差度量方法来使各类更均衡。

  • 数据挖掘的常用方法有哪些?
  • 答:遗传算法常用于优化神经元网络,能够解决其他技术难以解决的问题。5、聚类分析法 聚类分析是把一组数据按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽...

  • 数据挖掘的方法有哪些?
  • 答:数据挖掘的的方法主要有以下几点:1.分类挖掘方法。分类挖掘方法主要利用决策树进行分类,是一种高效且在数据挖掘方法中占有重要地位的挖掘方法。为了对数据进行较为准确的测试并据此分类,我们采用决策树算法,而决策树中比较...

  • 数据挖掘常用算法有哪些?
  • 答:与决策树与SVM相比,还会得到一个不错的概率解释,甚至可以轻松地利用新数据来更新模型(使用在线梯度下降算法online gradient descent)。如果需要一个概率架构(比如,简单地调节分类阈值,指明不确定性,或者是要获得置信区间),...

  • 数据挖掘中常用的方法有哪些?基本流程是什么?
  • 答:分类算法:根据已有的数据特征,将数据分为不同的类别,例如基于决策树、朴素贝叶斯、支持向量机等算法。聚类算法:将数据按照相似性进行分组,例如基于K-Means聚类、层次聚类等算法。关联规则挖掘:在数据集中发现项与项之间的...

  • 数据挖掘十大经典算法及各自优势
  • 答:在分类树下面有两个关键的思想。第一个是关于递归地划分自变量空间的想法;第二个想法是用验证数据进行剪枝。以上是小编为大家分享的关于数据挖掘十大经典算法及各自优势的相关内容,更多信息可以关注环球青藤分享更多干货 ...

  • 数据挖掘的经典算法
  • 答:2. K-means算法:是一种聚类算法。3.SVM:一种监督式学习的方法,广泛运用于统计分类以及回归分析中4.Apriori :是一种最有影响的挖掘布尔关联规则频繁项集的算法。5.EM:最大期望值法。6.pagerank:是google算法的重...

  • 三种经典的数据挖掘算法
  • 答:这种算法在数据挖掘工作使用率还是挺高的,一名优秀的数据挖掘师一定懂得使用这一种算法。3.CART算法 CART, 也就是Classification and Regression Trees。就是我们常见的分类与回归树,在分类树下面有两个关键的思想。第一个是...

  • 用于数据挖掘的聚类算法有哪些,各有何优势
  • 答:系统聚类:适用于个案或变量聚类,对分类数没有要求,连续性和分类型变量均适用;两步聚类:1)分类变量和连续变量均可参与二阶聚类;2)可自动确定分类数;3)适用于大数据集;4)用户可自己定制用于运算的内存容量 ...

  • 数据挖掘的经典算法有哪些?
  • 答:关于数据挖掘的经典算法有哪些,该如何下手的内容,青藤小编就和您分享到这里了。如果您对大数据工程有浓厚的兴趣,希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的技巧及素材等内容,可以点击...

  • 数据挖掘中的经典算法
  • 答:这种算法在数据挖掘中是十分常见的算法。2.支持向量机 而Support vector machines就是支持向量机,简称SV机(论文中一般简称SVM)。它是一种监督式学习的方法,这种方法广泛的应用于统计分类以及回归分析中。支持向量机将向量...

    户户网菜鸟学习
    联系邮箱
    返回顶部
    移动学习网