移动学习网 导航

二分类和多分类的区别 二分类的多水平模型和logistic回归到底有什么区别

2024-05-09m.verywind.com
神经网络 二分类 vs 多分类~

二分类:标签为0和1,网络输出的结果要经过sigmoid激活函数处理,输出值的值域为0~1之间,小于0.5则视为标签0, 大于等于0.5则为标签1
多分类:标签为多个值,网络需要输出一个维度与标签数量一致的z-score向量,向量需要通过softmax激活后转化为对应各标签的概率(概率和为1),而判定出的标签是概率最高的那个。

常规的logistic回归模型只有固定效应,而多水平模型包括固定效应和随机效应,研究个体水平和群体水平对结局变量的影响。

二分类、多分类与多标签的基本概念

二分类:表示分类任务中有两个类别,比如我们想识别一幅图片是不是猫。也就是说,训练一个分类器,输入一幅图片,用特征向量x表示,输出是不是猫,用y=0或1表示。二类分类是假设每个样本都被设置了一个且仅有一个标签 0 或者 1。

多类分类(Multiclass classification): 表示分类任务中有多个类别, 比如对一堆水果图片分类, 它们可能是橘子、苹果、梨等. 多类分类是假设每个样本都被设置了一个且仅有一个标签: 一个水果可以是苹果或者梨, 但是同时不可能是两者。

多标签分类(Multilabel classification): 给每个样本一系列的目标标签. 可以想象成一个数据点的各属性不是相互排斥的(一个水果既是苹果又是梨就是相互排斥的), 比如一个文档相关的话题. 一个文本可能被同时认为是宗教、政治、金融或者教育相关话题。

多分类问题与二分类问题关系

 

 

 

首先,两类问题是分类问题中最简单的一种。其次,很多多类问题可以被分解为多个两类问题进行求解(请看下文分解)。所以,历史上有很多算法都是针对两类问题提出的。下面我们来分析如何处理多分类问题:

直接分成多类

 

 

 

一对一的策略

给定数据集D这里有N个类别,这种情况下就是将这些类别两两配对,从而产生N(N−1)2个二分类任务,在测试的时候把样本交给这些分类器,然后进行投票。

 

 

 

一对其余策略

将每一次的一个类作为正例,其余作为反例,总共训练N个分类器。测试的时候若仅有一个分类器预测为正的类别则对应的类别标记作为最终分类结果,若有多个分类器预测为正类,则选择置信度最大的类别作为最终分类结果。

 

 

 

多标签问题与二分类问题关系

面临的问题: 图片的标签数目不是固定的,有的有一个标签,有的有两个标签,但标签的种类总数是固定的,比如为5类。

解决该问题: 采用了标签补齐的方法,即缺失的标签全部使用0标记,这意味着,不再使用one-hot编码。例如:标签为:-1,1,1,-1,1 ;-1表示该类标签没有,1表示该类标签存在,则这张图片的标签编码为:

0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1

2.如何衡量损失?

计算出一张图片各个标签的损失,然后取平均值。

3.如何计算精度

计算出一张图片各个标签的精度,然后取平均值。

该处理方法的本质:把一个多标签问题,转化为了在每个标签上的二分类问题。

损失函数的选择问题

基于逻辑回归的二分类问题

对于logistic回归,有:

逻辑回归有以下优点:

  • 它的输入范围是 ,而之于刚好为(0,1),正好满足概率分布为(0,1)的要求。我们用概率去描述分类器,自然比单纯的某个阈值要方便很多;

    请点击输入图片描述

  • 它是一个单调上升的函数,具有良好的连续性,不存在不连续点。

  • 对数损失函数(logarithmic loss function) 或对数似然损失函数(log-likehood loss function) 。

    逻辑回归中,采用的则是对数损失函数。根据上面的内容,我们可以得到逻辑回归的对数似然损失函数cost function:

    将以上两个表达式合并为一个,则单个样本的损失函数可以描述为:

    这就是逻辑回归最终的损失函数表达式。

    基于 Softmax 的多分类问题

    softmax层中的softmax 函数是logistic函数在多分类问题上的推广,它将一个N维的实数向量压缩成一个满足特定条件的N维实数向。压缩后的向量满足两个条件:

  • 向量中的每个元素的大小都在[0,1]

  • 向量所有元素的和为 1

  • 因此,softmax适用于多分类问题中对每一个类别的概率判断,softmax的函数公式如下:

    请点击输入图片描述

    基于 Softmax 的多分类问题采用的是 log似然代价函数(log-likelihood cost function)来解决。

    单个样本的 log似然代价函数的公式为:

    其中,  表示标签向量的第 i个分量。因为往往只有一个分量为 1 其余的分量都为 0,所以可以去掉损失函数中的求和符号,化简为,

    请点击输入图片描述

    请点击输入图片描述

    其中,  是向量 y 中取值为 1 对应的第 j个分量的值。

    请点击输入图片描述

    交叉熵损失函数与 log 似然代价函数关系 本质一样

    有的文献中也称 log 似然代价函数为交叉熵损失函数,这两个都是交叉熵损失函数,但是看起来长的却有天壤之别。为什么同是交叉熵损失函数,长的却不一样呢?

    请点击输入图片描述

    因为这两个交叉熵损失函数对应不同的最后一层的输出。第一个对应的最后一层是 sigmoid,用于二分类问题,第二个对应的最后一层是 softmax,用于多分类问题。但是它们的本质是一样的,请看下面的分析。

    首先来看信息论中交叉熵的定义:

    请点击输入图片描述

    交叉熵是用来描述两个分布的距离的,神经网络训练的目的就是使 g(x) 逼近 p(x)。

    sigmoid + 交叉熵

    先看看 sigmoid 作为神经网络最后一层的情况。sigmoid 作为最后一层输出的话,那就不能吧最后一层的输出看作成一个分布了,因为加起来不为 1。现在应该将最后一层的每个神经元看作一个分布,对应的 target 属于二项分布(target的值代表是这个类的概率),那么第 i 个神经元交叉熵为

    其实这个式子可以用求和符号改写,

    其中,

    请点击输入图片描述

    Softmax + 对数似然

    现在来看 softmax 作为神经网络最后一层的情况。g(x)是什么呢?就是最后一层的输出 y 。p(x)是什么呢?就是我们的one-hot标签。我们带入交叉熵的定义中算一下,就会得到:

    请点击输入图片描述

    交叉熵损失函数与 log 似然损失函数的总结

    注意到不管是交叉熵损失函数与 log 似然损失函数,交叉熵损失函数用于二分类问题, log 似然损失函数用于多分类,但是对于某一个样本只属于一个类别,只有一个标签。如果用 one-hot 编码样本的标签那么,对于标签向量只有一个分量的值为 1 其余的值都为 0。

    所以不管是交叉熵损失函数与 log 似然损失函数,都可以化简为,

    请点击输入图片描述

    其中,  是向量 y 中取值为 1 对应的第 j 个分量的值。这两个长的不一样的损失函数实际上是对应的不同的输出层。本质上是一样的。

    我的建议是,采用 Kears 中的命名方法,对于二分类的交叉熵损失函数称之为 “二分类交叉熵损失函数(binary_crossentropy)” ,对于多分类的交叉熵损失函数称之为 “多类别交叉熵损失函数(categorical_crossentropy)”。

    在 Kears 中也有提示(注意: 当使用categorical_crossentropy损失时,你的目标值应该是分类格式 (即,如果你有10个类,每个样本的目标值应该是一个10维的向量,这个向量除了表示类别的那个索引为1,其他均为0)。 为了将 整数目标值 转换为 分类目标值,你可以使用Keras实用函数to_categorical:)

    多标签分类 + 二分类交叉熵损失函数

    多标签问题与二分类问题关系在上文已经讨论过了,方法是计算一个样本各个标签的损失(输出层采用sigmoid函数),然后取平均值。把一个多标签问题,转化为了在每个标签上的二分类问题。



  • 多重二分法和多重分类法的区别SPSS中的问题
  • 答:“二分法”是哪个啊?数学里面的还是哲学的,如果是后者,那么“二分法”表面看上去公正、全面,实际可能走向极端的分立思维,许多客观事物不能简单的二分,可能其内在具有复杂的联系,一旦坚持二分,结果倒失去了客观、全面的...

  • 鸟类的二分类法
  • 答:鸟纲现存接近或超过9000种,比哺乳动物种类几乎要多一倍。鸟类虽然种类繁多,但不同鸟类之间的差异却远比哺乳动物要少。哺乳动物中的一个目(比如有袋目)内成员的差异也许就比鸟类两个相差甚远的目的成员之间的差异还要大,...

  • 同质与变异的概念
  • 答:指将观察单位按某种属性分组计数的定性观察结果。包括二分类、无序多分类。(进一步分为二分类和多分类,如性别分为男和女,血型分为A、B、O、AB等)有序数据,也称半定量数据或等级资料,指将观察单位按某种属性的不同...

  • 如何将二分类的逻辑回归推广到多分类
  • 答:3. 使用Softmax函数:多分类问题通常使用Softmax函数对概率进行归一化处理,使得每个类别的概率之和为1。4. 调整损失函数:将二分类的交叉熵损失函数扩展为多分类的损失函数,例如multinomial回归的平方误差损失函数或者最大熵的...

  • 深圳义务教育学位的ABCD分类与1-6类分类有什么区别?
  • 答:ABCD分类与1-6类分类区别如下:一、意义不同:(1)A类:房产与户口一致的户主及海归人员的子女;(2)B类:房产与户口地址一致的户主的孙子、孙女;(3)C类:各种情况购房户户主的子女;(4)D类:各种情况租房户户主...

  • 什么是二歧分类法
  • 答:二歧分类法:将特征不同的一群植物.用一分为二 方法.逐步对比排列.进行分类,称~.根据~可将自然...又名拉马克式二歧分类法 二歧分类法:将特征不同的一群植物.用一分为二 方法.逐步对比排列.进行分类,称~.根据~可将自然.....

  • 如何用二分类logistic回归univariate analysis和multivariate analysis...
  • 答:Logistic回归主要分为三类,一种是因变量为二分类得logistic回归,这种回归叫做二项logistic回归,一种是因变量为无序多分类得logistic回归,比如倾向于选择哪种产品,这种回归叫做多项logistic回归。还有一种是因变量为有序多分类的logistic回归...

  • 二维分类和层级分类有什么区分
  • 答:一个是平面分类,一个是抽象立体分类。层级分类概念是层级网络结构的组成部分。二维即左右、上下两个方向,不存在前后。在一张纸上的内容就可以看做成是二维。即只有面积,没有体积。

  • 不同分类器结合方法进行遥感数据分类的实验
  • 答:2.不同特征集训练的多分类器抽象级结合 在多分类器结合过程中,一般总希望参与结合的各分类器之间具有独立性。理论上,对于两个类别分类的情况,假设有奇数个分类器且分类精度相同,则将这奇数个分类器在抽象级结合后总的分类精度服从一个...

  • 简述分类变量与数值变量的根本区别?
  • 答:无序分类变量:取值之间没有顺序差别,仅做分类,又可分为二分类变量和多分类变量,二分类变量是指将全部数据分成两个类别,如男、女,对、错,阴、阳等,二分类变量是一种特殊的分类变量,是特有的分析方法。多分类变量...

    户户网菜鸟学习
    联系邮箱
    返回顶部
    移动学习网