3 - 线性分类
本文最后更新于:3 个月前
3 - 课节3: 线性分类
3.0 - 线性模型概述
3.1 - 分类问题示例
这种方式的缺点在于将文本的语序信息丢掉了
3.2 - 线性分类模型
分类问题因为y不可导,因此要寻找更优的损失函数
3.3 - 交叉熵与对数似然
交叉熵
交叉熵可以用来衡量两个分布的差异。如果两个分布越近,那么蕴含的信息越少,交叉熵越小。
KL散度
3.4 - 具体的线性分类模型:Logistic回归
逻辑判断函数是不可导的,因此不能通过优化损失来学习。因此就需要一个可导的损失函数来优化。
因此需要将分类问题转换为概率的估计问题。通过交叉熵来建立损失函数。
σ(x)通常被指代为logistic函数。
通过这种方式,将实数域的值映射到(0,1)之间,转化为0-1之间的概率分布问题。
3.5 - Softmax回归
logistic回归是用于二分类问题的,其在多分类问题下的扩展形式是softmax回归。
softmax函数,将预测的内容转化为总和为1的概率。
3.6 - 感知器
感知器目前是一个简单的线性分类器
感知器这种学习方式类似于现有的随机梯度下降算法,即每次选择一组数据进行训练更新。
对于logistic回归来说,参数w的更新,要看犯错的程度,如果输出和标签之前的差异越小,那么参数w的更新越小。
而感知器是不参考犯错的程度的,只要犯错就按照特定的方式更新。
但是感知器在正确分类的时候是不更新的,这一点是比较好的。
感知器的更新过程
感知器很好的性能:收敛性
如果数据集是线性可分的话,那么模型一定会在有限的更新次数内找到使得数据分开的权重
3.7 - 支持向量机
感知器存在的问题:分界面有可能找到多个,能不能找到一个最好的分界面?
理想的分界面是距离所有的数据有比较远,这样直观上感觉健壮性会更好。
支持向量机的优化标准就是选择间隔最大的分界线。
3.8 - 线性分类模型小结
yf(x;w)为正的话,表示分类正确,为负数表示分类错误,且该数越大则表示分类越正确。
==平方损失分析:==
当yf(x;w)大于1的时候,随着增大应该,损失应该减小,但是在图中看出损失却随着yf(x;w)的增加而增大,因此平方损失是不适合做分类任务的。
==logistic回归的损失函数:交叉熵损失函数==
在图中可以看出,随着yf(x;w)的增加,损失是下降的。这样是合理的。
虽然是合理的,但是在分类正确的情况下可以看出交叉熵损失仍然是有惩罚的,因此虽然合理,但是对于分类任务来讲,分类正确仍然惩罚是没有必要的。这个损失函数依然有改进的空间。
==感知器的损失函数:==
感知器的损失可以看出是标准的为分类而设计的,如果小于0则有损失,如果大于0分类正确则没有损失。
==软间隔的支持向量机的损失函数:==
在距离边界比较近的地方,依然是有惩罚的。
软间隔的SVM的loss在直觉上会带来更好的效果。
线性分类模型小结
线性分类器无法解决非线性问题
使用“基函数”的广义线性模型解决非线性问题的分类问题
使用基函数,将分布映射到另一个可分的空间就可以进行分类了