机器学习入门-02模型评估
先占个位置,后续继续补充学习记录。现在是2025年7月16日23:54:13,脑子有点不听使唤了,明天继续。
第2章 模型评估与选择
本章介绍模型评估与选择,讲述如何评估模型的优劣和选择最适合自己业务场景的模型。
参考讲解视频: 合集·西瓜书代码实战
正太分布的前世今生:https://cosx.org/2013/01/story-of-normal-distribution-1/
2.1 经验误差与过拟合
几个重要概念的定义如下。
错误率:E=amE=*m**a,其中mm为样本个数,aa*为分类错误样本个数。
精度:精度=1-错误率。
误差:学习器的实际预测输出与样本的真实输出之间的差异。
经验误差:学习器在训练集上的误差,又称为"训练误差"。
泛化误差:学习器在新样本上的误差。
错误率和精度很容易理解,而且很明显是针对分类问题的。误差的概念更适用于回归问题,但是,根据"西瓜书"第12章的式(12.1)和式(12.2)的定义可以看出,在分类问题中也会使用误差的概念,此时的"差异"指的是学习器的实际预测输出的类别与样本真实的类别是否一致,若一致则"差异"为0,若不一致则"差异"为1,训练误差是在训练集上差异的平均值,而泛化误差则是在新样本(训练集中未出现过的样本)上差异的平均值。
过拟合是由于模型的学习能力相对于数据来说过于强大,反过来说,欠拟合是因为模型的学习能力相对于数据来说过于低下。暂且抛开"没有免费的午餐"定理不谈,例如对于"西瓜书"第1章图1.4中的训练样本(黑点)来说,用类似于抛物线的曲线A去拟合则较为合理,而比较崎岖的曲线B相对于训练样本来说学习能力过于强大,但若仅用一条直线去训练则相对于训练样本来说直线的学习能力过于低下。
2.2 评估方法
2.3 性能度量
2.4 比较检验
2.5 偏差与方差
机器学习入门-02模型评估
https://jiangsanyin.github.io/2025/07/16/机器学习入门-02模型评估/