传统的互联网产品都已经有很成熟的评估指标进行分析,但面对大模型此类新产品,我们如何评价一款产品的好坏?这篇文章,我们就来补充一下这些评估指标的基础知识。
在评估模型时,我们一般会用到模型的性能指标、模型的稳定性指标、业务相关指标。另外根据模型应用的不同场景,我们可能还会用到可解释性指标、时效性指标、公平性指标、资源利用指标、鲁棒性指标等。本文将重点介绍模型的性能指标、模型的稳定性指标,其它类型指标感兴趣的可自行深入了解。
对于分类问题 ,常用的模型评估性能指标:准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1 值、AUC值、KS值。
对于回归问题,常用的模型评估性能指标:均方误差(Mean Squared Error,MSE)、均方根误差(Root Mean Squared Error,RMSE)、MAE(平均绝对误差)、R² 系数。
模型的稳定性是指模型在不同的数据集(如训练集、验证集、测试集)、不同的环境条件(如不同的硬件、软件平台)或者随着时间的推移,其性能表现保持相对一致的特性。常用的稳定性指标有PSI指标。
业务指标根据模型解决不同的业务问题而不同,比如在人工智能客服中,常用到的业务指标有智能客服的独立接待率(没有转人工情况下)。
衡量模型的可解释程度,即能够让用户理解模型是如何做出决策的能力。例如,在一些对决策过程透明度要求较高的领域,如医疗诊断、金融风险评估等,模型的可解释性至关重要。常用的可解释性指标有特征重要性、部分依赖图等。
评估模型的响应速度和更新频率是否满足实际应用的时间要求。在一些实时监控、在线交易等场景中,模型需要快速做出反应并且及时更新以适应数据的变化。常用的指标如推理时间(指模型从输入数据到输出预测结果所花费的时间)。
用于评估模型在不同群体(如不同性别、种族、年龄等)之间是否存在偏差。确保模型不会对某些群体产生不公平的对待,尤其是在涉及到招聘、司法、信贷分配等敏感领域。常用的指标如统计均等差异(计算不同群体(如男性和女性)获得正类预测结果的概率差异)。
考虑模型在运行过程中对硬件资源(如 CPU、GPU、内存等)的消耗情况。在大规模部署模型或者资源受限的环境中,资源利用效率是一个重要的评估因素。常见的指标如内存占用。
鲁棒性是指模型在面对数据的微小扰动、噪声干扰、对抗攻击或者分布变化等异常情况时,仍然能够保持良好性能的能力。一个鲁棒性强的模型在各种复杂和不确定的实际应用场景中更可靠。常用的指标如对抗攻击的鲁棒性、数据噪声下的鲁棒性。
a. 用法
b. 合理值区间
准确率的取值范围在 0% 到 100% 之间。通常来说,准确率越高越好,但具体的合理值取决于问题的难度和应用场景。
c. 应用场景
适用于各类分类问题,尤其是在类别分布比较均衡的情况下。例如,在识别手写数字的任务中,可以使用准确率来评估模型的性能。
d. 优缺点
a. 用法
b. 合理值区间
精确率和召回率的取值范围也在 0% 到 100% 之间。一般来说,需要根据具体问题来权衡精确率和召回率的重要性,没有固定的合理值区间。
c. 应用场景
在信息检索、疾病诊断等场景中非常重要。例如,在垃圾邮件过滤中,需要在保证较高精确率的同时,尽可能提高召回率,以确保不会错过重要的邮件。这里需要注意要分清业务目标是偏向于召回率还是精确率。因为实际场景中两者的高取值往往不可兼得。
d. 优缺点
a. 用法
b. 合理值区间
同精确率和召回率一样,F1 值的取值范围在 0% 到 100% 之间。一般来说,F1 值越高越好。
c. 应用场景
常用于需要同时考虑精确率和召回率的场景,作为一个综合指标来评估模型性能。
d. 优缺点
a. 定义及计算方法
定义:AUC 值衡量的是分类器区分正例和负例的能力。它通过绘制不同阈值下的真正例率(True Positive Rate,TPR)与假正例率(False Positive Rate,FPR)的关系曲线,计算曲线下的面积得到。
计算公式:AUC 的计算通常使用积分的方法,由于 ROC 曲线通常是阶梯状的,实际计算中可以通过近似求和的方式进行。对于一系列不同阈值下的 TPR 和 FPR 值,可以通过梯形法则近似计算 AUC 值。
b. 用法
c. 合理值区间
AUC 值的合理值区间为 0.5 到 1。越接近 1 表示分类器性能越好,0.5 表示分类器性能与随机猜测相当。一般来说,AUC 值大于 0.7 被认为是一个较好的分类器性能,具体的合理值还需要根据具体问题和应用场景来确定。
d. 应用场景
e. 优缺点
优点:
缺点:
a. 用法
计算 KS 值通常需要将样本按照预测为正例的概率从高到低排序,然后分别计算每个概率分位点上的累计正例占比和累计负例占比,两者之差的最大值即为 KS 值。
KS 值反映了模型对正例和负例的区分程度,值越大表示模型的区分能力越强。
b. 合理值区间
一般来说,KS 值在 0.2 以下表示模型区分能力较弱;0.2 – 0.4 之间表示模型有一定区分能力;0.4 以上表示模型区分能力较强。但具体的合理值区间会因不同的业务场景和数据特点而有所差异。
c. 应用场景
d. 优缺点
优点:
缺点:
a. 用法
这两个指标主要用于回归问题,衡量模型预测值与真实值之间的差异。
MSE 是预测值与真实值之差的平方的平均值。RMSE 是 MSE 的平方根。
计算公式为:MSE = Σ(预测值 – 真实值)^2 / 样本数;RMSE = √MSE。
b. 合理值区间
MSE 和 RMSE 的值越小越好,没有固定的合理值区间,具体取决于问题的规模和数据的特性。
c. 应用场景
在房价预测、销售预测等回归问题中广泛使用。
d. 优缺点
优点:能够直观地反映预测值与真实值之间的差异程度。
缺点:对异常值比较敏感,可能会因为少数异常值而导致指标值大幅上升。
a. 用法
MAE 也是用于回归问题的指标,它计算预测值与真实值之差的绝对值的平均值。
计算公式为:MAE = Σ| 预测值 – 真实值 | / 样本数。
b. 合理值区间
同 MSE 和 RMSE 一样,MAE 的值越小越好,具体合理值取决于问题的具体情况。
c. 应用场景
常用于回归问题,与 MSE 和 RMSE 一起作为评估模型性能的指标。
d. 优缺点
优点:对异常值相对不那么敏感,能够更稳健地反映模型的平均误差。
缺点:可能不如 MSE 和 RMSE 那样能突出较大的误差。
a. 用法
R² 系数用于衡量回归模型对数据的拟合程度。它表示模型解释的方差占总方差的比例。
计算公式为:R² = 1 – Σ(真实值 – 预测值)^2 / Σ(真实值 – 平均值)^2。
b. 合理值区间
R² 的取值范围在 0% 到 100% 之间,越接近 100% 表示模型拟合越好。
c. 应用场景
在回归分析中,用于评估模型的整体性能和解释能力。
d. 优缺点
优点:能够直观地反映模型对数据的拟合程度,解释性较强。
缺点:可能会受到数据量和特征选择的影响,在某些情况下可能会出现过拟合导致 R² 值过高的情况。
a. 用法
首先将数据分为两组,通常是训练集和验证集(或不同时间段的数据)。
对于每个分箱区间(可以根据特征值进行等频分箱等),计算该区间内训练集样本的占比和验证集样本的占比。
然后计算每个分箱区间的 PSI 值,公式为:PSI = sum ((实际占比 – 预期占比) * ln (实际占比 / 预期占比))。
最后将各个分箱区间的 PSI 值相加得到总体的 PSI 值。
PSI 值反映了两个数据集在各个分箱区间上的分布差异程度。如果 PSI 值接近 0,说明两个数据集的分布相似,模型比较稳定;如果 PSI 值较大,则说明两个数据集的分布有较大差异,模型可能不稳定。
b. 合理值区间
一般认为 PSI 值在 0.1 以下表示模型稳定性很高;0.1 – 0.25 表示模型有一定程度的变化,但仍相对稳定;超过 0.25 则表示模型稳定性较差,需要进一步分析和调整。
c. 应用场景
模型监控
在模型上线后,持续监控模型的稳定性。通过比较不同时间段的数据在模型上的表现,计算 PSI 值来判断模型是否随着时间发生了较大变化。如果 PSI 值超出合理范围,可能需要重新评估和调整模型。
例如,在金融领域的信用评分模型中,每月对新数据和历史数据进行 PSI 计算,以确保模型在不同月份的稳定性。
变量筛选
在特征工程中,可以计算每个特征的 PSI 值,来判断该特征在不同数据集上的稳定性。如果某个特征的 PSI 值较大,说明该特征的分布不稳定,可能不适合作为模型的输入变量。
例如,在电商销售预测模型中,对不同商品属性特征进行 PSI 计算,筛选出稳定性较高的特征用于建模。
数据漂移检测
检测数据是否发生了漂移,即数据的分布是否发生了变化。如果数据发生了漂移,可能会影响模型的性能。通过计算 PSI 值可以及时发现数据漂移现象,采取相应的措施,如重新训练模型或调整数据预处理方法。
例如,在工业生产过程中,对传感器数据进行 PSI 计算,检测生产过程是否发生了变化,以便及时调整生产参数。
d. 优缺点
优点:
缺点:
IV(Information Value)即信息价值,是在信用评分、风险评估等领域常用的评估指标。
a. 定义及计算方法
IV 值衡量了某个特征对目标变量的预测能力。其计算公式如下:
b. 用法
特征筛选:IV 值可以帮助确定哪些特征对目标变量有较强的预测能力。通常,IV 值大于一定阈值(如 0.02 或 0.1,具体根据实际情况确定)的特征被认为是有价值的,可以保留用于建模;IV 值较低的特征可能对模型的贡献较小,可以考虑删除。
比较不同特征的重要性:通过比较各个特征的 IV 值,可以判断哪些特征在预测目标变量时更为重要。IV 值越高,说明该特征与目标变量的关联越强。
c. 合理值区间
一般来说,IV 值的范围在 0 到无穷大之间。
当 IV 值接近 0 时,表示该特征几乎没有预测能力。
当 IV 值在 0.02 到 0.1 之间时,特征具有一定的预测能力。
当 IV 值大于 0.3 时,特征通常具有很强的预测能力,但也可能存在过拟合的风险。
d. 应用场景
e. 优缺点
优点:
缺点:
以上模型介绍的指标总结如下:
作者:厚谦,公众号:小王子与月季
本文由@厚谦 原创发布于人人都是产品经理,未经作者许可,禁止转载。
题图来自Unsplash,基于CC0协议。
非常抱歉!本站不支持旧版本IE浏览器~~建议使用IE10/IE11/Chrome/Firefox/Safari等高级浏览器浏览。