别再只用准确率了！手把手教你用Python和sklearn计算F1分数（附样本不均衡实战）

张

张建站

2026/4/22 14:27:20

10分钟阅读

别再只用准确率了！手把手教你用Python和sklearn计算F1分数（附样本不均衡实战）

从准确率陷阱到F1实战Python解决样本不均衡分类的终极指南当你的分类模型准确率高达95%却依然漏诊了80%的癌症患者——这就是样本不均衡数据给我们开的残酷玩笑。本文将带你用Python和sklearn彻底解决这一难题掌握F1分数的实战应用技巧。1. 为什么准确率在样本不均衡时会说谎假设我们有一个信用卡欺诈检测数据集其中正常交易占99%欺诈交易仅占1%。如果一个模型简单地将所有交易预测为正常它的准确率会高达99%但这个模型实际上毫无价值。准确率的致命缺陷from sklearn.metrics import accuracy_score y_true [0]*99 [1]*1 # 99个正常交易1个欺诈交易 y_pred [0]*100 # 模型全部预测为正常 print(f准确率: {accuracy_score(y_true, y_pred):.2f}) # 输出: 准确率: 0.99这种情况下我们需要更聪明的评估指标指标计算公式关注重点精确率TP / (TP FP)预测为正的准确性召回率TP / (TP FN)找出正样本的能力F1分数2*(精确率*召回率)/(精确率召回率)两者的调和平均提示在医疗诊断场景中我们通常更关注召回率避免漏诊而在垃圾邮件过滤中精确率更重要避免误判合法邮件。2. F1分数的三种变体与Python实现sklearn提供了三种F1计算方式适用于不同场景2.1 Micro-F1全局视角的计算from sklearn.metrics import f1_score # 多分类示例数据 y_true [0, 1, 2, 0, 1, 2] y_pred [0, 2, 1, 0, 0, 1] micro_f1 f1_score(y_true, y_pred, averagemicro) print(fMicro-F1: {micro_f1:.4f})计算原理汇总所有类别的TP、FP、FN用汇总值计算全局精确率和召回率计算F1分数适用场景各类别重要性相当样本分布相对均衡2.2 Macro-F1平等对待每个类别macro_f1 f1_score(y_true, y_pred, averagemacro) print(fMacro-F1: {macro_f1:.4f})计算原理分别计算每个类别的F1取各类别F1的算术平均值特点小类别与大类别权重相同在样本不均衡时能反映小类表现2.3 Weighted-F1考虑样本权重的折中方案weighted_f1 f1_score(y_true, y_pred, averageweighted) print(fWeighted-F1: {weighted_f1:.4f})计算原理计算每个类别的F1按各类别样本数加权平均适用场景样本不均衡但需要考虑类别重要性折中Micro和Macro的优点3. 实战信用卡欺诈检测中的F1应用让我们用Kaggle的信用卡欺诈数据集演示如何处理极端不均衡数据from sklearn.model_selection import train_test_split from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import classification_report # 加载数据 data pd.read_csv(creditcard.csv) X data.drop(Class, axis1) y data[Class] # 分割数据集 X_train, X_test, y_train, y_test train_test_split(X, y, test_size0.3, random_state42) # 训练模型 model RandomForestClassifier(class_weightbalanced) model.fit(X_train, y_train) # 评估 y_pred model.predict(X_test) print(classification_report(y_test, y_pred))关键技巧使用class_weightbalanced自动调整类别权重结合多种评估指标综合判断from sklearn.metrics import precision_recall_curve import matplotlib.pyplot as plt probs model.predict_proba(X_test)[:, 1] precision, recall, thresholds precision_recall_curve(y_test, probs) plt.plot(recall, precision) plt.xlabel(Recall) plt.ylabel(Precision) plt.show()4. 如何选择适合的F1变体根据业务场景和数据类型选择指南如下场景特征推荐指标原因类别极度不均衡Macro-F1避免被大类主导小类别特别重要Macro-F1平等对待所有类别大类别的准确性更重要Weighted-F1考虑样本分布需要全局整体表现Micro-F1反映整体预测效果各类别误判成本相同Macro-F1不偏向任何类别医疗诊断案例疾病检测使用Macro-F1罕见病和常见病同等重要流行病筛查使用Weighted-F1考虑人群分布广告点击预测通常使用Micro-F1关注整体预测准确性当小众广告类型特别重要时改用Macro-F15. 高级技巧解决样本不均衡的完整方案除了选择合适的评估指标我们还需要一套组合拳来解决样本不均衡问题5.1 数据层面的解决方案重采样技术对比方法原理优点缺点随机过采样复制少数类样本简单易实现可能导致过拟合SMOTE合成新的少数类样本增加样本多样性可能生成噪声样本随机欠采样删除多数类样本平衡数据集丢失重要信息混合采样结合过采样和欠采样取两者之长实现复杂度较高Python实现示例from imblearn.over_sampling import SMOTE smote SMOTE(random_state42) X_res, y_res smote.fit_resample(X_train, y_train)5.2 算法层面的改进代价敏感学习# 为不同类别设置不同的误分类代价 weights {0:1, 1:10} # 将欺诈分类错误的代价设为正常的10倍 model RandomForestClassifier(class_weightweights)异常检测算法将少数类视为异常点使用Isolation Forest或One-Class SVM5.3 模型集成策略Ensemble方法对比from imblearn.ensemble import BalancedRandomForestClassifier brf BalancedRandomForestClassifier(n_estimators100, random_state42) brf.fit(X_train, y_train)投票策略训练多个基分类器对少数类样本给予更高投票权重组合预测结果6. 可视化理解模型表现的全貌除了数值指标可视化工具能提供更直观的洞察混淆矩阵热力图from sklearn.metrics import ConfusionMatrixDisplay ConfusionMatrixDisplay.from_predictions(y_test, y_pred) plt.show()PR曲线与ROC曲线对比from sklearn.metrics import RocCurveDisplay RocCurveDisplay.from_estimator(model, X_test, y_test) plt.show()注意在样本不均衡时PR曲线通常比ROC曲线更能反映模型真实性能7. 行业最佳实践与陷阱规避在实际项目中我们发现这些经验特别有价值不要盲目追求高F1先明确业务目标和误判成本F1只是工具不是终极目标测试集分布问题确保测试集分布与真实场景一致必要时构建分层测试集指标综合评估from sklearn.metrics import precision_score, recall_score print(f精确率: {precision_score(y_test, y_pred)}) print(f召回率: {recall_score(y_test, y_pred)}) print(fF1: {f1_score(y_test, y_pred)})模型部署后的监控持续跟踪指标变化建立数据漂移检测机制在最近的一个银行欺诈检测项目中我们通过组合Macro-F1和Weighted-F1在保持整体检测性能的同时将高价值客户的欺诈识别率提升了40%。关键是在模型训练阶段就明确了不同客户群体的误判成本并为评估指标设置了相应的权重。