怎么评价大模型微调前后的效果

张

张建站

2026/7/11 9:37:49

10分钟阅读

文章目录一、用选择题数据集二、用开放生成数据集MedBench、CMB-gen、MORQA、LLMEval-Med指标含义1. ROUGE-L2. BERTScore3. 医疗实体 F14. 幻觉率Hallucination Rate指标计算方式权威流程关于大模型微调后效果我这里给出可以量化指标一、用选择题数据集如MedQA/CMB{question:卧位腰椎穿刺脑脊液压力正常值是,options:{A:190220mmH2O,B:80180mmH2O,C:5070mmH2O,D:230250mmH2O},answer:80180mmH2O,answer_idx:B,meta_info:诊断学}做选择题来评估准确率。二、用开放生成数据集MedBench、CMB-gen、MORQA、LLMEval-Med{question:患者58岁突发胸痛2小时向左臂放射大汗呼吸困难请给出诊断、检查、处理原则,reference_answer:诊断急性心肌梗死检查心电图、肌钙蛋白、心肌酶处理心电监护、吸氧、阿司匹林嚼服、抗凝、必要时PCI,entities:[急性心肌梗死,心电图,肌钙蛋白,阿司匹林,抗凝],hallucination_check:[禁止编造药名/病名/检查],source:临床指南/专家标注}指标BERTScore、ROUGE-L、医疗实体 F1、幻觉率目的考察模型 “生成得好不好、专不专业、有没有瞎编”。指标含义1. ROUGE-L一句话解释衡量模型生成内容与标准答案的字词重叠度评估重点答案完整性、关键词覆盖率分数特点0~1越高越接近标准答案通俗理解模型说的内容和标准答案重合多少2. BERTScore一句话解释基于语义理解的AI 自动相似度打分评估重点回答意思是否正确、语义一致性分数特点0~1越高表示语义越匹配通俗理解用词不同但意思对也能得高分3. 医疗实体 F1一句话解释医学关键信息的综合准确率关注对象疾病名、药名、检查项目、治疗方案、禁忌症计算维度Precision生成内容里正确的比例Recall标准答案该说的都覆盖到的比例F1精确率与召回率的综合得分通俗理解医疗核心信息说对多少4. 幻觉率Hallucination Rate一句话解释模型瞎编、胡说、虚构内容的概率统计范围编造病名/药名/检查、无依据结论、与指南矛盾、虚构数据计算公式有幻觉的问题数 / 总问题数分数特点越低越好通俗理解模型瞎编的概率指标计算方式权威流程BERTScore / ROUGE-L以数据集**reference_answer专家金标准**为参考模型生成回答与金标准计算相似度输出 0~1 分数越高越贴近标准答案医疗实体 F1数据集提供golden entities疾病、药物、检查、手术等标准实体从模型生成回答中抽取医疗实体计算精确率、召回率、F1 分数评估关键信息准确性幻觉率依据数据集标注的事实规范与指南要求检测生成回答是否存在编造、错误、无依据内容按条目统计幻觉比例越低表示模型越可靠

如何用fanqienovel-downloader免费打造个人离线小说图书馆：完整指南

如何用fanqienovel-downloader免费打造个人离线小说图书馆：完整指南【免费下载链接】fanqienovel-downloader 下载番茄小说项目地址: https://gitcode.com/gh_mirrors/fa/fanqienovel-downloader 在数字阅读时代，你是否曾因网络中断而被迫中断精…...

2026/6/26 1:46:58 阅读更多 →

AI大模型就业指南，盘点大模型热门就业方向有哪些？非常详细收藏我这一篇就够了

随着人工智能技术的飞速发展，大模型（Large Models）已成为推动行业革新的关键力量。这些模型在自然语言处理、计算机视觉、推荐系统等领域展现出卓越的性能，为求职者开辟了新的职业道路。本文将深入探讨AI大模型时代下的热门就业方…...

2026/6/28 14:30:20 阅读更多 →

刚体转动：从概念到解题的思维跃迁

1. 刚体转动：从抽象概念到具象模型第一次翻开《大学物理》第四章"刚体的转动"时，我盯着那些陌生的公式发呆了十分钟。转动惯量、角动量、力矩，这些概念就像一堵高墙挡在面前。直到某天在食堂用筷子搅动汤碗时突然顿悟——原来转动…...

2026/7/6 0:54:05 阅读更多 →

GetQzonehistory：用Python技术找回你消失的QQ空间记忆

GetQzonehistory：用Python技术找回你消失的QQ空间记忆【免费下载链接】GetQzonehistory 获取QQ空间发布的历史说说项目地址: https://gitcode.com/GitHub_Trending/ge/GetQzonehistory 你是否还记得十年前在QQ空间发过的第一条说说？那些记录着青…...

2026/7/9 20:58:47 阅读更多 →

如何3步完成高质量位图转矢量：SVGcode让图像无限缩放变得简单

如何3步完成高质量位图转矢量：SVGcode让图像无限缩放变得简单【免费下载链接】SVGcode Convert color bitmap images to color SVG vector images. 项目地址: https://gitcode.com/gh_mirrors/sv/SVGcode 你是否曾遇到过这样的烦恼：精心设计的lo…...

2026/7/8 7:23:47 阅读更多 →