文章目录一、用选择题数据集二、用开放生成数据集MedBench、CMB-gen、MORQA、LLMEval-Med指标含义1. ROUGE-L2. BERTScore3. 医疗实体 F14. 幻觉率Hallucination Rate指标计算方式权威流程关于大模型微调后效果我这里给出可以量化指标一、用选择题数据集如MedQA/CMB{question:卧位腰椎穿刺脑脊液压力正常值是,options:{A:190220mmH2O,B:80180mmH2O,C:5070mmH2O,D:230250mmH2O},answer:80180mmH2O,answer_idx:B,meta_info:诊断学}做选择题来评估准确率。二、用开放生成数据集MedBench、CMB-gen、MORQA、LLMEval-Med{question:患者58岁突发胸痛2小时向左臂放射大汗呼吸困难请给出诊断、检查、处理原则,reference_answer:诊断急性心肌梗死检查心电图、肌钙蛋白、心肌酶处理心电监护、吸氧、阿司匹林嚼服、抗凝、必要时PCI,entities:[急性心肌梗死,心电图,肌钙蛋白,阿司匹林,抗凝],hallucination_check:[禁止编造药名/病名/检查],source:临床指南/专家标注}指标BERTScore、ROUGE-L、医疗实体 F1、幻觉率目的考察模型 “生成得好不好、专不专业、有没有瞎编”。指标含义1. ROUGE-L一句话解释衡量模型生成内容与标准答案的字词重叠度评估重点答案完整性、关键词覆盖率分数特点0~1越高越接近标准答案通俗理解模型说的内容和标准答案重合多少2. BERTScore一句话解释基于语义理解的AI 自动相似度打分评估重点回答意思是否正确、语义一致性分数特点0~1越高表示语义越匹配通俗理解用词不同但意思对也能得高分3. 医疗实体 F1一句话解释医学关键信息的综合准确率关注对象疾病名、药名、检查项目、治疗方案、禁忌症计算维度Precision生成内容里正确的比例Recall标准答案该说的都覆盖到的比例F1精确率与召回率的综合得分通俗理解医疗核心信息说对多少4. 幻觉率Hallucination Rate一句话解释模型瞎编、胡说、虚构内容的概率统计范围编造病名/药名/检查、无依据结论、与指南矛盾、虚构数据计算公式有幻觉的问题数 / 总问题数分数特点越低越好通俗理解模型瞎编的概率指标计算方式权威流程BERTScore / ROUGE-L以数据集**reference_answer专家金标准**为参考模型生成回答与金标准计算相似度输出 0~1 分数越高越贴近标准答案医疗实体 F1数据集提供golden entities疾病、药物、检查、手术等标准实体从模型生成回答中抽取医疗实体计算精确率、召回率、F1 分数评估关键信息准确性幻觉率依据数据集标注的事实规范与指南要求检测生成回答是否存在编造、错误、无依据内容按条目统计幻觉比例越低表示模型越可靠