前言在推荐系统和大语言模型LLM相关的学术论文中实验图表的质量直接影响审稿人对工作的判断。一套规范、清晰的实验图不仅能有效传达方法的优越性也体现了作者严谨的科研态度。本文系统整理了该领域论文中最常见的20种实验图涵盖性能对比、消融分析、可视化解释、效率分析等多个维度。所有图表均提供完整的 Python 实现代码基于matplotlib seaborn numpy一个脚本直接生成全部20张图每张同时输出 PNG 和 PDF 格式。运行环境要求pip install matplotlib seaborn numpy pandas scipy scikit-learn python generate_charts.py # 输出目录./output_figures/​​​​​​一、性能对比图Performance ComparisonFig 1 — 多数据集性能对比柱状图适用场景论文主实验表格之后的配套图直观展示在多个数据集上与多条 baseline 的对比结果。图表特点横轴数据集MovieLens-1M, Amazon-Books, Yelp2018, LastFM纵轴Recall20 / NDCG20自家方法Ours使用黑色描边区分左右两个子图同时展示两个指标Fig 4 — Top-K 折线图适用场景分析方法在不同推荐列表长度K1/5/10/15/20/30/50下的性能稳定性。图表特点三个子图分别展示 PrecisionK、RecallK、NDCGKOurs 方法实线 更大标记baseline 虚线体现方法在所有 K 值下持续领先使用建议若方法在小 K 值精准推荐和大 K 值召回覆盖上均有优势该图说服力极强。Fig 9 — 雷达图多维度综合对比适用场景超越单一指标展示方法在准确性、多样性、新颖性、覆盖率、意外性、公平性六个维度上的综合表现。图表特点极坐标系6个评估维度均匀分布各方法填充多边形面积越大越优适合做 Beyond Accuracy 相关工作的论文Fig 11 — LLM Benchmark 对比柱状图适用场景大语言模型论文中在 MMLU、HellaSwag、ARC、TruthfulQA 等标准 benchmark 上与 GPT-3.5、LLaMA-2、Mistral 等主流模型对比。注意纵轴起点设为35ax.set_ylim(35, 90)而非0放大模型间差距但需在论文中明确说明避免被认为是 cherry-picking。二、训练过程分析Fig 2 — 训练 / 验证 Loss 曲线适用场景证明模型训练过程稳定无明显过拟合收敛速度有优势。图表特点左子图训练 loss右子图验证 loss100 个 epoch多条方法曲线对比验证 loss 曲线略高于训练 loss符合真实情况经验建议若方法收敛更快更少 epoch 达到最低点可在图上用竖线或标注标出收敛轮次进一步强调效率优势。Fig 12 — Neural Scaling Law 曲线适用场景大模型研究中展示模型参数量与性能Perplexity 或下游任务准确率的幂律关系。图表特点横轴对数坐标ax.set_xscale(log)单位 Billion三条线对应不同训练数据量1B/10B/100B tokensPerplexity 越低越好↓准确率越高越好↑# 幂律关系模拟 vals a * (params / 1e8) ** b * (scale ** 0.05) noiseFig 13 — RLHF 奖励分布图适用场景对齐/RLHF 相关工作展示不同 KL 散度约束下奖励分数的分布差异。图表特点核密度估计KDE曲线比较 SFT Only 与不同 KL 系数的 RLHF 模型分布右移说明 RLHF 有效提升奖励得分三、消融实验Ablation StudyFig 3 — 模块消融柱状图适用场景验证各模块图结构编码、注意力机制、对比学习、预训练对最终性能的贡献。标准写法w/o Graph去掉图结构w/o Attention替换为均值池化w/o Contrastive去掉对比损失w/o Pretrain从随机初始化开始训练Full Model完整模型加粗描边每个 bar 顶部标注数值方便读者精确对比ax.text(bar.get_x() bar.get_width()/2, bar.get_height() 0.002, f{bar.get_height():.3f}, hacenter, vabottom, fontsize8.5)Fig 19 — Prompt 策略消融LLM-based 推荐适用场景使用 LLM 做推荐系统时对比不同提示词策略的效果Zero-shot → Few-shot → CoT → RAG。实验设计逻辑策略描述Zero-shot直接询问无示例Few-shot (k1/3/5)提供 k 个示例对CoT链式思维推理CoT Few-shot组合策略RAG-Augmented检索增强生成性能从左到右单调提升图形直观验证策略有效性。四、模型可视化InterpretabilityFig 5 — Multi-Head Attention 热力图适用场景序列推荐模型SASRec、BERT4Rec 等的注意力机制可视化增强模型可解释性。图表特点4个注意力头各自一个热力图行/列均为序列中的物品Item1~Item12YlOrRd配色颜色越深注意力越集中解读技巧不同 head 关注不同模式——有的关注近期物品对角线附近有的关注跨时间的相似物品可作为定性分析素材。Fig 6 — t-SNE 嵌入可视化适用场景验证 Embedding 学习质量同类物品在低维空间中聚集说明表示学习有效。图表特点6个物品类别Action/Comedy/Drama/Horror/Sci-Fi/Romance每类120个样本点散点图展示簇间距离越大、簇内越紧凑越好注意t-SNE 是非线性降维距离不具有全局可比性图中仅展示聚类结构不表示实际距离关系。Fig 10 — 推荐结果 Case Study适用场景定性分析展示真实用户案例下方法的推荐效果。设计思路展示用户历史观看记录The Dark Knight、Inception 等对比 Ours vs Baseline 的推荐列表蓝色框Ours推荐主题相关Nolan 风格科幻/悬疑红色框Baseline推荐内容不相关Titanic、Frozen 等该图使用mpatches.FancyBboxPatch绘制圆角矩形纯matplotlib实现无需额外依赖五、数据分析图Fig 7 — 数据稀疏性分析适用场景分析方法在不同稀疏度90%~99%数据集上的鲁棒性说明方法在极端稀疏场景下仍然有效。实验设置按用户交互数量阈值过滤分别保留不同比例的数据确保各模型在相同稀疏度条件下评估。Fig 14 — 长尾分布适用场景数据集统计分析展示物品交互频次的幂律分布为后续长尾推荐方法提供动机。图表特点红色Head items前50个高频物品蓝色Tail items其余450个低频物品虚线标记 Head/Tail 边界幂律模拟freq 10000 / ranks ** 0.85 noise # Zipf-like分布Fig 17 — 冷启动分析适用场景专门分析方法对新用户/低活跃用户的推荐效果是冷启动问题论文的核心图之一。分组方式按历史交互数量分组1-2、3-5、6-10、11-20、21-50、50各方法在不同用户活跃度下的 Recall20 曲线。期望结果Ours 方法在低活跃组1-2次交互的优势最显著随交互增多各方法差距缩小。Fig 8 — 超参数敏感性热力图适用场景分析 Embedding 维度和网络层数对性能的影响说明方法对超参数不敏感鲁棒性。六、误差与评估分析Fig 15 — 混淆矩阵适用场景CTR 预测二分类任务展示模型的分类准确性分析 FP/FN 的分布。依赖使用sklearn.metrics.confusion_matrix配合seaborn.heatmap可视化。Fig 16 — ROC 曲线适用场景二分类评估CTR/点击预测展示各方法的 AUC 值和 TPR-FPR 权衡关系。图表特点7条方法曲线 随机基线对角虚线图例中直接标注 AUC 值AUC0.91Ours 方法实线加粗曲线最接近左上角七、效率与泛化Fig 18 — 效率气泡图适用场景同时展示三个维度推理速度横轴、推荐效果纵轴、参数量气泡大小综合评估方法的性价比。图表解读理想位置是右上方小气泡速度快、效果好、参数少。若方法效果最好但速度稍慢可额外说明原因。Fig 20 — 跨域迁移热力图适用场景跨域推荐、多任务学习论文展示从不同源域迁移到不同目标域的性能矩阵。图表特点4×4 矩阵Movies/Books/Music/Games对角线域内性能通常最高非对角线跨域迁移性能RdYlGn配色绿色越深性能越好目录结构project/ ├── generate_charts.py # 主脚本 └── output_figures/ # 自动创建 ├── fig01_performance_bar.png ├── fig01_performance_bar.pdf ├── ... ├── fig20_cross_domain.png └── fig20_cross_domain.pdf替换为真实实验数据以 Fig 1 为例找到recall数组# 原始模拟数据形状7 baselines × 4 datasets recall np.array([ [0.142, 0.156, 0.171, 0.163], # MF [0.158, 0.168, 0.183, 0.177], # BPR ... [0.241, 0.252, 0.261, 0.257], # Ours ]) # 替换为你的实验结果即可LaTeX 引用\begin{figure}[t] \centering \includegraphics[width\linewidth]{fig01_performance_bar.pdf} \caption{Overall performance comparison on four benchmark datasets.} \label{fig:performance} \end{figure}PDF 格式为矢量图放大后不失真适合提交至 ACM/IEEE 会议和期刊。各图适用的论文场景汇总图表适用论文类型放置位置Fig 1 性能对比柱状图推荐系统全部类型实验部分主图Fig 2 Loss 曲线所有深度学习论文分析/补充实验Fig 3 消融实验含多模块设计的论文消融分析节Fig 4 Top-K 折线推荐系统Top-N推荐详细分析节Fig 5 Attention 热力图基于 Transformer 的序列推荐可解释性分析Fig 6 t-SNE 可视化含 Embedding 学习的工作可视化分析Fig 7 稀疏性分析数据稀疏场景下的推荐鲁棒性分析Fig 8 超参数热力图所有含超参选择的论文超参分析节Fig 9 雷达图多维度评估推荐系统综合分析Fig 10 Case Study推荐系统定性分析节Fig 11 LLM Benchmark大语言模型论文主实验Fig 12 Scaling Law大模型预训练论文主实验/分析Fig 13 RLHF 分布对齐/RLHF 相关工作分析节Fig 14 长尾分布长尾推荐相关论文数据分析/动机Fig 15 混淆矩阵CTR 预测论文评估分析Fig 16 ROC 曲线二分类推荐任务评估分析Fig 17 冷启动分析冷启动/新用户推荐用户分析节Fig 18 效率气泡图关注效率的推荐论文效率分析Fig 19 Prompt 消融LLM-based 推荐消融分析节Fig 20 跨域迁移跨域/多任务推荐主实验/分析总结本文系统梳理了推荐系统和大模型论文中20种常见实验图的设计逻辑、适用场景和代码实现。核心原则是视觉层次清晰自家方法通过描边、实线、加粗等方式突出显示风格统一全局 PALETTE 和 rcParams 确保20张图视觉一致信息密度适中每张图聚焦一个核心实验问题避免信息堆砌LaTeX 友好同时输出 PDF 矢量格式直接嵌入论文参考数据集MovieLens-1M, Amazon-Books, Yelp2018, LastFM参考BaselineMF, BPR, NCF, LightGCN, SASRec, BERT4Rec代码依赖Python 3.8, matplotlib 3.5, seaborn 0.12, numpy 1.21, scikit-learn 1.0