CPQS-TUNING 论文引文阅读

张

张建站

2026/4/29 14:58:38

10分钟阅读

文章目录一、引言 / 指令微调基础必看 5 篇二、相关工作数据过滤 / 数据选择核心对标 4 篇三、方法动机隐状态 / 模型内部信号关键 3 篇四、实验与基准打榜必引 4 篇五、模型与工程可选但规范极简总结写论文直接用我直接按你这篇CPQS‑Tuning原文的章节逻辑把参考文献里最值得读、最经典、最能支撑你论文的论文按章节整理好标题年份一句话推荐理由你写综述直接抄。一、引言 / 指令微调基础必看 5 篇Training language models to follow instructions with human feedbackInstructGPT, 2022推荐指令微调 RLHF 开山之作所有对齐工作的源头必须引。Stanford Alpaca: An instruction-following LLaMA modelAlpaca, 2023推荐开源指令微调范式鼻祖你用的 Alpaca‑GPT4 就是它的延伸。Language models are few‑shot learnersGPT‑3, 2020推荐基座大模型预训练的里程碑解释“基座模型为什么需要微调”。LIMA: Less is more for alignment2023推荐高质量小数据胜过大数据直接支撑你“数据过滤/精选”的动机。The Flan Collection: Designing data and methods for effective instruction tuning2023推荐指令微调数据工程最系统工作奠定数据质量重要性。二、相关工作数据过滤 / 数据选择核心对标 4 篇Alpagasus: Training a better alpaca with fewer dataICLR 2024推荐用强 LLM 打分做数据过滤你论文里直接对比的 SOTA。MoDS: Model‑oriented data selection for instruction tuning2023推荐面向目标模型的数据选择和你“模型自感知”思路最接近。Superfiltering: Weak‑to‑strong data filtering for fast instruction tuningACL 2024推荐小模型替大模型过滤低成本数据筛选标杆你必对比。What makes good data for alignment?ICLR 2024推荐自动数据选择最全面综述类工作适合写相关工作。三、方法动机隐状态 / 模型内部信号关键 3 篇I’ve got the “answer”! Interpretation of LLM hidden states in QA2024推荐证明隐状态包含质量/正确性信号直接支撑你 CPQS 核心假设。Latent space chain‑of‑embedding enables output‑free LLM self‑evaluation2024推荐不用生成答案用隐状态做自我评估和你思路高度一致。HSF: Defending against jailbreak attacks with hidden state filteringWWW 2025推荐用隐状态做过滤/筛选的实例证明隐状态可用于数据判别。四、实验与基准打榜必引 4 篇Measuring Massive Multitask Language UnderstandingMMLU, 2021推荐大模型知识能力最通用基准你论文必测。Training verifiers to solve math word problemsGSM8K, 2021推荐数学推理标准集你下游任务核心基准。Evaluating large language models trained on codeHumanEval, 2021推荐代码生成权威基准你代码实验必引。AlpacaEval: An automatic evaluator of instruction‑following models2023推荐指令跟随能力自动评测标准你对话类效果必用。五、模型与工程可选但规范LLaMA 2: Open foundation and fine‑tuned chat models2023推荐开源基座模型标杆你实验用的 Llama2 来源。Qwen2.5 technical report2024推荐你实验用到的强中文基座必须标注来源。极简总结写论文直接用想讲为什么要指令微调读 InstructGPT、Alpaca、LIMA想讲为什么要数据过滤读 Alpagasus、Superfiltering、MoDS想讲为什么能用隐状态读隐状态解读自评估那 3 篇想做评测打榜读 MMLU、GSM8K、HumanEval、AlpacaEval需要我把这些整理成可直接粘贴进论文的“Related Work”标准段落吗

KH Coder：无需编程的文本挖掘与内容分析完整指南

KH Coder：无需编程的文本挖掘与内容分析完整指南【免费下载链接】khcoder KH Coder: for Quantitative Content Analysis or Text Mining 项目地址: https://gitcode.com/gh_mirrors/kh/khcoder 面对海量文本数据，你是否曾感到无从下手&#xff…...

2026/4/29 14:58:34 阅读更多 →

无需Root权限：如何用Universal Android Debloater彻底清理你的Android设备

无需Root权限：如何用Universal Android Debloater彻底清理你的Android设备【免费下载链接】universal-android-debloater Cross-platform GUI written in Rust using ADB to debloat non-rooted android devices. Improve your privacy, the security and battery …...

2026/4/29 14:54:17 阅读更多 →

7-Zip：一位程序员如何用开源代码改变文件压缩世界

7-Zip：一位程序员如何用开源代码改变文件压缩世界【免费下载链接】7z 7-Zip Official Chinese Simplified Repository (Homepage and 7z Extra package) 项目地址: https://gitcode.com/gh_mirrors/7z1/7z 想象一下这样的场景：你电脑里堆满了各种…...

2026/4/29 14:54:12 阅读更多 →

AI智能体工作流编排：从单体架构到流水线协作的工程实践

1. 项目概述：当AI智能体学会“流水线”协作最近在探索AI智能体（Agent）的落地应用时，我遇到了一个非常有意思的项目：coleam00/ottomator-agents。这个名字本身就充满了想象力——“Ottomator”，听起来像是“…...

2026/4/29 5:20:31 阅读更多 →

ChatGPT翻译能力解析与实战技巧

1. ChatGPT翻译能力深度解析作为一名长期从事语言技术研究的从业者，我最近系统测试了ChatGPT在多语言翻译场景下的实际表现。与传统的机器翻译工具相比，ChatGPT展现出几个独特优势：首先，它的上下文理解能力远超传统翻译引擎。当处…...

2026/4/26 0:13:35 阅读更多 →

2026届毕业生推荐的十大降AI率助手实际效果

Ai论文网站排名（开题报告、文献综述、降aigc率、降重综合对比） TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 在内容生产这个过程当中，要降低AIGC也就是人工智能生成内容所占的比例&#xff…...

2026/4/29 7:49:02 阅读更多 →