标题ScientistOne: Towards Human-Level Autonomous Research via Chain-of-Evidence来源arXiv, 2605.26340v1️文章简介研究问题现有自主科研智能体虽能生成高质量论文但普遍存在引用造假、分数不可复现及方法描述与代码不符等“证据链断裂”问题且缺乏有效的验证协议如何解决这一可信度危机主要贡献论文提出证据链CoE可验证框架开发原生支持证据追踪的端到端系统ScientistOne并建立包含四项完整性检查的后验审计标准CoE Integrity Audit。重点思路提出Chain-of-Evidence标准定义科研声称必须通过记录的证据链追溯至 grounding source涵盖引用、数值、方法和结论四类声称的证据结构要求。构建ScientistOne系统采用三阶段架构问题调查员基于检索文献生成 grounded 简报发现引擎并行探索解空间论文写作者结合声明验证器在生成LaTeX前强制校验每个声称与实验日志、代码及参考文献的一致性。实施CoE完整性审计设计四项统一检查指标包括分数复现验证、规范违规检测如利用评估器漏洞、参考文献真实性核查以及方法描述与代码实现的对齐度判断用于量化评估任意系统的输出可信度。分析总结基线系统普遍失效对5个主流系统在5项任务生成的75篇论文审计显示所有基线均存在至少一种系统性失败幻觉引用率高达21%分数验证通过率最低仅42%方法-代码对齐度低至20%-80%。ScientistOne实现零幻觉ScientistOne是唯一在所有完整性检查中表现完美的系统实现0/337条引用幻觉12/12分数完全复现14/15方法代码高度对齐且求解性能匹配或超越人类专家。可验证性提升论文质量自动评审结果显示ScientistOne的论文接受率达40%显著高于基线证明消除证据链断裂能大幅提升论文的科学严谨性和评审通过率且该能力泛化至医疗影像等新领域。个人观点论文将“可验证性”从后验检测前置为系统设计的核心约束通过“先证据后行文”的架构从根本上解决了大模型在长程科研任务中的事实漂移和幻觉问题。