FRSMASH 全维度消融实验报告

张

张建站

2026/6/29 5:33:32

10分钟阅读

实验设计核心假设:记忆与逻辑是两个独立可调的维度记忆能力 ← d_model(状态向量宽度), 越宽记住越多历史逻辑能力 ← OpenASH 层数(L), 越深推理链越长 Fast 层 ← 替代 OpenASH 的轻量线性递推(快但逻辑弱)实验矩阵(5组 × 20项, 每组 3000 步 ~110M tokens)实验组固定变量验证问题A. 逻辑轴H512, NS1L2,4,6,8层数增加,loss 下降多少?B. 记忆轴L4, NS1H256,384,512,640d_model 增大,loss 下降多少?C. 组件消融H512完整/去OpenASH/去Slow哪个组件贡献更大?D. 快慢比d512(HybridFRSM)3F1S/2F2S/1F1S/0F1S快慢最优比例?E. 混合比H512,L4(FRSMASH)4F/3F1A/2F2A/1F3A/0F4AFast 替代 OpenASH 掉多少 loss?实验条件GPU: RTX 4090 D 24GB数据: minimind_data pretrain_t2t_mini.jsonl, 30000 行缓存序列: T384, B64训练: 3000 steps × 64 × 384 ≈ 74M tokens/组优化器: AdamW, lr5e-4, cosine decay总共: 20 组 × 74M tokens ≈ 1.5B tokens, 预估时间 3-4 小时已有数据(400 步预测试)E. 混合比(400 步, H512, L4)配置浅层深层loss(400步)tok/s0F4A—4×OpenASH4.50(最优)117K2F2A2×Fast2×OpenASH4.82(0.32)118K3F1A3×Fast1×OpenASH4.80(0.30)119K4F0A4×Fast—5.01(0.51)121K结论:每多一层 OpenASH,loss 降 ~0.15;每多一层 Fast,速度微涨但 loss 涨 ~0.1。FRSMASH-F vs FRSMASH-A 训练速度对比BFRSMASH-F(Fast)FRSMASH-A(OpenASH)加速比3221.8K tok/s51.4Ktok/s0.42x6463.2Ktok/s61.9K tok/s1.02x8852.7Ktok/s8.3K tok/s6.33xFRSMASH-F vs FRSMASH-A 推理速度模型tok/sms/tokenFRSMASH-F3243.1msFRSMASH-A2474.1ms预测结果A. 逻辑轴(预测)L参数预测 loss(3000步)趋势2~27M~5.2弱逻辑4~33M~4.5中等6~39M~4.0强逻辑8~45M~3.7推理深度最强预测: OpenASH 层数每增加2层,loss 下降约0.4-0.5,呈对数递减趋势。B. 记忆轴(预测)H参数预测 loss(3000步)趋势256~14M~5.5窄记忆384~22M~5.0中等512~33M~4.5宽记忆640~47M~4.1最强记忆预测: d_model 每增加 128,loss 下降约0.3-0.4,线性递减。C. 组件消融(预测)配置预测 loss说明完整~4.5基准去Slow(纯OpenASH)~4.8缺长程记忆去OpenASH(纯Slow)~5.5缺逻辑推理预测: OpenASH 贡献约0.7 loss,Slow 贡献约0.3 loss。D. 快慢比(预测)配置预测 loss(3000步)0F1S(纯慢V6)~5.51F1S~5.22F2S~5.03F1S~4.9预测: 3F1S 最优——1 个 Slow 尺度足够选择性记忆,多 Fast 尺度增加即时预测能力。E. 混合比(预测,3000 步)配置预测 loss4F0A~5.23F1A~4.82F2A~4.71F3A~4.60F4A~4.5(最优)预测: 2F2A 性价比最高——loss 比 0F4A 仅高 0.2,但大 batch 稳定性好得多。实验代码 (ablation.py)文件:F:\OpenASH2605\frsm_v6_moe\ablation.py运行F:\OpenASH\.venv\Scripts\python.exe F:\OpenASH2605\frsm_v6_moe\ablation.py代码结构# 数据: cached pretrain 30000 lines, T384, B64# 训练: 每组 3000 steps, AdamW lr5e-4, cosine warmup# A. 逻辑轴: H512, L2,4,6,8forLin[2,4,6,8]:mbuild_frsmash(vs,512,L,K8)train_one(m,...)# B. 记忆轴: L4, H256,384,512,640forHin[256,384,512,640]:mbuild_frsmash(vs,H,4,K8)train_one(m,...)# C. 组件消融: 完整/去ASH/去Slowconfigs[完整,OpenASH_only,Slow_only]forcfginconfigs:train_one(cfg,...)# D. 快慢比(HybridFRSM): d512, 3F1S,2F2S,1F1S,0F1Sfornf,nsin[(3,1),(2,2),(1,1),(0,1)]:mbuild_hybrid(vs,512,nf,ns,K8)train_one(m,...)# E. 混合比(FRSMASH Hybrid): H512, L4fornf,nain[(4,0),(3,1),(2,2),(1,3),(0,4)]:mbuild_hybrid_ash(vs,512,nf,na,K8)train_one(m,...)结果输出训练结果自动保存到ablation_results.json包含每组的:final_loss: 最后 log interval 的平均 losslosses: 所有 log interval 的 loss 列表(画图用)time: 训练耗时params: 参数量config: 配置描述辅助构建函数函数用途build_frsmash(vs,H,L)标准 FRSMASH(OpenASH backbone Slow)build_ash_only(vs,H,L)纯 OpenASH, 无 Slow memorybuild_slow_only(vs,D)纯慢尺度, 无 OpenASH(≈V6)build_hybrid(vs,D,nf,ns)HybridFRSM(Fast/Slow 尺度比)build_hybrid_ash(vs,H,nf,na)FRSMASH Hybrid(Fast/OpenASH 混合)附录: 关键模型文件索引文件内容frsm_v6a_fast.py原始 V6: 4尺度全内容门控,串行frsmash.pyFRSMASH: OpenASH cummax Slow 记忆frsmash_f.pyFRSMASH-F: Fast 线性递推替换 cummaxfrsm_linear.pyHybridFRSM: 快慢尺度分离frsm_vs_transformer_report.mdDense MoE vs Transformer 全维度对比frsm_evolution_report.md架构演进路线与速度对比frsm_v6_moe/ablation.py消融实验脚本