米兰·(milan)中国官方网站-纯蒸馏模型 SOTA 出现!直接 SFT 成本直降 50 倍,数据已全部开源
a-m-team 又发新论文了。
这个团队上周方才于 Hugging Face 低调开源了32B浓厚模子,但于多项要害推理评测中击败了 DeepSeek-R1,并与超年夜范围的 MoE 模子Qwen3-235B-A22B、Seed1.5-Thinking 八两半斤,是以博得了国内外的不少存眷。
今天,a-m-team 发布了一篇名为“Not All Correct Answers Are Equal: Why Your Distillation Source Matters”的论文,先容了 R1 以后下一代推理模子的小进展。
于这篇论文中,研究团队发明基在 AM-Thinking-v1 的问答数据“纯蒸馏”(即只用SFT)练习出的“学生模子”,居然于多个高难推理使命上靠近甚至到达当前最优程度(SOTA),不仅跨越了Qwen3-32B,甚至靠近了 Qwen3-235B 如许年夜一个数目级的模子体现。

论文链接:https://arxiv.org/pdf/2505.14464
于年夜模子能力竞赛连续推进的今天,怎样以更低的练习成本得到更强的推理能力,成为开源社区面对的焦点挑战之一。
比拟在 SFT+RL 的练习方式,只用 SFT 象征着着数十倍的成本缩减——也就是说,没有强化进修能力的企业级玩家将 AM-Thinking-v1 蒸馏版拿去直接 SFT 后落地,可以或许年夜幅晋升运用效率、降低沉地成本。
这象征着开源社区将来能以更低的练习成本,得到更强的推理能力。而这项事情建立的条件前提是,需要能有优良的数据源。
换言之,如果数据源能驱动蒸馏模子的发展,那末蒸馏也将不只是一个简简朴单的智能“压缩”动作,而是会有潜力成为于开源社区生态中螺旋生长的体系性工程。
甚么样的数据源更有用?蒸馏(Distillation)作为一种低成本、高效率的练习方式,已经被广泛用在模子压缩与能力迁徙。一般环境下,基在GRPO 或者者 PPO 的 RL 练习,但一个被持久轻忽的问题是:你的蒸馏源选对于了吗?
a-m-team 近期开源了一套基在 AM-Thinking-v1 及 Qwen3-235B-A22B 两个顶尖年夜模子天生的推理蒸馏数据集。经由过程对于 189 万条高质量推理使命的并行蒸馏对于比阐发发明:
基在 AM-Thinking-v1 蒸馏练习出的学生模子于多个高难推理使命上靠近甚至到达当前最优程度(SOTA);
这份开源数据集为低成本构建强推理能力模子提供了扎实支撑;
用一样的学生模子、练习配置、benchmark 套件对于比练习成果;
开源此中两份(AM-Thinking-v1 及 Qwen3-235B-A22B)的数据以供社区验证。
正如本篇论文一语双关的主标题,“Not All Correct Answers Are Equal”——差别的模子,假如天生相似准确的谜底,但其实不代表他们都有不异的价值。由于基在这个准确谜底暗地里的数据源质量、布局存于差异,天然对于后续练习的孝敬可能存于显著差异。
a-m-team研究以自家最新发布的AM-Thinking-v1为例,按照其团队研究,以AM-Thinking-v1为西席模子培训出来的纯蒸馏模子,比拟在Qwen3-235B-A22及DeepSeek-R1的蒸馏模子于机能上有着显著的领先上风。

不仅云云,AM蒸馏历程中的丧失曲线也是最低的,这点实在从图一的评分摆列中也可见一斑。以下图所示,AM持久连结了远低在其他模子的基准损耗。

损耗低的暗地里是 AM 团队自己提供了更合适进修的高质量的数据。
a-m-team 团队对于从三个差别的年夜范围模子 AM-Thinking-v一、Qwen3-235B-A22B及 DeepSeek-R1的练习数据举行了具体阐发后,认为这类分数差异来也许自在他们于数据布局上的上风。

起首,AM的token 长度漫衍越发多样。
以下图专门展示了数学实例的词元跨度漫衍环境。成果注解,AM-Thinking-v1 的数学数据出现出高度分离的漫衍状况,出现了更多的小引列。
这象征着,AM的相应跨度广——它既能天生简便的1024 token之内答复,也能输出跨越 10240 token 的繁杂推理链,这类“是非联合”的漫衍为模子的自顺应能力提供了数据支撑。

其次,AM 模子数据源的困惑度更低,数据质量更高。
研究称,AM 的平均Perplexity(PPL)数值为2.5,低在Qwen3.0及DeepSeek R1 2.9,注解 AM 的数据于语言流利性、联贯性等方面更优,这也许代表其合适用在练习布局化 reasoning 历程。

而因为更好的数据布局,除了了跑分领先外,天生举动也更切合“人类推理模式”。
研究者声称,于较难的使命中(以下图AIME2024\2025),AM 蒸馏模子会主动天生更长 reasoning 历程,而于较简朴使命(以下图中 MATH500)中则连结简明。
这象征着模子连结了一个较好的长调理能力。

a-m-team公布开源了它的蒸馏数据,重要包括AM-Thinking-v1 Distilled Dataset及Qwen3-235B-A22B Distilled Dataset。此中每一条数据都包罗:
尺度化 prompt;
切合验证尺度的 + 格局推理链;
精准分使命分类(数学、代码、科学、指令、多轮对于话等);
验证分数(均高在 0.9)和主动评分信息。
研究者但愿,这份数据集不仅能助力社区低成本告竣强推理能力,更可以或许为后续 RLHF、CoT 微调、可控天生等高级能力构建提供基础。同时,AM团队也正于试水更广泛的模子改良及运用场景。
正如AM团队于一篇阐发文章中指出,“蒸馏数据的选择再也不是技能细节,而是决议机能上限的要害因素。”优质的蒸馏数据源将来也许将直接影响练习效率及机能上限。
而对于在模子不雅察者来讲,AM团队于本次论文中旗号光鲜地提出了“Not All Correct Answers Are Equal”,实在也是对于现阶段模子的一种全新反思框架:
特别于评分差异与用户感知逐渐脱节,很多从业者对于评分审美疲惫的今天,甚么样的开源年夜模子才更可以被称作领先的?蒸馏暗地里表现的数据布局也许会是一个全新的视角。
近日,各人都于感叹:DeepSeek 的 R1 以后,年夜模子已经经好久没有新的技能冲破了。但现实证实,默默于当真研究技能的团队还有于不停立异及取患上孝敬。
(雷峰网(公家号:雷峰网))
雷峰网原创文章,未经授权禁止转载。详情见转载须知。





