米兰·(milan)中国官方网站-32B 稠密模型推理能力超越 R1?秘密 AI 团队发布推理小模型 AM
于年夜模子竞速进入推理能力深水区的 2025 年,一支神秘的团队悄然登场。他们不是来自一线年夜厂的 AI Lab,也没有高调预热及融资造势,而是于 Hugging Face 低调开源了一款 32B 的推理模子:AM-Thinking-v1。
使人惊奇的是,这个中等范围的浓厚模子,于多个要害推理评测中击败了 DeepSeek-R1,并与超年夜范围的 MoE 模子Qwen3-235B-A22B、Seed1.5-Thinking 八两半斤。
这款模子暗地里的团队,是海内一个从未对于外披露的研究团队——A-M-team。他们不依靠私有数据、不依靠海量计较资源,仅凭开源底座及练习管线的极致设计,就做出了开放社区 32B 级别中最强的推理模子。

论文链接:https://arxiv.org/pdf/2505.08311
机能周全逾越 DeepSeek-R1:32B 模子中的“黑马”于当前主流评测中,AM-Thinking-v1 也交出了极具打击力的成就单,仅 32B 的布局于数学推理(AIME 系列)及代码天生(LiveCodeBench)中别离取患了 85.3 及 70.3 的高分,不仅周全逾越了 DeepSeek-R1(671B MoE 架构),还有迫近甚至追平了 Qwen3-235B-A22B 及 Seed1.5-Thinking 等超年夜范围 MoE 模子的成就。
把“小体积,年夜推理”的极限范式揭示患上极尽描摹。
值患上留意的是,AIME 系列标题问题来自美国数学约请赛,布局繁杂、要求精准,向来是权衡模子逻辑思维能力的金尺度;LiveCodeBench 则夸大代码可履行性及稳健性,数据污染难度高,是真实场景下“思索-编码-验证”链条的严苛磨练。

AM-Thinking-v1 模子测试患上分表

AIME2024 差别模子尺寸效果对于比;x 轴为模子尺寸,y 轴为分数

LiveCodeBench 差别模子尺寸效果对于比;x 轴为模子尺寸,y 轴为分数
推特年夜 V Aran Komatsuzaki 也下场转发,并配文:AM-Thinking-v1 正以 32B 的范围推进着推理前沿机能的界限。

分数以外,是更具现实意义的使命。当研究职员用 AM-Thinking-v1 去解决典型的“扭转三角形中红球反弹”问题时,AM-Thinking-v1 揭示出了多步逻辑极强的理解,给出了完备的运动轨迹模仿及对于在小球碰撞的判定。

而于逻辑推理使命中,AM-Thinking-v1 也能连结很是不变的思索历程。

于长文本写作能力的测试中,AM-Thinking-v1 于表达逻辑及意象捕获方面也揭示出了开端的构造能力。

与寻求超年夜范围及年夜数据重叠差别,A-M-team 的要害冲破于在怎样用有限的计较及开源数据,最年夜化32B模子的推理能力。
他们设计了一整套后练习(post-training)方案,此中包括冷启动式监视微调、经由过程率指导的数据筛选机制以和双阶段强化进修(Dual-stage RL)。
起首于监视微调(SFT)阶段,团队用了一个相对于激进但效果很好的设置:把进修率拉到了 8e-5,batch size 也做了加年夜,还有撑持最长 32K 的输入长度。练习样本被尤其设计成“先思索再回覆”的格局。
这个设计帮忙模子成立了“先想清晰、再措辞”的好习气。并且,练习中还有能较着看到模子愈来愈晓得节制长度、防止烦琐——这些变化于平均天生长度及终止率上都有反应

其次于数据这块,团队彻底依赖开源资源,从数学、代码、科学推理到指令追随及通用对于话,统共收拾出了五类焦点使命的数据。
他们花了年夜量时间做洗濯:不仅去重、改写问题,避免及评测集“撞题”,还有对于数学数据举行严酷验证,甚至用 DeepSeek-R1 及 o4-mini 来交织比对于尺度谜底。天生的练习样本也颠末层层筛选,好比用 PPL 算分、查抄反复短语及布局完备性,终极留下的数据洁净又靠谱。

于末了的强化进修(RL)阶段,团队选用了 GRPO 这类轻量级算法,还有尤其弄了个“难度感知”的计谋,意思是:先挑一些模子做患上不太好的题来练,等纯熟了,再插手一些通用对于话及指令追随使命来拓展能力。
奖励机制也挺讲求:数学及代码类的问题用法则验证或者者直接跑沙盒步伐验证谜底;而像 open-ended 回覆这类,就让 LLM 来打分,从有效性、正确性、联贯性这三方面评估,包管模子于各方面都能前进。
固然,为了让整个 RL 练习高效跑患上动,A-M-team 还有于工程上动了不少头脑。好比他们把推理及练习分隔,用了 streaming rollout 的方式,还有配了个前端负载平衡器,能按照每一张 GPU 的现实压力动态分配使命,最年夜限度防止“有的卡闲着、有的卡累死”的环境。不仅练习稳,还有能年夜年夜节省时间及算力

总的来讲,虽然 AM-Thinking-v1 已经经于推理上做患上很精彩,但它今朝还有不撑持函数挪用、多模态输入,对于低资源语言的能力也有待验证。
不外,即便云云,它已经经把 32B 模子的机能潜力挖掘到了极致,也为开源 LLM 社区提供了一个值患上借鉴的思绪:不靠堆参数、不靠私有数据,经由过程过细练习设计,也能做出充足智慧的模子。
为何要做一个 32B 推理模子?于当前年夜模子成长趋向中,主流线路正不停寻求更年夜的参数范围、更繁杂的架构(如 MoE)、更重大的练习数据及更昂贵的练习资源。但这条线路的成本极高,同时也带来了模子部署难、推理延迟高、适配门坎年夜等一系列实际问题。
A-M-team 选择反其道而行之,专注于 32B 这一“中标准模子”的参数区间,实在暗地里也有有着明确的考量:他们想摸索一种于计较资源可控、数据彻底开源的前提下,也能实现强盛推理能力的路径。
详细来讲,32B 是一个对于研究与运用都更友爱的“黄金尺寸”:
充足强盛:比拟 7B 或者 13B 模子,32B 于能力上能撑持繁杂的数学推理及代码天生,具有履行严厉 reasoning 使命的基础;
成本可控:比拟 100B、200B 甚至 670B 的巨型模子,32B 模子练习与推理资源需求显著更低,更合适于企业或者研究机构内部复现、部署及迭代;
部署更友爱:于单节点或者小范围集群上便可运行,可运用在更多落地场景;
MoE 替换摸索:它也是对于 MoE 线路的替换摸索,A-M-team 想要验证,不利用专家模子,仅靠浓厚布局及扎实的后练习设计,是否也能到达甚至逾越 MoE 模子的体现。
AM-Thinking-v1 恰是于如许的问题驱动下降生的:一个不依靠私有数据、没有非凡硬件依靠、彻底基在社区资源练习而成的中标准模子。
而它的体现也正好印证了这个标的目的的潜力——不仅于 AIME 及 LiveCodeBench 等高难度使命上逾越了 DeepSeek-R1,还有于多个维度靠近 Qwen3-235B-A22B 这种百亿级 MoE 模子。雷峰网(公家号:雷峰网)简而言之,AM-Thinking-v1 想要回覆的是一个要害问题:“年夜模子能力的上限,能不克不及用更小的体量实现?” 成果是必定的。
而这恰是 32B 推理模子的价值地点。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。





