米兰·(milan)中国官方网站-32B 稠密模型推理能力超越 R1？秘密 AI 团队发布推理小模型 AM

作者：米兰·(milan)文化更新时间：2026-03-09 12:30:39 点击数：

于年夜模子竞速进入推理能力深水区的 2025 年，一支神秘的团队悄然登场。他们不是来自一线年夜厂的 AI Lab，也没有高调预热及融资造势，而是于 Hugging Face 低调开源了一款 32B 的推理模子：AM-Thinking-v1。

使人惊奇的是，这个中等范围的浓厚模子，于多个要害推理评测中击败了 DeepSeek-R1，并与超年夜范围的 MoE 模子Qwen3-235B-A22B、Seed1.5-Thinking 八两半斤。

这款模子暗地里的团队，是海内一个从未对于外披露的研究团队——A-M-team。他们不依靠私有数据、不依靠海量计较资源，仅凭开源底座及练习管线的极致设计，就做出了开放社区 32B 级别中最强的推理模子。

32B 稠密模型推理能力超越 R1？秘密 AI 团队发布推理小模型 AM-Thinking-v1

论文链接：https://arxiv.org/pdf/2505.08311

机能周全逾越 DeepSeek-R1：32B 模子中的“黑马”

于当前主流评测中，AM-Thinking-v1 也交出了极具打击力的成就单，仅 32B 的布局于数学推理（AIME 系列）及代码天生（LiveCodeBench）中别离取患了 85.3 及 70.3 的高分，不仅周全逾越了 DeepSeek-R1（671B MoE 架构），还有迫近甚至追平了 Qwen3-235B-A22B 及 Seed1.5-Thinking 等超年夜范围 MoE 模子的成就。

把“小体积，年夜推理”的极限范式揭示患上极尽描摹。

值患上留意的是，AIME 系列标题问题来自美国数学约请赛，布局繁杂、要求精准，向来是权衡模子逻辑思维能力的金尺度；LiveCodeBench 则夸大代码可履行性及稳健性，数据污染难度高，是真实场景下“思索-编码-验证”链条的严苛磨练。

32B 稠密模型推理能力超越 R1？秘密 AI 团队发布推理小模型 AM-Thinking-v1

AM-Thinking-v1 模子测试患上分表

32B 稠密模型推理能力超越 R1？秘密 AI 团队发布推理小模型 AM-Thinking-v1

AIME2024 差别模子尺寸效果对于比；x 轴为模子尺寸，y 轴为分数

32B 稠密模型推理能力超越 R1？秘密 AI 团队发布推理小模型 AM-Thinking-v1

LiveCodeBench 差别模子尺寸效果对于比；x 轴为模子尺寸，y 轴为分数

推特年夜 V Aran Komatsuzaki 也下场转发，并配文：AM-Thinking-v1 正以 32B 的范围推进着推理前沿机能的界限。

32B 稠密模型推理能力超越 R1？秘密 AI 团队发布推理小模型 AM-Thinking-v1

分数以外，是更具现实意义的使命。当研究职员用 AM-Thinking-v1 去解决典型的“扭转三角形中红球反弹”问题时，AM-Thinking-v1 揭示出了多步逻辑极强的理解，给出了完备的运动轨迹模仿及对于在小球碰撞的判定。

32B 稠密模型推理能力超越 R1？秘密 AI 团队发布推理小模型 AM-Thinking-v1

而于逻辑推理使命中，AM-Thinking-v1 也能连结很是不变的思索历程。

32B 稠密模型推理能力超越 R1？秘密 AI 团队发布推理小模型 AM-Thinking-v1

于长文本写作能力的测试中，AM-Thinking-v1 于表达逻辑及意象捕获方面也揭示出了开端的构造能力。

32B 稠密模型推理能力超越 R1？秘密 AI 团队发布推理小模型 AM-Thinking-v1

32B 模子的新上限，是如许“训”出来的

与寻求超年夜范围及年夜数据重叠差别，A-M-team 的要害冲破于在怎样用有限的计较及开源数据，最年夜化32B模子的推理能力。

他们设计了一整套后练习（post-training）方案，此中包括冷启动式监视微调、经由过程率指导的数据筛选机制以和双阶段强化进修（Dual-stage RL）。

起首于监视微调（SFT）阶段，团队用了一个相对于激进但效果很好的设置：把进修率拉到了 8e-5，batch size 也做了加年夜，还有撑持最长 32K 的输入长度。练习样本被尤其设计成“先思索再回覆”的格局。

这个设计帮忙模子成立了“先想清晰、再措辞”的好习气。并且，练习中还有能较着看到模子愈来愈晓得节制长度、防止烦琐——这些变化于平均天生长度及终止率上都有反应

32B 稠密模型推理能力超越 R1？秘密 AI 团队发布推理小模型 AM-Thinking-v1

其次于数据这块，团队彻底依赖开源资源，从数学、代码、科学推理到指令追随及通用对于话，统共收拾出了五类焦点使命的数据。

他们花了年夜量时间做洗濯：不仅去重、改写问题，避免及评测集“撞题”，还有对于数学数据举行严酷验证，甚至用 DeepSeek-R1 及 o4-mini 来交织比对于尺度谜底。天生的练习样本也颠末层层筛选，好比用 PPL 算分、查抄反复短语及布局完备性，终极留下的数据洁净又靠谱。

32B 稠密模型推理能力超越 R1？秘密 AI 团队发布推理小模型 AM-Thinking-v1

于末了的强化进修（RL）阶段，团队选用了 GRPO 这类轻量级算法，还有尤其弄了个“难度感知”的计谋，意思是：先挑一些模子做患上不太好的题来练，等纯熟了，再插手一些通用对于话及指令追随使命来拓展能力。

奖励机制也挺讲求：数学及代码类的问题用法则验证或者者直接跑沙盒步伐验证谜底；而像 open-ended 回覆这类，就让 LLM 来打分，从有效性、正确性、联贯性这三方面评估，包管模子于各方面都能前进。

固然，为了让整个 RL 练习高效跑患上动，A-M-team 还有于工程上动了不少头脑。好比他们把推理及练习分隔，用了 streaming rollout 的方式，还有配了个前端负载平衡器，能按照每一张 GPU 的现实压力动态分配使命，最年夜限度防止“有的卡闲着、有的卡累死”的环境。不仅练习稳，还有能年夜年夜节省时间及算力

32B 稠密模型推理能力超越 R1？秘密 AI 团队发布推理小模型 AM-Thinking-v1

总的来讲，虽然 AM-Thinking-v1 已经经于推理上做患上很精彩，但它今朝还有不撑持函数挪用、多模态输入，对于低资源语言的能力也有待验证。

不外，即便云云，它已经经把 32B 模子的机能潜力挖掘到了极致，也为开源 LLM 社区提供了一个值患上借鉴的思绪：不靠堆参数、不靠私有数据，经由过程过细练习设计，也能做出充足智慧的模子。

为何要做一个 32B 推理模子？

于当前年夜模子成长趋向中，主流线路正不停寻求更年夜的参数范围、更繁杂的架构（如 MoE）、更重大的练习数据及更昂贵的练习资源。但这条线路的成本极高，同时也带来了模子部署难、推理延迟高、适配门坎年夜等一系列实际问题。

A-M-team 选择反其道而行之，专注于 32B 这一“中标准模子”的参数区间，实在暗地里也有有着明确的考量：他们想摸索一种于计较资源可控、数据彻底开源的前提下，也能实现强盛推理能力的路径。

详细来讲，32B 是一个对于研究与运用都更友爱的“黄金尺寸”：

充足强盛：比拟 7B 或者 13B 模子，32B 于能力上能撑持繁杂的数学推理及代码天生，具有履行严厉 reasoning 使命的基础；

成本可控：比拟 100B、200B 甚至 670B 的巨型模子，32B 模子练习与推理资源需求显著更低，更合适于企业或者研究机构内部复现、部署及迭代；

部署更友爱：于单节点或者小范围集群上便可运行，可运用在更多落地场景；

MoE 替换摸索：它也是对于 MoE 线路的替换摸索，A-M-team 想要验证，不利用专家模子，仅靠浓厚布局及扎实的后练习设计，是否也能到达甚至逾越 MoE 模子的体现。

AM-Thinking-v1 恰是于如许的问题驱动下降生的：一个不依靠私有数据、没有非凡硬件依靠、彻底基在社区资源练习而成的中标准模子。

而它的体现也正好印证了这个标的目的的潜力——不仅于 AIME 及 LiveCodeBench 等高难度使命上逾越了 DeepSeek-R1，还有于多个维度靠近 Qwen3-235B-A22B 这种百亿级 MoE 模子。雷峰网(公家号：雷峰网)简而言之，AM-Thinking-v1 想要回覆的是一个要害问题：“年夜模子能力的上限，能不克不及用更小的体量实现？” 成果是必定的。

而这恰是 32B 推理模子的价值地点。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

32B 稠密模型推理能力超越 R1？秘密 AI 团队发布推理小模型 AM-Thinking-v1

-米兰·(milan)中国官方网站

加入收藏

Tag：米兰·(milan)

上一篇：中国人民抗日战争暨世界反法西斯战争胜利80周年专题（四）

下一篇：暂无

返回列表

米兰·(milan)中国官方网站-32B 稠密模型推理能力超越 R1？秘密 AI 团队发布推理小模型 AM

随便看看

产品推荐

哆啦A梦：伴我同行

八月未央

夏洛特烦恼

风再起时

云飞丝路天