开云(中国专属) 官方网站登录入口简略在尽量减少换出的同期保抓较高的键值缓存运用率-开云(中国专属) 官方网站登录入口

发布日期：2026-05-04 07:45 点击次数：197

近日开云(中国专属) 官方网站登录入口，国外大模子居品平台 OpenPipe 上发布了一项探究，讲明其奈何通过 GRPO 在重度推理游戏《时空谜题》中极端 R1、o1、o3-mini 等模子。探究作家隔离为来自 Ender Research 的强化学习探究员 Brad Hilton 和 OpenPipe 的首创东谈主 Kyle Corbitt。

他们的探究默示，他们不仅将模子与 Sonnet 3.7 的差距消弱至个位百分比，同期已毕逾越 100 倍的推理老本优化。

报告中还分享了任务设想与超参数鼎新的教训，并公开了基于 torchtune 框架构建的完好试验决策。

一、布景先容

自 OpenAI 客岁发布打破性的 o 系列推理模子以来，摄取强化学习（RL）试验的大型谈话模子（LLMs）迎来爆发式增长。谷歌 DeepMind、阿里巴巴、DeepSeek、Anthropic 接踵推出支撑长 " 念念维链 "（CoT）推理的先进模子，在可考证问题上履行强化学习试验，让传统的基准测试渐渐贴近性能天花板。

尽管取得权贵进展，逻辑演绎才调仍是顶尖模子的阿喀琉斯之踵。现时 LLMs 广大存在三大残障：

难以褂讪跟踪通盘关联细节

无法保抓逻辑严实的推演流程

多步邻接可靠性不及

即便顶尖模子生成 10-100 倍长度的输出，仍然会频现东谈主类可粗鲁识别的初级诞妄。

带着好奇，咱们开启了一系列的探索：微型开源模子能否借助前沿强化学习时期，打破演绎推理的边域？

咱们开首从性能较弱的模子开赴，在一项全新的推理任务上对其进行迭代试验。跟着时期的推移，咱们昭着不雅察到它们的推理才调有所擢升，最终达到以致极端了一些先进的独有模子。

二、基准测试框架

为了开展咱们的实验，咱们开首必须笃定一个具有明确可考证谜底且具有挑战性的推理任务。正值其中一位作家之前创建了一个皆备合适条目的谜题集——"时空谜题"（Temporal Clue）。除了满足事实真相清亮这一圭臬外，还不错按照需要创建新谜题。

"时空谜题"灵感源自热点桌游 Clue（Cluedo），在该游戏中，玩家们竞相揭开究竟是谁在 Boddy 先生的豪宅中谋杀了他。"时空谜题"将这款游戏滚动为一个单东谈主逻辑谜题，它不仅涵盖圭臬身分 —— 凶犯是谁、用什么凶器、在哪作案，还增添了两个维度：作案时期和作案动机。谜题是随即生成的，游戏使用了 OR - Tools 的 CP - SAT 求解器进脚迹迹挑选。

在某个风凉的冬夜，好意思妙富豪 John Q. Boddy 先生为他的密友举办了一场微型的虚耗晚宴。然则，这场晚宴以悲催罢了，Boddy 先生于早晨时刻被发现死在都铎庄园的一个房间里。以下是被认定为嫌疑东谈主的关联利益东谈主员……

为了明确这项推理任务的最好水平，咱们对一些火爆的推理模子进行了基准测试，包括 DeepSeek R1、OpenAI 的 o1 和 o3 - mini 以及 Anthropic 的 Claude Sonnet 3.7。此外，咱们还对 14B 和 32B 的 Qwen 模子进行了基准测试，这是咱们最终落幕的预览：

在这些基准测试中，咱们发现 Claude Sonnet 3.7 在设定 6.4 万个 token 的情况下发扬最好，DeepSeek R1 的发扬险些与 OpenAI 的 o1 和 o3 - mini 不相落魄。然则，未经调优的 Qwen 2.5 Instruct 模子在比拟之下就稍显失容了。

一个时弊问题是：咱们能否将这些较微型的敞开权重模子试验到前沿水平的发扬？谜底是笃信的，惟有效对圭表。

三、试验

为了试验出一个具有前沿水平的推理模子，咱们摄取了强化学习圭表。咱们开首让大谈话模子针对每个谜题生成多个回复，以此探索问题的各类可能性，从而指引它们学习。对得出正确谜底的推理流程予以正向强化，而对误导模子的推理流程则进行处分。

在广博强化学习的圭表中，咱们选择了 DeepSeek 模子的 GRPO 算法。与 PPO 等传统圭表比拟，GRPO 不仅发扬出色，还简化了试验流程。

从宏不雅层面来看，咱们的试验盲从以下几个基本才略：

针对谜题任务生成模子回复

对回复进行评分，并为每组聊天回复估算上风值

运用这些上风值估算落幕指引的编订战术梯度对模子进行微调

用新的谜题和模子的最新版块类似上述才略，直至达到最好性能

在生成回复时弊，咱们使用了热点的 vLLM 推理引擎，并对参数聘用进行了调优。咱们发现，向 vLLM 发送过多肯求会导致正在处理的肯求被霸占。为处理这一问题，咱们使用了一个信号量来落幕肯求数目，该信号量经过调优，简略在尽量减少换出的同期保抓较高的键值缓存运用率。

采样完成后，咱们使用 HuggingFace Transformers AutoTokenizer 对回复进行处理。它的聊天模板功能可将音书对象渲染为教唆字符串，其中包含一个助手掩码，用于笃定哪些标志是由大谈话模子生成的。咱们发现这些模子在其默许模板中穷乏必要的 "生成" 标签，于是在 token 才略中对模板进行了修改。最终得到的助手掩码被纳入用于调优的张量字典中，用以标志哪些位置需要进行升天盘算。

在获取助手掩码后，咱们对数据进行打包以便调优。除了在每个打包序列中包含多个教唆和回复除外，咱们还识别出分享的教唆标志，并为每个标志分拨一个父 ID，同期附上圭臬的组 ID。关于像 "时空谜题" 这类平均每个谜题逾越 1000 个标志的任务，咱们针对每个任务生成多个回复并高效打包张量，权贵减少了冗余。一朝将通盘必要信息打包完毕，咱们就能以二维体式直不雅呈现试验数据集，每一排都是一个可能包含多个教唆和回复的标志序列。

有了数据后，咱们运转调优。模子也曾完成了预试验和指示微调，具备一定的智能水平。固然它们还无法褂讪地处理谜题，但是偶尔也能到手。通过提高正确推理的概率，咱们冉冉指引模子朝着 "神探" 的水平迈进。关于盘算损构怨鼎新权重，咱们摄取了战术梯度的圭表。

在试验流程中，咱们使用了由 PyTorch 团队提供的 Torchtune 库，其中包括 Llama、Gemma、Phi 等热点模子。咱们在这个技俩中除了使用 Qwen 模子，也用 80 亿参数和 700 亿参数的 Llama 模子进行了实验。Torchtune 还提供了一些简约内存和擢升性能的器具，包括：

激活搜检点（Activation Checkpointing）

激活卸载（Activation Offloading）

量化（Quantization）

参数高效微调（PEFT），举例 LoRA

此外，Torchtune 支撑多开导和多节点试验，还不错荟萃全分片数据并行（FSDP）和张量并行（TP）试验。他们提供了十多个试验配方，饱读舞用户复制并凭证我方的用例进行定制。他们完好微调配方的修改版支撑以下功能：

多开导和单开导试验

参考模子加载和权重交换以盘算 KL 散度

使用组和父 ID 进行高等因果掩码盘算

GRPO 升天集成和组件日记记载

强化学习试验流程触及超参数的聘用。在试验模子期间，咱们对各类设立进行了测试，最终笃定了以下参数：

模子：Qwen 2.5 Instruct 140 亿参数版和 320 亿参数版

每次迭代的任务数：32

每个任务每次迭代的样本数：50

每次迭代的总样本数：32 × 50 = 1600

学习率：6 × 10 ⁻⁶

微批次大小：关于 140 亿参数模子为 4 个序列，关于 320 亿参数模子为 8 个序列

批次大小：可变，取决于序列数目

批次大小之是以可变，是因为试验流程中回复长度不同。每次迭代的序列打包成果会有波动，上风为零的回复会被丢弃。在一次实验中，咱们尝试将学习率与批次大小成反比动态鼎新，但这会导致小批次的学习率过高。经过上限处理后的版块与使用恒定学习率比拟莫得昭着各异，但鼎新批次大小和学习率仍是改日值得探索的标的。

咱们还进行了直爽的实验，在每次迭代的任务数和每个任务的样本数之间进行反向鼎新（即一个加多另一个减少），同期保抓每次迭代的总样本数约莫相等。在较短的试验周期内，这些变化莫得产生昭着各异，这标明试验配方对任务数目与单任务样本量之间的不同配比具有强鲁棒性。

四、落幕

经过 100+ 次迭代试验，咱们的模子到手达到前沿级推理水平。

咱们的模子简略在准确率下落之前赶紧篡改。最好情景下，140 亿参数、1.6 万个 token 的模子已接近于 ClaudeSonnet 3.7 的性能。320 亿参数、6.4 万个 token 的模子更是险些达到了 Sonnet 的落幕。

在试验期间，性能擢升盲从幂律规章，在图表上酿成线性干系（在恶化之前）。

下一步，咱们将探索各类化回报的圭表，冉冉构建才调的圭表，或者简略引发出透顶探索的圭表。

此外，咱们防范到在试验期间输出长度呈现出酷爱的规章。开首回复变长，随后趋于褂讪，在试验接近尾声时出现分化，其中 140 亿参数模子的回复变得更长，而 320 亿参数模子的回复长度则裁减（尤其是在达到最好性能之后）。

为了从定性角度评估逻辑推理才调的擢升，咱们让首先进的模子 Claude Sonnet 3.7 对 Qwen 32B 模子所作念出的施行进行识别，并评估其合感性。Sonnet 从基础模子中识别出 6 个施行，除了一个被判定为正确外，其余均被判定为诞妄。相背，从经过试验的模子中识别出 7 个施行，除了一个诞妄除外，其余均被判定为逻辑合理。

临了，在假定按需部署具有弥漫朦拢量的情况下，咱们凭证 Fireworks AI 的无行状器订价层级估算了 Qwen 模子的老本。咱们画图了一张准确性和推理老本的干系图，并发当今未经调优的模子中存在一条清亮的线性帕累托前沿线，极地面改善了老本与准确性之间的衡量干系。

五、结语

在咱们的造访探究中，咱们探索了较微型的开源谈话模子能否通过强化学习已毕前沿水平的演绎推理才调。对时期脚迹谜题进行试验时，咱们使用了超参数和 GRPO 圭表来试验 Qwen 14B 和 32B 模子，权贵低擢升了性能。这些篡改使开源模子在推感性能方面达到了最前沿的水平，并大幅度低掌握了老本。咱们的探究落幕突显了强化学习在高效试验开源模子处理复杂演绎任务方面的浩大后劲。

此外，临了还有一个惊喜。咱们发现，仅需 16 个试验样本就能已毕高达 10 - 15% 的性能擢升，这意味着咱们无需多半数据就能进行推理。

原文联接：https://openpipe.ai/blog/using-grpo-to-beat-o1-o3-mini-and-r1-on-temporal-clue

雷峰网开云(中国专属) 官方网站登录入口

上一篇：开云kaiyun.com跟着机器东说念主触觉感知智商的擢升 -开云(中国专属) 官方网站登录入口

下一篇：没有了

开云(中国专属) 官方网站 登录入口

新闻资讯

开云(中国专属) 官方网站 登录入口简略在尽量减少换出的同期保抓较高的键值缓存运用率-开云(中国专属) 官方网站 登录入口

开云(中国专属) 官方网站登录入口

开云(中国专属) 官方网站登录入口简略在尽量减少换出的同期保抓较高的键值缓存运用率-开云(中国专属) 官方网站登录入口