余天予◈✿ღ✿,清华大学计算机系一年级博士生◈✿ღ✿,导师为清华大学自然语言处理实验室刘知远副教授◈✿ღ✿。研究兴趣主要包括高效多模态大模型◈✿ღ✿、多模态大模型对齐和强化学习◈✿ღ✿,在 CVPR◈✿ღ✿、AAAI等人工智能领域的著名国际会议和期刊发表多篇学术论文◈✿ღ✿,谷歌学术引用1000余次◈✿ღ✿。
然而◈✿ღ✿,现有方法的应用范围局限于数学和代码等少数领域◈✿ღ✿。面对自然语言固有的丰富多样性◈✿ღ✿,依赖规则验证器的方法难以拓展到通用领域上◈✿ღ✿。
这项技术通过 Prob-to-Reward 方法显著提高了概率奖励(Probability-based Reward, PR)的质量尊龙凯时app平台官网尊龙凯时app平台官网◈✿ღ✿,相比基于似然度的基线方法取得了明显更佳的性能优势和训练稳定性◈✿ღ✿。
同时◈✿ღ✿,RLPR 提出基于奖励标准差的动态过滤机制◈✿ღ✿,进一步提升强化学习的稳定性和性能提升◈✿ღ✿。目前 RLPR 相关代码◈✿ღ✿、模型◈✿ღ✿、数据◈✿ღ✿、论文均已开源◈✿ღ✿。
研究团队观察到◈✿ღ✿,大语言模型(LLM)在推理过程中对于参考答案的生成概率直接反映了模型对于本次推理的质量评估◈✿ღ✿。也就是说◈✿ღ✿,模型的推理越正确◈✿ღ✿,其生成参考答案的概率通常就越高◈✿ღ✿。
在论文中◈✿ღ✿,研究团队给出了一个具体示例◈✿ღ✿:当模型在输出 o2 中错误地把选项 A 排在了第二位时◈✿ღ✿,可以观察到参考答案在第二个正确选项位置上的生成概率出现了显著下降◈✿ღ✿。这一现象清晰地表明◈✿ღ✿,PR 能够精准捕捉模型对于自身推理质量的判断◈✿ღ✿,并且与模型推理的正确性表现出高度相关性◈✿ღ✿。
现有 RLVR 方法通常需要投入大量的人力和工程资源君牧◈✿ღ✿,为每个领域编写特定的验证规则◈✿ღ✿,相比之下◈✿ღ✿,RLPR 仅需要简单的一次前向传播(forward pass)就可以生成奖励分数◈✿ღ✿。通过使用参考答案的生成概率均值作为奖励◈✿ღ✿。这种方法能够有效地应对自然语言固有的复杂多样性尊龙凯时app平台官网◈✿ღ✿。
如下图所示(右侧示例)◈✿ღ✿,基于规则匹配的方式无法识别出 y2 和 y3 和参考答案语义等价◈✿ღ✿,而 RLPR 的 PR 机制准确地给予了这两个答案更高的分数◈✿ღ✿。
基础的 PR 已经呈现出和回答质量很高的相关性◈✿ღ✿,但是仍然受到问题和参考答案风格等无关因素的干扰(即存在偏差)◈✿ღ✿。为此君牧尊龙凯时app平台官网尊龙凯时app平台官网◈✿ღ✿,研究团队提出构建一个不包含思维链过程(z)的对照奖励君牧◈✿ღ✿,并通过做差的方式去除无关因素对于分数的影响◈✿ღ✿,实现奖励纠偏◈✿ღ✿。
传统基于准确率(Accuracy Filtering)的样本过滤方法难以适用于连续的 PR 值君牧◈✿ღ✿。RLPR 提出基于奖励标准差的动态过滤机制尊龙凯时app平台官网◈✿ღ✿,保留那些取得较高奖励标准差的样本用于训练◈✿ღ✿,有效提升了训练的稳定性和效果◈✿ღ✿。考虑到训练过程中奖励的标准差会持续变化君牧◈✿ღ✿,RLPR 进一步采用指数移动平均(EMA)的方式持续动态更新过滤阈值◈✿ღ✿。
研究团队通过 ROC-AUC 指标定量评估了不同来源奖励的质量尊龙凯时app平台官网◈✿ღ✿。结果表明◈✿ღ✿,PR 在 0.5B 规模即取得了显著优于规则奖励和验证器模型奖励的质量◈✿ღ✿。同时◈✿ღ✿,通用领域奖励质量随着模型能力的增强可以进一步提高到 0.91 水平◈✿ღ✿。
为了验证框架的鲁棒性◈✿ღ✿,研究团队使用多种不同的训练模板结合 RLPR 训练 Qwen2.5 3B 模型◈✿ღ✿,并观察到 RLPR 在不同训练模板上都可以取得稳定的性能提升◈✿ღ✿。
研究团队还进一步在 Gemma君牧◈✿ღ✿、Llama 等更多系列的基座模型上进行实验◈✿ღ✿,验证 RLPR 框架对于不同基座模型均可以稳定提升模型的推理能力尊龙凯时app平台官网◈✿ღ✿,并超过了使用规则奖励的 RLVR 基线◈✿ღ✿。
RLPR 提出了创新的 Prob-to-Reward 奖励机制◈✿ღ✿,解决了现有 RLVR 范式的领域依赖问题◈✿ღ✿。通过在 Gemma◈✿ღ✿、Llama◈✿ღ✿、Qwen 等主流模型系列上的广泛验证◈✿ღ✿,RLPR 不仅证明了其卓越的有效性和相对于传统规则奖励的显著优势◈✿ღ✿,更在推动强化学习(RL)向更大规模(scaling)发展的道路上◈✿ღ✿,迈出了坚实而有力的一步◈✿ღ✿。尊龙凯时◈✿ღ✿,大学教育◈✿ღ✿,尊龙凯时人生就是搏◈✿ღ✿,尊龙凯时人生就是搏◈✿ღ✿。港澳台交流◈✿ღ✿,凯时尊龙官网◈✿ღ✿,尊龙人生就是傅◈✿ღ✿,尊龙人生◈✿ღ✿。