全新强化学习框架BARL:让大语言模型学会"反思",数学推理能力大幅提升
日期:2025-06-03 15:28:29 / 人气:12
西北大学与Google/DeepMind联合提出贝叶斯自适应强化学习,破解LLM推理瓶颈
传统大语言模型(LLM)的"反思"行为往往流于表面,无法真正提升推理能力。西北大学与Google/DeepMind的研究团队近日提出贝叶斯自适应强化学习(BARL)框架,首次从数学上解释了LLM如何高效反思、探索新策略,并在合成任务和数学推理中验证了其显著优势。

1. 传统RL的局限:LLM的"反思"为何无效?
(1)马尔可夫假设的缺陷
现有强化学习(RL)框架基于马尔可夫决策过程(MDP),假设当前状态完全决定下一步决策,忽略历史信息(如之前的试错过程)。这导致模型:
训练时记忆固定策略(如"000"或"111"),测试时无法适应新情况(如出现字符"2")。
反思行为缺乏信息增益,可能陷入无效循环(如反复验证错误假设)。
(2)测试时无法动态调整
传统RL模型在测试阶段仅依赖训练阶段学到的策略,无法像人类一样"试错-调整",导致:
泛化能力差:遇到未见过的任务结构时表现骤降。
反思形式化:基础模型的"自我检查"往往无实质帮助。
2. BARL的突破:让LLM学会"有效反思"
BARL(Bayesian Adaptive Reinforcement Learning)通过贝叶斯不确定性建模,让模型在推理过程中动态调整策略,核心创新包括:
(1)引入MDP不确定性,平衡"利用"与"探索"
任务被视为多个潜在MDP的混合,模型通过观察结果更新对每个MDP的后验概率(信念)。
决策时不仅考虑当前最优策略("利用"),还探索可能更优的路径("探索")。
(2)数学化定义"反思",指导策略切换
校正项:计算实际奖励与预期奖励的偏差,若某策略表现远低于预期,则降低其权重,促使模型切换策略。
动态策略更新:每一步根据新观察调整MDP假设,实现端到端的策略优化。
(3)测试时优化目标,鼓励适应未知情况
BARL直接优化后验分布下的期望累积回报,使模型明白:
只有主动探索,才能在未知情境下保持高收益。
反思是为了获取关键信息,避免一条路走错到底。
3. 实验验证:BARL显著提升推理能力
(1)合成任务:字符序列生成
任务:模型需在3步内输出三个相同字符(训练时仅见0/1,测试时出现2)。
结果:
传统RL:测试准确率≈0%(依赖训练记忆,无法适应新字符)。
BARL:测试准确率显著提升(通过反思切换策略,如尝试"222")。
(2)数学推理任务:效率与准确率双提升
对比基线:GRPO、"Progress"奖励等传统RL方法。
优势:
准确率更高:在多个数学基准上表现更优。
更高效:生成相同答案时,BARL的token数更少(反思更有针对性)。
反思更有价值:BARL的每一步反思均贡献高信息增益或高回报,而传统RL的"反思"往往无实质帮助。
4. 理论意义与未来方向
(1)解释LLM的"反思"涌现
BARL首次从数学上证明,通过贝叶斯自适应框架,模型可以主动权衡"探索"与"利用",实现类似人类反思的行为。
(2)超越记忆型学习
BARL避免了传统RL的"背答案"陷阱,使模型在测试时具备动态适应能力,尤其适用于:
科学推理(如物理、化学问题求解)。
编程任务(动态调整代码策略)。
复杂决策(如多步规划)。
(3)未来优化方向
结合更复杂的不确定性建模(如分层贝叶斯方法)。
探索多智能体协作反思(多个LLM互相提供反思信号)。
5. 论文与代码
论文:arXiv链接
代码:GitHub仓库
作者:张申傲(西北大学博士生),Google/DeepMind团队
总结
BARL通过贝叶斯自适应框架,让LLM学会"有效反思",在数学推理、动态任务适应等方面表现大幅提升。这一框架不仅解释了LLM的推理机制,还为未来更智能的AI系统提供了新方向
作者:杏鑫娱乐
新闻资讯 News
- 49 天蒸发 12 亿美元:惠普错失移...06-18
- 山东理工大学等构建 PlantLncB...06-18
- 湖南国企跨界布局智算赛道:华升...06-18
- 「脂代科技」完成超亿元A轮融资...06-18