首頁手記大型語言模型的強化學習——從Q...

大型語言模型的強化學習——從Qwen-32B的視角看

標簽：

機器學習人工智能自然語言處理

当你的公司使用强化学习训练一个32B参数的模型，并且性能达到了Deepseek R1（约600B参数）的水平时，你会怎么做呢？
在过去的几个月里，大型语言模型和AI从Deepseek的GRPO算法中获益良多。

$A bar chart comparing the performance of different AI models across five benchmarks: AIME24, LiveCodeBench, LiveBench, IFEval, and BFCL. The models compared include QwQ-32B $red bars$, DeepSeek-R1–67IB $blue bars$, OpenAI-o1-mini $gray bars$, DeepSeek-R1-Distill-Llama-70B $light brown bars$, and DeepSeek-R1-Distill-Qwen-32B $beige bars$. Performance scores are labeled at the top of each bar, with QwQ-32B leading in several benchmarks, particularly in IFEval and LiveBench.$

对于那些构建LLMs的人来说，基于RL的时刻已经到来，因此我们将看到一些性能不错的较小模型出现。总体而言，这对所有正在为LLMs构建代理层的人来说是个好消息，因为你们将能够用很少的基础设施和云信用运行接近SOTA的模型（只要存储空间足够，Qwen 32B甚至可以在配备M3芯片的Macbook上运行）。再加上在情感编码方面的进步，我们将看到更多用于小型工作流程的智能代理出现。

在这篇文章里，我将讨论Qwen 32B，介绍强化学习在人工智能领域的现状，以及它在企业中的应用场景。

这个问题关于Qwen 32B是什么呢？

Qwen-32B 是由阿里云的达摩院发布的一个 320亿参数 的大型语言模型（LLM），属于 Qwen 系列的一部分。它是一个基于变压器的仅解码器模型，旨在通用场景中开放和稳健地使用。

Qwen-32B 在之前的 Qwen 模型（例如 Qwen-7B）的基础上，在规模和功能上进行了重大升级。特别地，Qwen v1.5 引入了从 0.5B 到 72B 参数量的多种模型尺寸（包括 32B 版本）。它带来了多语言支持、对话优化以及所有模型尺寸的32K 上下文令牌窗口。这些改进使得 Qwen-32B 能够比其前身更好地处理更长的输入和多种语言。在架构上，Qwen-32B 使用了先进的 Transformer 特性，如SwiGLU 激活、注意力 QKV 偏置和分组查询注意力（GQA），以优化内存使用和吞吐量。

它结合了滑动窗口注意力机制（以提高长上下文效率）与标准的全注意力机制，并采用了一种改进的分词工具以更好地支持多语言和代码任务。

相较于早期的Qwen模型，这些架构改进使得Qwen-32B在更大的规模上展现出更强的性能和稳定性。总而言之，Qwen-32B是一个开源的、功能强大的大型语言模型，利用阿里云在扩展和优化模型设计方面的最新研究成果，超越了之前7B-14B模型的局限。

主要功能和改进

更大规模： 320亿参数（Qwen家族中最多可达720亿参数），提供更大的建模能力
扩展上下文： 支持长达32,000个token的上下文长度，适用于更长的文档和对话
多语言及代码能力： 在多种自然语言和编程语言上进行训练，适应多种自然语言和编程语言的分词器
增强的Transformer架构： 使用SwiGLU激活函数和分组查询注意力（特别是在320亿参数模型中），以提高训练稳定性和推理效率。它还混合使用滑动窗口注意力和全注意力机制，以适应长序列和短范围。
开放可用性： 采用开放许可（Apache 2.0），可在Hugging Face和阿里云的ModelScope上进行访问，适用于研究和企业用途

这些功能共同使Qwen-32B走在行业前列，成为一个开源大模型，定位为一个强大的基础模型，适用于进一步的微调和强化学习增强。但真正让它独特的是它的强化学习。

如果你想为你的业务部署一个360度AI客服平台，来找我们聊聊吧！联系我们！

Qwen-32B：强化学习方面的提升

Qwen团队对Qwen-32B（重新命名为QwQ-32B）进行了增强，通过一个多层次的强化学习框架，将专门的任务优化与更广泛的对齐方法相结合。

训练步骤

第一阶段：专注于数学和编程的强化学习

做法：

利用结果导向的奖励（例如数学题的答案验证、代码单元测试）微调了基础模型的参数。
规则设定的奖励激励了正确的推理过程（例如正确答案或代码的有效执行）。

机制为：

模型因正确性得到奖励，类似于从环境反馈中获得的奖励，在强化学习中。
在训练过程中，模型逐渐掌握了有效的推理路径。

第二阶段通用能力匹配

方式：

他们结合了一种通用的人工智能奖励模型（例如，响应质量、人类偏好等）与基于规则的检查。
他们使用了平衡的遵循指令、一致性和格式化，同时保持数学和编程技能不受影响。

机制：

他们使用了一种类似于RLHF（即Reinforcement Learning from Human Feedback）的方法，但结合了程序规则，类似于在ChatGPT中使用的RLHF。

RL技术与算法

核心架构

他们可能使用了PPO（近端策略优化），这种方法通过裁剪目标函数来防止策略更新不稳定。这种方法也符合强化学习中的对齐方法论，例如OpenAI的ChatGPT训练。

创新：

阶段 1：用基于事实的验证器（实际问题解决器，如代码和数学问题解决器）取代了传统的奖励模型。
阶段 2：混合奖励方式（AI 模型 + 规则），以实现更广泛的协调。

潜在的影响：

受 DeepSeek-R1 的组相对策略优化（GRPO）的启发，这种方法摒弃了价值网络，并利用分组经验来提升效率。

性能增强

效率：使用320亿个参数（仅为DeepSeek-R1的六十七分之一）达到了与DeepSeek-R1（6710亿参数）相同的推理效果。

基准线：

在AIME和MATH数据集上，这个模型的表现与（甚至超过）更大的模型；1.5B参数的精简版本在准确率上优于GPT-4和Claude 3.5（准确率为83.9%）。

重要发现：针对“薄弱环节”（推理、数学和编程）进行强化学习的调整，让小型模型也能与顶尖的大型模型一较高下。

我们现在知道了Qwen团队是如何通过强化学习优化了模型的表现。现在，我们可以了解哪些强化学习算法在AI社区中最受关注。

现代强化学习方法应用于大型语言模型（LLMs）（PPO、Policy Gradient with Proximal Policy Optimization、RLHF、Reinforcement Learning from Human Feedback、GRPO、Generalized Reinforcement Policy Optimization）

$A visual comparison of different reinforcement learning techniques for aligning large language models $LLMs$. The chart includes RLHF $aligns outputs with human values$, PPO $balances stability and efficiency$, GRPO $cost-efficient with group-based baselines$, and DPO $optimizes ranked preferences without explicit RL$.$

RL使LLM与人类偏好对齐，并通过优化反馈信息来提高正确性。以下是主要方法及其工作机制：

1. 基于人类反馈的强化学习（RLHF）](https://pub.towardsai.net/优化人工智能以适应人类偏好-rlhf-dpo-and-soft-preference-labels-fdd489813a78)

流程

步骤 1：在人类标注的比较（例如，按质量对输出进行排名）的基础上训练奖励模型。
步骤 2：使用强化学习（RL）优化大规模语言模型（LLM，策略模型）以最大化该奖励为目标。

影响是：

使输出符合人类价值观（如帮助他人、确保安全）。
能够拒绝有害请求或要求澄清（例如，像ChatGPT这样的模型）。

例子：

GPT-3.5通过RLHF进化成ChatGPT，增强了指令理解和安全性。

2. 近端策略优化算法（PPO）

角色：在RLHF中常用的强化学习算法，在稳定性和效率之间取得平衡。

结果：直接优化为高回报（符合人的偏好的）输出，而不是仅仅依赖概率。

3. 组相对策略优化（GRPO）（点击这里）

创新：

通过使用基于小组的基准消除了对评判者的需要。
对每个提示生成多个回复，然后对这些回复进行内部排序。

好处：

成本效益：这避免了单独训练批评模型。
稳定性：使用相对奖励，例如模型因正确的步骤和CoT而获得奖励。
可扩展性：适用于大规模模型，例如DeepSeek-R1这种670B的模型。
概念：“排名PPO”——优化响应，使其超越同行，而不是满足绝对阈值。

4. 其他新兴方法

直接偏好优化（DPO）：通过损失函数直接优化排序偏好，跳过显式的强化学习过程。
来自AI反馈的强化学习（RLAIF）：使用AI生成的反馈，比如Anthropic的宪法AI，它具有自我治理的原则。

最受欢迎的算法有…

RLHF + PPO 仍是使大型语言模型（如 ChatGPT）对齐的基础。
GRPO 以及较新的方法（如 DPO, RLAIF）解决了扩展性和成本问题，使对模型行为的控制更加细致。
结果：强化学习技术将大型语言模型的训练推到监督学习之外，通过定制的奖励信号增强了模型的真实性和推理能力，并使模型更好地遵循政策。

企业中的强化学习增强的LLM应用：

大型语言模型已被部署到解决实际业务问题的企业环境。带有增强功能的大型语言模型，如开源的Qwen-32B或OpenAI的ChatGPT和GPT-4（通过强化学习进行优化），提供了强大的性能和良好的一致性，使其在许多行业中变得非常受欢迎。

1. 知识管理与决策支持： 企业利用先进的LLM来帮助理清庞大的内部数据，并为员工提供洞察。例如，摩根士丹利将其财富管理部门与OpenAI的GPT-4（经过RLHF微调）集成在一起，作为AI助手来支持理财顾问。

2.客户服务与支持: （我将在下一节详细讨论，但这里值得一提的是，这是企业应用中的一个重要方面。许多公司正在使用AI聊天机器人来处理客户查询、技术支持等。经强化学习（RL）优化的大型语言模型（LLM）非常适合此类任务，因为它们可以被训练以最大化客户满意度。例如，一个通过RLHF调优的模型可以学习更倾向于礼貌且有帮助的回复，从而更好地解决客户问题（通常会体现在更高的评分或成功解决的结果上）。）

3. 内容生成与营销: 媒体、电商和营销企业利用大模型生成产品描述、营销文案、社交媒体内容等。一个通过强化学习优化的大语言模型可以通过微调来捕捉公司的品牌语调并避免潜在的负面内容。

4. 代码生成和质量保证： 多家企业的软件开发工作流程中集成了大型语言模型（LLM）——比如 GitHub 的 Copilot（由 OpenAI Codex 提供支持），同时，公司还对自己的专有代码进行微调来优化模型。强化学习可以进一步提高这些编码助手的性能。

5. 自定义流程自动化： 具有强化学习（RL）增强的大型语言模型（LLM）可以作为 能够与工具和系统交互的代理 ，从而对企业流程自动化非常有用。由于像QwQ-32B这样的模型被赋予了“代理能力”（即使用工具并根据反馈进行适应的能力），企业可以部署这些模型来处理多步骤的任务。例如，一个AI代理可以登录数据库，获取并分析数据，然后撰写一封邮件——所有操作都由提示引导。

如果你想为你的业务部署一个全方位的AI客服平台。联系我们吧！

强化学习增强的客户服务模型

强化学习调优的大型语言模型中最有影响力的应用之一是构建客户服务AI助手——本质上是能够处理用户的查询的高级聊天机器人或虚拟助手。这些AI助手得益于强化学习的改进，使它们比传统的基于NLP的代理更加响应迅速、准确，并且更符合客户的期望。

相比传统聊天机器人，它的优势在哪里？

早期的客服机器人通常是 基于规则或基于检索的。基于规则的机器人可能会遵循决策树（硬编码的 if/else 逻辑），而基于检索的机器人可能会从数据库中挑选最接近的常见问题回答。这些方法在处理细微差别或未见过的问题上存在局限性。

他们会当查询不符合他们的脚本时，产生令人沮丧的“对不起，我没听懂”的回应。相比之下，基于LLM的代理能够理解和生成自由形式的语言，使其适用范围更广。在其基础上增加RL微调，使其更加出色：通过RL增强的模型被训练为最大化有用的回答，以人类的判断为准。

对于客户服务场景，该模型不仅流利，而且经过专门调校，能够有效地解决客户问题。例如，通过RLHF，模型可以始终保持礼貌的语气，当用户请求不明确时，会主动询问澄清，并避免用户不喜欢的行为（例如提供无关信息或听起来太死板）。

混凝土带来的好处

强化学习增强的客服模型通常会得到更高的客户满意度评分。用户会觉得他们在与一个“明白他们的心思”的东西聊天。该模型被训练（通过奖励信号），优先给出有帮助且符合上下文的回答。

经过强化学习调教的代理能够更好地处理实时客户反馈的不可预测性。如果用户跑题或表达不满，一个调优得当的模型在强化学习训练期间会遇到过类似的情况（因为人类反馈会指导它如何适当应对——或许通过道歉并礼貌地引导对话）。未经过这种训练的传统代理在这些时刻往往表现得不好。

另一个好处是减少了需要人工干预的情况。如果 AI 能够满足更多用户，将能带来成本节约和更快的服务。强化学习（RL）在这里帮了大忙，通过不断学习提高性能——机器人从之前的对话中不断学习，逐渐学会解决之前解决不了的问题。例如，如果客户反复重述一个问题直到机器人正确理解，这表明机器人之前对这个问题理解得不够好；利用这些对话记录，以及客户的反馈，机器人将能更快地理解客户的问题，一开始就能给出正确的回答。相比之下，这种不断改进的方法对那些传统的非 RL 模型来说更难实现。

安全与一致性: RL 是否让这些代理变得太乐于讨好，从而可能 以牺牲真实性为代价？这就需要精心设计奖励机制。一个设计良好的客户服务 RL 循环不仅不会因为代理总是回答“是”而给予奖励，还会奖励 正确的回答和遵守政策。

总之，客户服务中的AI代理从强化学习中获益良多，因为这种训练能微调代理的回应，使其更符合人类偏好和公司政策。相比旧版聊天机器人，它们更加灵活和有用，并且不断进步。

他们通过奖励机制学习与顾客互动的软技巧（耐心、礼貌、同理心），虽然这些技能很难通过编程实现，但通过从人类反馈中学习可以自然获得。

结论

Qwen 32B（QwQ-32B）的到来标志着语言模型演进中的一个重要时刻，证明了通过有针对性的强化学习，更小但更高效的模型也能达到与更大模型相媲美的性能。这一突破对人工智能领域的影响深远。

一个拥有320亿参数量的模型能够与参数量是其20倍的模型（如DeepSeek R1的6710亿参数）相媲美，这标志着我们正逐渐远离“越大越好”的开发理念。通过应用专注于推理、数学和编程的特殊强化学习框架，Qwen团队展示了策略性优化比单纯增加参数量更有成效。
高级AI能力正在变得更加普及。像Qwen 32B这样的模型可以在消费级硬件（如配备M3芯片的MacBook）上运行，各种规模的企业都可以部署复杂的语言模型而无需承担高昂的基础设施成本。这种可访问性很可能会引发各行业在AI应用领域的新一波创新热潮。
强化学习已经成为区分LLM性能的关键因素。无论是通过RLHF、PPO、GRPO还是混合方法，强化学习技术使模型能够超越其监督训练的限制。从基于规则的聊天机器人到强化学习增强的对话系统的发展，代表了能力上的质的飞跃，特别是在需要细微理解和上下文相关响应的客户服务应用中。

强化学习将驱动下一代人工智能代理的发展。这将无疑改变我们在Kommunicate进行人工智能研究的方法，使表达更加自然和流畅。

同时，如果你想为你的业务部署一个360度AI客户服务平台，联系我们！

感谢你加入我们的社区

在你离开之前，

别忘了点赞并关注作者 ️👏️
关注我们：X | LinkedIn | YouTube | Newsletter | Podcast | Differ
试试 CoFeed，以智能方式掌握最新的科技资讯 🧪
在 Differ 上免费创建你自己的 AI 博客 🚀
加入我们的内容创作者 Discord 频道 🧑‍💻
更多精彩内容，请访问 plainenglish.io 和 stackademic.com

點擊查看更多內容

為 TA 點贊

若覺得本文不錯，就分享一下吧！

評論

評論

共同學習，寫下你的評論

評論加載中...

展開查看更多評論

作者其他優質文章

正在加載中

慕容708150

手記
篇

粉絲

4

獲贊與收藏

4

關注作者，訂閱最新文章

閱讀免費教程

后端通用面試教程

41個小節 32210 359

網絡編程入門教程

20個小節 13298 250

Pandas 入門教程

25個小節 19917 373

推薦

評論

收藏

共同學習，寫下你的評論



感謝您的支持，我會繼續努力的～

掃碼打賞，你說多少就多少

贊賞金額會直接到老師賬戶

支付方式

打開微信掃一掃，即可進行掃碼打賞哦

今天注冊有機會得

100積分直接送

付費專欄免費學

大額優惠券免費領

立即參與放棄機會

點擊
抽獎

慕課手記新用戶專享福利

恭喜你，你的運氣太好了，居然抽中了 100個積分！

恭喜你，抽中了價值元的專欄！

太棒了，直接落到你賬戶里！

積分商城里的羅技鼠標、機械鍵盤、
Kindle 閱讀器、小米平衡車
Apple iPad （10.2英寸）、大額優惠券
在等著你去兌換了噢

作者：

免費贈送

兌換碼：1111222211 復制

優惠券可用于購買實戰課、體系課
無門檻使用

先去看看，有什么好東西馬上兌換我愛學習，選課去


亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

大型語言模型的強化學習——從Qwen-32B的視角看

閱讀免費教程