×
微信联系方式
微信二维码

扫描二维码添加微信

微信号:18103268866

添加微信后可获取更多优惠信息
×
QQ联系方式
QQ二维码

扫描二维码添加QQ

QQ号:3525642302

添加QQ后可获取更多优惠信息
×
微信扫码查看

请使用微信扫描二维码查看当前页面

扫描二维码后可在微信中分享给好友

新闻动态

Forrester:强化学习采纳率达59%,九章云极Serverless RL打响Agent的未来之战

CSDN资讯 2025-12-03 5 次浏览 技术分享 CSDN

平台内置的GRPO(Group Relative Policy Optimization)算法尤为值得关注——这是一种针对强化学习的梯度优化算法,能通过精准控制模型参数更新节奏,减少“参数反复调整”带来的无效算力消耗,大幅降低奖励工程复杂度,使多步骤智能体训练周期缩短60%以上,GPU利用率从59%提升至84%。测算显示,随着Agent中的大规模应用,企业算力需求将呈指数级增长,其中推理负载占比会显著提升,强化学习是均衡算力、数据、模型的关键技术。