小红书Hi Lab团队提出可大幅降低平均思考长度的强化学习训练方式

客户故事

报告与资讯

申请演示

新榜

试用

关于
我们

报告与资讯|热点资讯|报告详情

小红书Hi Lab团队提出可大幅降低平均思考长度的强化学习训练方式

2025-06-20 08:00:01

情报行业动态

新榜讯 6月19日，小红书技术团队发布消息，其深度思考模型借助Test - Time Scaling（测试时扩展）显著提升了模型推理能力，不过也产生了大量冗余和无效思考情况。小红书Hi Lab团队为此提出Think When You Need的强化学习训练方式，在不影响最终效果的情况下，实现了动态CoT能力，让平均思考长度大幅降低。实验表明，这一理念在推理及非推理等各类任务中具有广泛适用性。此外，团队还有一项重要发现，在相同任务下，参数量大、更为“聪明”的模型所需的思考长度更短，该现象与当前深度思考模型的表现相悖，却高度契合人类认知。

原文链接：https://voice.newrank.cn/study/detail/5FC7B449E9669905

相关推荐

联系我们

邮箱：contact@newrank.cn

地址：四川省成都市武侯区大合仓星商界4栋2单元802

关注服务号

产品功能

测声量实时复盘声量、SOV和搜索指数听声音洞察品牌、用户、和竞争对手管声誉预警负面舆情，加强正面推广

使用案例

品牌分析口碑营销声誉管理竞品对比市场研究洞察用户需求

· 高新技术企业 · 全国内容科技创新创业大赛第一名 · 上海文化企业十佳 · 复旦大学新闻学院提供全方位学术支持