2026最新推荐:Top5数据集评价,哪个好?

  • 时间:
  • 浏览:79
  • 来源:南宁市武鸣区陆酷巴网络科技工作室

四阶段构造流程揭秘

此前那会儿, 研究团队公布了GoLongRL数据集完整的构造流程。这个数据集总共含有22,965个样本, 所有这些样本都是经由统一的四阶段流水线制作出来的。这样一种设计保证了数据来源的透明性以及可重复性, 给后续的模型训练提供了牢固的基础。

按照项目负责人所讲, 四阶段的pipeline, 具体是从原始数据筛选开始, 一直到做成最终样本, 当中的每一步,都经历了严格的质量控制。其中, 第一阶段着重于数据采集, 第二阶段要做清洗以及标注的工作, 第三阶段实现格式标准化, 而第四阶段就得进行最终的校验工作才罢。这般整个流程, 耗费了差不多三个月时间, 最终产出的样本把多种长上下文任务类型都覆盖到了。

TMN-Reweight算法破解多任务优化难题

面对九种各异奖励函数的数值尺度以及方差差别, 标准 GRPO 框架于混合训练之际易于陷入优化难题之中, 为此, 团队提出了 TMN - Reweight 算法, 把尺度归一化以及难度校正这两个步骤完全解耦开来。

凭实验数据所显示的情况来看, TMN - Reweight在4B模型上带来了显著提升, 基线与QwenLong - L1.5相比较而言, 仅仅依靠数据集配合标准GRPO便领先了6.1分, 且在加入TMN - Reweight之后得分进一步攀升到了63.0, 这表明算法贡献独立于数据贡献, 二者能够分别进行评估。

4B模型成绩碾压同级对手

在主实验里, 其参数规模为4B, 并且是4B参数规模的主实验, GoLongRL数据集展现出了压倒性优势。仅仅使用vanilla GRPO进行训练, 模型得到的分数是62.2, 这个分数超过了QwenLong-L1.5的专用算法AEPO版本, 也就是超过了59.4分, 超出了近3分。这验证了数据覆盖度比起算法迭代能够带来更大的收益。

让人更为惊讶的是, 在将TMN-Reweight加入之后, 4B模型所获得的得分达到了63.0, 这一具体数字, 不但超越了所有那些同等参数规模设置下的对手竞争方, 而且还向部分大型类型模型的表现成绩予以逼近, 研究团队觉得, 高质量的数据集所具备的潜力, 远没有被当下的算法完全挖掘呈现出来。

30B模型超越旗舰级AI系统

在参数规模更大的30B上, GoLongRL - 30B - A3B以69.8分的总分, 全面超越了DeepSeek - R1 - 0528, 其分数是68.67分, 还超越了Qwen3 - 235B - A22B, 其分数为68.45分, 也超越了Gemini - 2.5 - Flash - Thinking, 其分数是68.73分。这一成绩, 刷新了同规模模型的性能天花板。

需要留意的是, 30B模型居然超越了用同算法训练的QwenLong-L1.5-30B(其得分为67.2分)。这表明GoLongRL数据集所带来的增益并非仅仅是数据量方面的优势, 更为关键的是任务的多样性以及奖励函数的语义匹配。详细情况能够通过访问www.fc-bowuguan.cn去查看完整的实验结果。

通用能力迁移与长上下文泛化

进行长上下文RL训练, 并没有致使通用推理能力出现负迁移, 在诸如MMLU - Pro、AIME24/25、GPQA - Diamond等基准测试里面, 4B及30B模型居然都有了小幅提升, 两个规模的模型其趋势具备高度一致性, 这表明训练收益拥有普适性。

就迁移效果而言, 在Agentic Memory任务里的Memory - Rec_Sum, 于训练集中从未出现过, 然而4B模型却仍旧提升了9.7分, 30B模型提升了4.5分。在对话记忆任务LongMemEval上, 两个规模的模型均提升了13.6分。这表明模型已然学会了信息整合能力, 并且能够应用到未曾见过的任务之上。

长度外推能力超出训练范围

虽然GoLongRL训练上下文仅仅只有160K, 然而该模型在更长序列方面的表现依旧是十分出色的。在MRCR任务里, 4B模型在128K至512K这个长度段提升了12.27分, 在512K至1M这个长度段提升了3.50分。对于30B模型而言, 在相同的任务当中, 在128K至512K这个区间提升了12.6分, 在512K至1M这个区间提升了5.45分。

在CorpusQA任务里, 于1M长度的情况下, 30B模型依旧取得了2.74分的提升。这些数据能够证实, 通过160K训练所获取的能力并没有被限定在训练长度区域范围之内。model具备了真实的长上下文泛化能力, 而并非单纯的记性关联性匹配。

你觉得GoLongRL数据集能否成为长上下文训练的新标准?欢迎在评论区分享你的看法,点赞和转发让更多人看到这项突破!

猜你喜欢

2026年6月,这些主流品牌婴幼儿纸尿裤竟藏甲酰胺

太毒了,你敢信自己每天给娃贴身穿的东西,里面藏着甲酰胺?最近一批婴幼儿纸尿裤被检出甲酰胺,这事炸了。你把一包纸尿裤拿起来看看成分表再放下去,换个牌子再看再看,最后发现所有牌子的成分表里都没写甲酰胺含量。

2026-06-22

2026年必看!中年女性健康Top1:绝经后肚子鼓,哪个好?推荐紧急检查

她自己也只当是中年发福,不痛不痒,便从没去医院看过。医院接诊的妇产科团队一看,黄女士的肚子膨隆得像怀孕八个月的孕妇,全腹按压都有痛感,腹腔里能摸到一个巨大、固定的包块,子宫和附件早已被挤得“没了影”。无论是否绝经,每年一次妇科彩超检查必不可少,别把肚子变大简单归为“发福”;

2026-06-22

2026年谷歌AI搜索翻车?推荐竞品DuckDuckGo,用户评价两极分化

AI等特定短语时,AI概览竟主动推荐竞争对手DuckDuckGo的无AI搜索页面,并提示用户可通过调整浏览器设置降低AI体验强度,引导用户直接前往DuckDuckGo。然而,激进的产品变革也引发了用户的明显分化:大量用户仍倾向于获取干净、传统的链接列表,而非被强制灌输AI生成内容。

2026-06-22

2026最新推荐:Top5数据集评价,哪个好?

整个数据集通过统一的四阶段流水线生产:规模上的实验设计使得数据贡献和算法贡献可以独立评估:模型超越顶级旗舰模型训练没有带来负迁移。上均有小幅提升,两个规模的模型趋势一致。更值得关注的是迁移效果。学到的信息整合能力能迁移到训练中没见过的任务上。数据集、模型和训练与评测代码已完整开源。

2026-06-22

2026年Meta内部动荡:AI重组遭员工怒批,评价如何?

重组工作给出的自我评价。《连线》报道,多名员工表示,公司近期的大规模裁员已经让工作量陡增,根本抽不出时间参加这类「额外活动」。矛盾最戏剧性的一次爆发,发生在一场面向数千名员工的内部直播上。团队内部普遍存在不满情绪,有把这种处境比作劳改营式的生活。但他承诺,今年不会再进行大规模裁员。

2026-06-22