科技魔方

加州大学伯克利分校发布低成本开源推理模型 Sky-T1-32B-Preview,性能媲美 OpenAI 早期版本

更多动态

2025年01月13日

  本周,加州大学伯克利分校 Sky Computing 实验室的研究团队 NovaSky 发布了一款名为 Sky-T1-32B-Preview 的推理模型。该模型在多项关键基准测试中的表现可与 OpenAI 早期版本的 o1 模型相媲美。值得注意的是,Sky-T1-32B-Preview 是首个真正意义上的开源推理模型,其训练数据集和代码均已公开,用户可以从零开始复现该模型。

  NovaSky 团队透露,Sky-T1-32B-Preview 的训练成本不到 450 美元(约 3306 元人民币),远低于以往同类模型的数百万美元。这一突破得益于合成训练数据的广泛应用,合成数据由其他模型生成,能够显著降低训练成本。例如,AI 公司 Writer 最近发布的 Palmyra X 004 模型几乎完全依赖合成数据训练,开发成本仅为 70 万美元。

  与大多数 AI 模型不同,推理模型具备自我事实核查能力,能够有效避免一些常见错误。尽管推理模型在解决问题时通常比非推理模型需多花费几秒到几分钟,但在物理、科学和数学等领域,其可靠性更高。

  Sky-T1 的训练数据由阿里巴巴的 QwQ-32B-Preview 推理模型生成,随后经过精心筛选,并利用 OpenAI 的 GPT-4o-mini 对数据进行重构,使其更易于处理。训练这款拥有 320 亿参数的模型仅耗时约 19 小时,使用了 8 台 Nvidia *** GPU。

  在性能方面,Sky-T1 在 MATH500(一组“竞赛级”数学挑战)上的表现优于 o1 的早期预览版本,同时在 LiveCodeBench 的编程评估中也表现更佳。然而,在 GPQA-Diamond 测试中(包含物理学、生物学和化学领域的研究生水平问题),Sky-T1 略逊于 o1 预览版。

  尽管 OpenAI 已发布的 o1 正式版比预览版更强大,且预计未来几周内将推出性能更优的推理模型 o3,NovaSky 团队表示,Sky-T1 只是他们开发开源推理模型的起点。团队将继续专注于开发更具效率的模型,保持强大的推理性能,并探索先进技术以进一步提升模型在测试时的效率和准确性。请继续关注他们在这些激动人心的项目上取得的进展。

+1

来源:DoNews

延展资讯