科技魔方

DeepSeek的挑战来了!AI教母李飞飞用不到50美元训练出新模型

DeepSeek

2025年02月07日

  2月7日消息,在科技日新月异的今天,人类可以说活在一个不断被人工智能颠覆的世界。据媒体报道,近日,“AI教母”李飞飞团队以不到50美元的云计算费用训练了一个名叫s1的人工智能推理模型。

  据了解,s1模型在数学和编码能力测试中的表现与OpenAI的o1和DeepSeek的R1等尖端推理模型类似。李飞飞团队研究人员表示,s1是通过蒸馏法由谷歌推理模型Gemini 2.0 Flash Thinking Experimental提炼出来的。

  这则消息让美国科技圈震惊不已,因为DeepSeek团队在春节前,将OpenAI的训练费用打到三十分之一。但仅仅过去不到一个月,现在李飞飞团队又用不到50美元训练出媲美DeepSeekR1的AI推理模型,人工智能领域可以说是越来越卷了!

  李飞飞团队从Gemini蒸馏出媲美DeepSeek R1模型意味着,通过使用蒸馏技术,研究人员成功地从Gemini模型中提取或“蒸馏”出知识,并利用这些知识训练了一个新的模型,这个新模型在性能上能够与DeepSeek R1模型相媲美。

  具体来说,蒸馏技术是一种模型压缩和优化方法,它涉及到一个大型、复杂的模型(通常称为“教师模型”)来指导一个较小的、简单的模型(通常称为“学生模型”)的学习过程。

  教师模型通常具有较高的准确性和复杂度,而学生模型则更加轻量级,便于部署和使用。通过蒸馏技术,学生模型可以继承教师模型的知识,从而在保持较高性能的同时,减少计算资源的消耗。

  值得注意的是,这种技术不仅限于Gemini和DeepSeek R1之间的蒸馏,它也可以应用于其他AI模型的优化和压缩。此外,蒸馏技术还可以帮助解决深度学习模型在实际应用中面临的计算资源和延迟问题,使得这些模型能够在资源受限的环境中也能表现出色。

  公开资料显示,李飞飞是华裔科学家,被誉为“AI教母”,在人工智能领域享有盛誉。她于1976年出生,16岁随父母移民美国,凭借卓越的学术能力进入普林斯顿大学,并最终获得加州大学人工智能和计算神经科学方向的博士学位。

  她最著名的成就是创建了全球最大的图像识别数据库ImageNet,包含21800个类别和超过1400万张图像,为计算机视觉领域的发展奠定了基础。目前她是斯坦福大学终身教授,并曾担任谷歌云首席科学家。

+1

来源:快科技

延展资讯