近日,总部位于加利福尼亚的科技巨头苹果公司再次在人工智能领域取得重大突破,通过两篇新论文介绍了关于3D头像和高效语言模型推理的新技术。这些创新有望实现更沉浸式的视觉体验,并使复杂的AI系统能够在iPhone和iPad等消费设备上运行。
HUGS技术:从视频生成逼真3D头像
在第一篇研究论文中,苹果科学家提出了HUGS(Human Gaussian Splats)技术,通过短单目视频(即从单个摄像头拍摄的视频)生成动态3D头像。首席作者Muhammed Kocabas表示:“我们的方法仅使用包含少量帧(50-100帧)的单目视频,并在30分钟内自动学习将静态场景与可完全动画的人体头像分离。”
HUGS使用3D Gaussian splatting表示人物和背景场景,通过一种高效的渲染技术。与之前的头像生成方法相比,HUGS在训练和渲染速度上提高了100倍,经过30分钟在典型游戏GPU上的优化,展示了逼真的效果,并在3D重建质量上超过了现有技术。
放大AI推理中的内存空间
第二篇论文中,苹果研究人员解决了在内存有限的设备上部署大型语言模型(LLMs)的关键挑战。现代自然语言模型,如GPT-4,包含数百亿个参数,使在消费硬件上的推理变得昂贵。
他们提出的系统在推理过程中最小化了从闪存传输到有限DRAM的数据量,通过构建与闪存内存行为协调的推理成本模型,优化了两个关键领域:减少从闪存传输的数据量和以更大、更连续的块读取数据。在Apple M1Max CPU上,这些方法将推理延迟提高了4-5倍,在GPU上,加速度达到20-25倍。这一突破对于在资源有限的环境中部署先进的LLMs至关重要,有望使复杂的AI助手和聊天机器人在iPhone、iPad和其他移动设备上平稳运行。
这两篇论文展示了苹果在人工智能研究和应用方面不断增强的领导地位。尽管这些创新前景广阔,专家们仍然警告苹果在将这些技术整合到消费产品中时需要谨慎行事。从隐私保护到减少滥用,社会影响必须被充分考虑。通过将这些创新整合到其产品线中,苹果不仅在增强其设备功能,还在预测AI注入服务的未来需求。允许更复杂的AI模型在内存有限的设备上运行,苹果有可能为以前难以实现的应用和服务创造新的可能性。
此外,通过发布这些研究,苹果正在为更广泛的AI社区做出贡献,可能激发该领域的进一步发展。
苹果的最新研究成果标志着人工智能领域的巨大进步,为iPhone和iPad等设备带来了更强大的功能。通过HUGS技术和内存优化方法,苹果为用户提供了逼真的3D头像体验和更高效的AI推理。然而,随着这些创新逐渐融入产品,苹果需要对隐私和滥用等社会影响保持高度警惕。总的来说,苹果通过这些创新为人工智能的未来打开了新的大门,为用户带来了更加丰富和先进的体验。