科技魔方

TinyLlama:仅用90天、3万亿token训练的 550MB AI模型

大模型

2023年09月08日

  新加坡科技设计大学的研究人员正进行一项引人注目的项目,他们正在努力创建一款小型但强大的AI模型,这个模型被称为TinyLlama,它采用了一种紧凑的设计,仅占用550MB的内存。

  这一模型的独特之处在于,它将在3万亿token的数据集上进行训练,这个庞大的数据集将在短短90天内完成训练。

  这个项目的目标是为内存受限的边缘设备提供高性能的人工智能解决方案。越来越多的开发者要求创建更小的AI模型,因为对于内存和计算能力受限的边缘设备来说,较少的参数更加优化。此外,较小的模型还可以用来协助解码更大的模型,正如前特斯拉高级AI总监Andrej Karpathy所言。

  TinyLlama项目由新加坡科技设计大学的研究助理领导,他们试图在三万亿token的数据集上预训练一个11亿token的Llama模型。这个模型仅占用550MB的内存,团队认为它的紧凑性将使它能够满足多种应用的需求,这些应用需要受限的计算和内存占用,以实现诸如无需互联网连接的实时机器翻译等功能。

  TinyLlama的训练于9月1日开始,使用了16个A100-40G GPU,团队计划在短短90天内完成训练。截止到目前,团队已完成了1050亿token的训练。

  模型的构建者表示,他们正在使用与Meta用于训练Llama2的“完全相同的架构和分词器”,因此它可以轻松应用于基于Llama构建的开源项目。

  TinyLlama团队正在使用包括Cerebras Systems的Slimpajama和StarCoder数据在内的三万亿token数据集,这些数据集曾用于训练StarCoder,这是一个代码生成模型。

  一旦完成,TinyLlama将加入越来越多的较小语言模型的行列,这些模型由开发者用于构建各种应用。同时,EleutherAI的Pythia-1b和Databricks旗下MosaicML的MPT-1b也在取得进展。

+1

来源:站长之家

延展资讯