科技魔方

Adept AI开源8亿参数语言模型Persimmon-8B

大模型

2023年09月13日

  Anthropic公司最近开源了Persimmon-8B,这是目前参数量少于10亿的完全免许可使用的最强大语言模型。该模型采用Apache许可证发布,代码和权重已在GitHub上开源。

  Anthropic的目标是开发一个可以协助用户完成各种计算机操作的AI助手。他们并不专注于开发独立的语言模型,但Persimmon-8B是他们模型扩展计划的早期产出,可以给社区提供一个更强大的8亿参数语言模型以进行各种创新应用的开发。8亿参数量的模型可以在单个GPU上进行微调,在现代笔记本电脑上以合适的速度运行,甚至可以容纳在移动设备上。

  Persimmon-8B具有几个突出特点:

  1、这是目前开源的、完全免许可使用的参数量少于10亿的最强大语言模型

  2、使用16K的上下文长度进行从头训练,远超过LLaMA2的4K和GPT-3等模型的2K

  3、基础模型的性能甚至超过了LLaMA2,尽管训练数据量只有后者的37%

  4、模型保留了70K个词向量以进行多模态扩展,并采用了稀疏激活

  5、提供了灵活快速的推理代码实现,可以在一块A100GPU上达到每秒生成56个token的速度

  通过直接长序列训练,Persimmon-8B能够捕捉更长的上下文关系,这为各种应用带来了独特优势。Anthropic希望社区可以在该模型的基础上进行更多创新,同时也乐于听到用户的反馈。这只是一个早期小规模的开源,他们未来还计划开源更多内容。

+1

来源:站长之家

延展资讯