科技魔方

Meta 宣布 Purple Llama 倡议,以促进负责任和安全的生成式人工智能开发

大模型

2023年12月08日

  Meta今天宣布了一项名为「Purple Llama」的新倡议,旨在促进人工智能(AI)系统的负责任开发。

  Meta 表示,该项目将逐步提供 AI 开发社区构建开放生成 AI 模型所需的所有工具和评估,以确保安全和负责任的方式进行。

  在一篇博客文章中,Meta 的 AI 研究团队解释说,生成式 AI 正在推动一波创新浪潮,包括对话式聊天机器人、图像生成器、文档摘要工具等现在在全球范围内被广泛使用。许多这些新的生成式 AI 应用由 Meta 的开源 Llama 大型语言模型驱动。

  因此,Meta 感到有责任采取行动,并鼓励在 AI 安全领域的合作,称这对于建立对这些新创新的信任至关重要。「构建 AI 系统的人无法在真空中解决 AI 的挑战,这就是为什么我们希望平衡竞争环境,为开放的信任和安全创造一个中心,」该公司解释道。

  为了开始这一切,Meta 首先推出了一个名为 CyberSec Eval 的免费开放的大型语言模型(LLM)网络安全评估基准。Meta 还宣布推出 Llama Guard,这是一个用于输入/输出过滤的安全分类器,已经过优化,便于部署。

  Meta 在博客文章中表示,网络安全和 LLM 提示安全是生成式 AI 安全中两个最重要的领域,这在其 Llama 2 负责任使用指南中得到了强调。

  据介绍,CyberSec Eval 是业界首个针对 LLM 的网络安全安全评估集。这些基准基于行业标准和指南,并与安全主题专家合作开发。它们为开发者提供量化 LLM 安全风险的指标,并旨在解决不安全代码建议频率等问题。它们还使开发者能够评估 LLM,使应用程序更难生成可能用于协助网络攻击的恶意代码。

  Meta 表示,新工具将有助于防止黑客和其他恶意行为者利用 LLM 进行网络攻击。其早期研究发现,生成式 AI 被用来生成不安全代码和满足恶意请求存在「重大风险」。

  至于 Llama Guard,它是一个预先训练的模型,旨在防止生成式 AI 模型生成潜在风险的输出。它是基于公开可用的数据集混合训练的,使其能够检测许多不同用例中可能相关的常见风险或违规内容。因此,它可以检测来自生成式 AI 模型的风险提示和输出,并防止它们被处理。最终,Meta 表示,这将帮助开发者定制他们的生成式 AI 模型,以支持相关用例,同时将引起争议、不安或冒犯的风险降到最低。

  紫色团队行动

  Meta 表示,「Purple Llama」是其新 AI 安全倡议的合适名称,因为缓解生成式 AI 的风险需要开发者结合攻击(即「红色团队行动」)和防御(即所谓的「蓝色团队行动」)。在传统网络安全中,红色团队由专家组成,他们执行各种攻击,试图克服公司的网络安全防御,而蓝色团队则专注于保护和应对这些攻击。

  因此,Meta 将其对生成式 AI 安全的方法标记为「紫色团队行动」,旨在促进评估和缓解技术潜在风险的协作方法。

  作为 Purple Llama 倡议的一部分,Meta 打算进行大量的探索性研究,但不会单独进行。相反,它正在创建一个开放的生态系统,合作伙伴包括新成立的 AI 联盟、AMD、亚马逊AWS、贝恩公司、CloudFlare Inc.、Databricks Inc.、Dell Technologies Inc.、Dropbox Inc.、谷歌云、Hugging Face Inc.、IBM 公司、英特尔公司、微软公司、MLCmmons、英伟达公司、甲骨文公司、Scale AI Inc.、Together Computing Inc. 等众多公司。

  Meta 今天宣布这一倡议的时机紧随其加入 IBM 公司 AI 联盟之后,似乎是为了实现后者组织的目标而迈出的第一步,Constellation Research Inc. 副总裁兼首席分析师 Andy Thurai 表示。「在委员会工作成果发布之前,甚至在团队确定之前,Meta 已经提前发布了一套工具和框架,」分析师指出。

  Thurai 补充说,值得一提的是,Meta 正在与一些尚未加入 AI 联盟的公司合作,包括 AWS、谷歌、微软和英伟达,这些是行业最大的参与者之一。

  「Meta 计划将它们用于商业和研究领域的许可,这是 LLaMa 模型许可选项限制最大的不满,」Thurai 补充说。「所提出的工具集旨在帮助 LLM 生产者评估 LLM 安全风险、不安全代码输出评估,和/或可能限制输出,防止恶意行为者利用这些开源 LLM 进行网络攻击。这是一个良好的第一步,我希望看到更多。」

  Purple Llama 项目的组成部分,包括 CyberSec Eval 和 Llama Guard,将基于宽松的许可进行许可,允许研究和商业使用。Meta 表示,它将在 12 月 10 日开始的 NeurIPs 2023 活动上展示这些组件的第一批,并为希望实施它们的开发者提供技术深入解析。

+1

来源:站长之家

延展资讯