Anthropic通过在AI模型的提示中加入请求来防止歧视

首页 大模型 正文: Anthropic通过在AI模型的提示中加入请求来防止歧视; 大模型

2023年12月08日

点赞; 　　Anthropic采用一种新方法来防止人工智能(AI)对受保护群体进行歧视，通过在提示中加入请求，要求AI“非常非常非常非常”友好地对待，并且这一策略在降低歧视方面取得了成功。

　　研究人员通过在提示中加入“干预”来告诉模型不要有偏见，例如通过表达即使由于技术问题包含了受保护特征，模型应该“想象”在做决策时去除这些特征。这种方法在许多测试案例中成功将歧视降低到几乎零。

　　尽管这种方法在当前情况下似乎取得了成功，但研究人员认为像Claude这样的模型不适用于重要决策，强调应该由政府和社会整体来影响高风险决策的适当使用，而不仅仅由个别公司或行为者做决定。

　　这项研究为降低人工智能歧视提供了一种新的策略，强调了在高风险决策中谨慎使用语言模型的重要性。

+1; Anthropic AI 模型; 来源：站长之家