让AI像人类一样操作电脑！Anthropic上新Claude 3.5 Sonnet模型新能力

　　10月23日消息，OpenAI竞争对手Anthropic宣布推出升级版的Claude 3.5 Sonnet和新款Claude 3.5 Haiku。

　　根据Anthropic介绍，升级版Claude 3.5 Sonnet获得了一项革命性的新技能：能够像人类一样操作电脑。同时，升级版Claude 3.5 Sonnet模型各项能力均超越之前版本，尤其在代码方面取得了特别显著的进步，进一步巩固其行业领先地位。

　　新款Claude 3.5 Haiku则在许多评估中与Anthropic之前最大的型号Claude 3 Opus的性能相匹配，其成本和速度与上一代Haiku相同。

　　升级后的Claude 3.5 Sonnet现在可供所有用户使用。从今天开始，开发者可以在Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI上使用计算机测试版进行构建。新的Claude 3.5 Haiku将于本月晚些时候发布。

　　升级版Claude 3.5 Sonnet：超强编码能力，公测“计算机使用”功能

　　据介绍，升级版Claude 3.5 Sonnet在业界基准测试中表现卓越，在SWE-bench Verified编码测试的得分由33%跃升至49%，超越所有目前公开可用的模型。在TAU-bench(评估模型灵活运用工具和API综合能力的基准测试)中，其零售领域得分从62.6%提高到69.2%，航空领域从36.0%提高到46.0%。性能全面提升的同时，Claude 3.5 Sonnet的成本与之前版本保持一致。

　　另外，Anthropic早期的客户反馈表明，升级后的Claude 3.5 Sonnet代表了人工智能编码的重大飞跃。GitLab测试了DevSecOps任务的模型，发现它提供了更强的推理能力(跨用例高达10%)，没有增加延迟，使其成为支持多步骤软件开发过程的理想选择。

　　同时，Anthropic在Claude 3.5 Sonnet公测版中引入了一项突破性的新功能：计算机使用。通过API接入，开发人员可以指导Claude使用计算机，就像人们看屏幕、移动光标、单击按钮和输入文本一样。

　　Anthropic表示，Claude 3.5 Sonnet是第一个在公测中提供“计算机使用”的AI模型。该功能现阶段是实验性的，预计随着时间的推移，这种能力会迅速提高。

　　Anthropic介绍，在“计算机使用”能力上，没有制作特定的工具来帮助Claude完成个人任务，而是教它一般的计算机技能，让它能够使用为人类设计的各种标准工具和软件程序。开发人员可以使用这个新兴功能来自动化重复流程，构建和测试软件，并执行研究等开放式任务。

　　Anthropic构建了一个API，允许Claude感知计算机界面并与之交互。开发人员可以集成此API，使Claude能够将指令(例如，“使用我的计算机和在线数据填写此表单”)转换为计算机命令(例如，检查电子表格;移动光标打开web浏览器;导航到相关网页;使用这些网页中的数据填写表单等等)。

　　效果方面，在评估人工智能模型像人一样使用计算机的能力的OSWorld上，Claude 3.5 Sonnet在屏幕截图(screenshot-only)类别中的得分为14.9%，明显高于次佳人工智能系统的7.8%。当提供更多步骤来完成任务时，Claude的得分为22.0%。

　　不过Anthropic也强调，Claude 3.5 Sonnet目前使用计算机的能力并不完美。人们毫不费力地执行的一些操作——滚动、拖动、缩放——目前给都Claude带来了挑战，鼓励开发人员从低风险任务开始探索。

　　据悉，Asana、Canva、Cognition、DoorDash、Replit和浏览器公司已经开始探索这些功能，执行需要几十个甚至几百个步骤才能完成的任务。例如，Replit正在使用Claude 3.5 Sonnet的“计算机使用”和UI导航功能来开发一个关键功能，该功能在为Replit Agent产品构建应用程序时对其进行评估。

　　下面是Claude 最新演示的 AI 操作电脑的视频截图

　　在这个演示中，Claude浏览了不同的标签页，收集了所需信息，并填写了一个表单，所有电脑操作均由Claude生成。

　　Claude 3.5 Haiku：最快速模型

　　新推出的Claude 3.5 Haiku是Anthropic下一代速度最快的模型。在与Claude 3 Haiku相同的成本和相似的速度下，Claude 3.5 Haiku在每个技能集上都有所提高，甚至在许多智能基准上超过了Anthropic上一代最大的型号Claude 3 Opus。

　　Claude 3.5 Haiku在编码任务上表现得尤为出色。例如，它在SWE bench Verified上的得分为40.6%，超过初代版Claude 3.5 Sonnet和GPT-4o。

　　凭借低延迟、改进的指令遵循和更准确的工具使用，Claude 3.5 Haiku非常适合面向用户的产品、专门的子代理任务，以及从大量数据(如购买历史、定价或库存记录)中生成个性化体验。

　　Anthropic介绍，Claude 3.5 Haiku将于本月晚些时候提供，并随后提供图像输入能力。

　　Anthropic是由前OpenAI员工创立的公司，亚马逊是Anthropic的重要投资者。今年3月，亚马逊宣布已完成对 Anthropic 的 40 亿美元投资，以深化推进生成式 AI 技术的发展。

　　Anthropic于2023年3月发布了Claude 3系列模型Claude 3 Haiku、Claude 3 Sonnet、 Claude 3 Opus，此后便按照各型号进行能力升级迭代。今年6月，Anthropic发布最强大模型Claude 3.5 Sonnet，拥有相比前代模型2倍的推理速度和1/5的调用成本。(果青)

让AI像人类一样操作电脑！Anthropic上新Claude 3.5 Sonnet模型新能力

延展资讯