科技魔方

谷歌的Bard在聊天机器人排名中击败了GPT-4

更多场景

2024年02月01日

  2月1日 消息:谷歌的Bard最近通过其Gemini Pro版本在LMSYS聊天机器人榜上超越了OpenAI的GPT-4,标志着聊天机器人领域的一次显著变革。这款更新使得Bard成为LMSYS榜上第二高分的聊天机器人,逐渐摆脱了OpenAI在聊天机器人领域的主导地位。

  在LMSYS Chatbot Arena Leaderboard上,Bard成功超越了GPT-4,目前正迅速追赶保持冠军的GPT-4Turbo。长期以来,GPT-4Turbo和GPT-4一直紧握榜单前两名,而Bard的崛起得益于其搭载谷歌新的Gemini Pro大型多模态模型。

  LMSYS Org创建了Chatbot Arena Leaderboard,该组织是由加州大学伯克利分校与加州大学圣迭戈分校以及卡内基梅隆大学合作成立的大型模型系统组织。他们表示,Bard在排行榜上的飙升是一个“显著的成就”。

  Chatbot Arena是一个用于大型语言模型的基准平台,采用“匿名、随机的众包方式进行战斗”。排名基于Elo评分系统,这在国际象棋和其他竞技游戏中被广泛使用。

  由Gemini Pro驱动的Bard是该榜上第二个达到1200分以上的模型。Bard的崛起是谷歌更新了支持聊天机器人的基础模型的结果。去年12月,谷歌推出了Gemini,并为Bard推出了初始版本Gemini Pro,预计将很快发布更大规模的版本Gemini Ultra。

  Bard还成功击败了Claude的所有版本,Gemini Pro Dev API版本的排名甚至超过了Anthropic的Claude2.1和GPT3.5Turbo。LMSYS表示:“比赛变得前所未有地激烈!非常期待看到Bard + Gemini Ultra版本的未来。”

  对于谷歌而言,这次在榜单上的崛起是一个受欢迎的喘息。在经历了起伏不定的开始后,Bard通过定期更新不断增强,现在已经整合到其他谷歌应用程序,如YouTube和Docs中。

  最近,Reddit用户告诉谷歌,他们希望Bard更像ChatGPT,谷歌产品经理询问了他们的愿望清单。用户要求有专门的移动应用程序、自定义指令和图像生成,其中一些建议已经在实施中。

  OpenAI的GPT-4一直在模型榜单上居高不下,牢牢占据斯坦福大学HELM Leaderboard的第一名,而GPT-4Turbo则居于第二位。曾经为Bard提供动力的PaLM2在HELM排行榜上表现不佳,被来自AI初创公司Writer的Palmyra X V3超越,成为排行榜上最高得分的非OpenAI模型。

+1

来源:站长之家

延展资讯