OpenAI或将推出多模态模型GPT-Vision和Gobi，与谷歌Gemini竞争

　　谷歌即将发布 Gemini，这是一种多模态语言模型，可能会挑战 OpenAI 的 GPT-4的领导地位。

　　但据报道 OpenAI 正在准备做出适当的回应，该公司计划通过引入名为“GPT-Vision”的图像理解功能来应对Gemini的竞争。

　　据《The Information》报道，GPT-4的图像理解功能将被命名为“GPT-Vision”。这一多模态功能最初是在GPT-4发布会上介绍的，并成为了演示的焦点之一。GPT-4展示了基于网页绘图生成网页代码的能力，但一般用户尚无法获得这一图像理解功能。据称，主要是OpenAI担心该功能可能被滥用，例如用于面部识别等用途，因此对其进行了限制。

　　GPT-Vision的推出将使GPT-4具备更广泛的图像应用能力，例如生成与图像内容相关的文本。这将为用户提供更多创造性的应用可能性，也能够满足多样化的需求。

　　另外，还有传闻称OpenAI正在开发DALL-E3，并有可能将其集成到GPT-4中。与GPT-Vision的发布相结合，这意味着OpenAI正不断拓展GPT-4的功能，尤其是在图像处理领域。DALL-E3生成的第一批图像据称已经取得了显著的进步，这将进一步提升GPT-4的吸引力。

　　OpenAI计划在11月6日举行的OpenAI一日开发者大会上宣布GPT-4的新功能。尽管OpenAI首席执行官Sam Altman没有透露太多细节，但他表示将会有“伟大的东西”，这引发了广泛的期待。

　　The Information还报道称，OpenAI 还在考虑一种新的 AI 模型，代号为“Gobi”，该模型从一开始就被设计为多模态。Gobi的训练还没有开始，有机会成为GPT-5。

OpenAI或将推出多模态模型GPT-Vision和Gobi，与谷歌Gemini竞争

延展资讯