OpenAI多模态AI系统GPT-Vision即将推出与谷歌Gemini竞争

　　据The Information报道，知情人士透露，鉴于谷歌上周开始向部分企业测试其多模态大模型Gemini，OpenAI希望抢占先机，推出自己的多模态AI系统。

　　OpenAI在3月份推出语言模型GPT-4时曾预览了多模态功能，但至今仅向为盲人提供服务的Be My Eyes公司开放。六个月过后，OpenAI准备大范围推出这款名为GPT-Vision的多模态系统。

　　OpenAI之所以耽搁这么长时间，主要是担心新功能可能被不法分子滥用，例如自动识别验证码冒充人类，或者面部识别跟踪他人。不过OpenAI工程师似乎已解决围绕这项新技术的法律顾虑。当询问谷歌采取了哪些措施防止Gemini被滥用时，谷歌发言人提到该公司在7月做出负责任AI开发的承诺。

　　在GPT-Vision之后，OpenAI可能推出更强大的多模态模型代号Gobi。不同于GPT-4，Gobi从一开始就是作为多模态模型进行训练，但此模型似乎还未开始训练。

　　OpenAI积极推进多模态AI的商业化，与谷歌Gemini形成直接竞争，这标志着多模态AI进入实质应用阶段。业内人士认为，图像生成等视觉能力将增强AI系统的商业价值，OpenAI的GPT-Vision具有与谷歌抗衡的实力。AI领域两大巨头互相竞争有利于行业技术进步，消费者也将从中受益。

OpenAI多模态AI系统GPT-Vision即将推出 与谷歌Gemini竞争