据The Information报道,知情人士透露,鉴于谷歌上周开始向部分企业测试其多模态大模型Gemini,OpenAI希望抢占先机,推出自己的多模态AI系统。
OpenAI在3月份推出语言模型GPT-4时曾预览了多模态功能,但至今仅向为盲人提供服务的Be My Eyes公司开放。六个月过后,OpenAI准备大范围推出这款名为GPT-Vision的多模态系统。
OpenAI之所以耽搁这么长时间,主要是担心新功能可能被不法分子滥用,例如自动识别验证码冒充人类,或者面部识别跟踪他人。不过OpenAI工程师似乎已解决围绕这项新技术的法律顾虑。当询问谷歌采取了哪些措施防止Gemini被滥用时,谷歌发言人提到该公司在7月做出负责任AI开发的承诺。
在GPT-Vision之后,OpenAI可能推出更强大的多模态模型代号Gobi。不同于GPT-4,Gobi从一开始就是作为多模态模型进行训练,但此模型似乎还未开始训练。
OpenAI积极推进多模态AI的商业化,与谷歌Gemini形成直接竞争,这标志着多模态AI进入实质应用阶段。业内人士认为,图像生成等视觉能力将增强AI系统的商业价值,OpenAI的GPT-Vision具有与谷歌抗衡的实力。AI领域两大巨头互相竞争有利于行业技术进步,消费者也将从中受益。