谷歌正在通过其 API 向企业和开发者展示其最强大的大型语言模型 Gemini,这个模型分为 Ultra、Pro 和 Nano 三个规格,并已通过谷歌云的 Vertex AI 平台提供给企业使用。
从今天开始,开发者可以通过谷歌的免费 Web 开发工具 AI Studio(前身为 Makersuite)使用 Gemini Pro API 构建应用程序。谷歌表示,他们计划在未来几周根据用户反馈进一步优化该模型。
Gemini Pro 已经在谷歌的 ChatGPT 替代产品 Bard 中得到应用。初始版本的 Gemini Pro 文本窗口大小为32,000个上下文窗口,即可以处理约5,333个单词(32,000个标记)。
与之相比,OpenAI 的最新模型 GPT-4Turbo 可以处理128,000个标记。然而,谷歌表示后续版本的 Gemini Pro 将大大扩展长度。Gemini Pro 的其他功能包括支持38种语言、函数调用、嵌入、语义检索和自定义知识引用。目前,它只接受文本输入并生成文本输出。
然而,Gemini Pro 还提供了专用的多模态端点 Gemini Pro Vision,可以同时接受文本和图像(图像和视频)作为输入,并生成文本输出。
Gemini Pro 的 API 目前是免费使用的,但每分钟最多有60个查询。然而,即将推出一个限制较少的现收现付版本,谷歌表示,它将“具有竞争力的价格”,因为它希望与OpenAI竞争。
谷歌已经公布了 Gemini Pro 的定价:每千个字符0.00025美元,每张图片0.0025美元,输出每千个字符0.0005美元。该公司承认,谷歌将使用免费版Google Pro API的输入和输出来改进其产品,但付费版不会。
同时,谷歌还发布了其他模型,包括最新的 AI 图像生成模型 Imagen2和面向医疗保健行业的基础模型家族 MedLM。Duet AI for Developers 现已正式推出,并将在未来几周内引入 Gemini。