月之暗面今日正式推出 Kimi 多模态图片理解模型 API,全新 Vision 模型(moonshot-v1-vision-preview)进一步完善了 moonshot-v1 系列的多模态能力。该模型具备强大的图像识别功能,能够精确区分相似但不同的对象,如蓝莓松饼和吉娃娃,并能处理复杂的图像细节。
此外,Vision 模型在 OCR 文字识别和图像理解方面表现出色,可以准确识别手写内容,如收据单和快递单上的潦草文字。它还能分析柱状图中的数据并识别样式格式,为用户提供更深入的图像解析。
Vision 模型采用按量计费方式,价格根据选择的模型不同而有所差异。目前,该模型支持多轮对话、流式输出等功能,暂不支持联网搜索和 URL 格式的图片输入。
其他平台更新包括组织项目管理、企业实体认证多账号支持以及文件资源管理功能的优化,全面提升用户体验。