阿里通义千问推出Qwen2-VL：开源2B/7B模型，处理任意分辨率图像无需分割成块_科技魔方-中文AI大模型门户网站

首页 通义千问 正文: 阿里通义千问推出Qwen2-VL：开源2B/7B模型，处理任意分辨率图像无需分割成块; 通义千问

2024年08月30日

点赞; 　　通义千问团队今天对 Qwen-VL(视觉语言、Vision Language)模型进行更新，推出 Qwen2-VL。

　　Qwen2-VL 的一项关键架构改进是实现了动态分辨率支持(Naive Dynamic Resolution support)。与上一代模型 Qwen-VL 不同，Qwen2-VL 可以处理任意分辨率的图像，而无需将其分割成块，从而确保模型输入与图像固有信息之间的一致性。这种方法更接近地模仿人类的视觉感知，使模型能够处理任何清晰度或大小的图像。

　　另一个关键架构增强是 Multimodal Rotary Position Embedding(M-ROPE)。通过将 original rotary embedding 分解为代表时间和空间(高度和宽度)信息的三个部分，M-ROPE 使 LLM 能够同时捕获和集成 1D 文本、2D 视觉和 3D 视频位置信息。这使 LLM 能够充当多模态处理器和推理器。

　　在 7B 规模下，Qwen2-VL-7B 保留了对图像、多图像和视频输入的支持，以更具成本效益的模型大小提供“具有竞争力”的性能。

　　Qwen2-VL-2B 模型针对潜在的移动部署进行了优化。尽管参数量只有 2B，但官方表示该模型在图像、视频和多语言理解方面表现出色。

+1; 阿里通义千问大模型; 来源：IT之家

延展资讯

: 阿里通义免费开放奥运AI大模型

: 阿里通义千问登顶国内第一：超越一众开闭源模型

: 阿里云通义千问开源两款语音基座模型，识别效果优于 OpenAI Whisper

: Intel三条线优化阿里云通义千问2模型：720亿参数轻松拿捏

: 通义千问再开源推出最大尺寸1100亿参数模型

: 阿里云宣布全方位支持Llama 3训练推理帮助开发者构建自己的大模型

最热新闻最新新闻 更多>

用户推荐最热产品 更多>

倾城

小新

张影

创维电视（SKYWORTH）55V40

创维电视（SKYWORTH）55V40

小米全面屏电视E43K

小米全面屏电视E43K

康佳（KONKA）55D6S

康佳（KONKA）55D6S

荣泰S60按摩椅

荣泰S60按摩椅

自媒体头条更多>: 极致听感智能降噪三星Galaxy Buds Pro诠释非同凡“响”

未来科技范试驾摩灵MOi｜视频

品牌专区更多>

产品与服务

联系站长

反馈邮箱

news#keji100.net（发邮件时把#换成@）

关于我们