模态最新相关新闻-科技魔方_中文AI大模型门户网站

模态最新相关新闻

图像伪造照妖镜！北大发布多模态LLM图像篡改检测定位框架FakeShield

北京大学与华南理工大学的研究团队提出了一种全新的任务：可解释的图像伪造检测与定位(e-IFDL)，并设计了一个新颖的多模态伪造检测定位框架：FakeShield。

新智元公众号 大模型模态图像

545

2B多模态新SOTA，华科、华南理工发布Mini-Monkey，专治“切分增大分辨率”后遗症

Mini-Monkey是一个轻量级的多模态大型语言模型，通过采用多尺度自适应切分策略(MSAC)和尺度压缩机制(SCM)，有效缓解了传统图像切分策略带来的锯齿效应，提升了模型在高分辨率图像处理和文档理解任务的性能。

新智元公众号 大模型模态语言模型

710

多模态模型再进化，已学会看图玩扑克、算“12点”

在科技领域，多模态模型的决策能力一直是研究的热点。最近，UC伯克利等高校的研究团队提出了一种名为RL4VLM的全新强化学习框架，成功地提升了多模态大模型在决策任务上的表现。该模型在无需人类反馈的情况下，通过强化学习微

站长之家模态大模型框架

547

多模态语言模型Reka Core：可分析图片、视频、音频评测得分与GPT-4接近

Reka AI近日宣布推出其最新力作——Reka Core，这是一款前沿的多模态语言模型，拥有强大的性能和灵活的部署方式。

站长之家模态

613

机器人Ameca已经具备视觉能力类人反应令人惊叹

在科技领域，类人机器人Ameca的最新进化令人瞩目。通过拥有视觉能力和多模态AI功能，Ameca不仅能够观察周围环境，还能模拟人类的情感和反应。这种进化背后涉及了多领域技术的融合，包括语言模型、图像生成和语音识别等。

站长之家 机器人视觉模态AI

594

最强开源多模态生成模型MM-Interleaved 支持任意穿插的图文输入和输出

2月1日消息:近期，一项开源项目MM-Interleaved引起了学者的广泛关注，该模型在多模态生成大模型方面取得了新的突破。项目引入了独创的特征同步器，刷新多项任务SOTA，拓展了多种图文生成及图像生成任务的应用领域，为多模态大

站长之家模态

667

多模态大模型，阿里通义千问能和GPT-4V掰手腕了

最近一段时间，先是 OpenAI 推出 GPT-4V，让大模型拥有了前所未有的图像语义理解能力。

机器之心公众号模态大模型阿里通义千问GPT-4

662

北大推出首个多轮多模态PPT任务完成基准PPTC GPT-4完成正确率仅6%

北大和微软亚洲研究院的研究人员提出了一项新的评估基准PPTC，旨在评估大型语言模型在复杂多轮多模态PPT任务中的表现。

站长之家北大模态大模型

732

突破性技术！开源多模态模型—MiniGPT-5

多模态生成一直是OpenAI、微软、百度等科技巨头的重要研究领域，但如何实现连贯的文本和相关图像是一个棘手的难题。

微信公众号 AIGC开放社区开源模态模型

602

-------------没有了-------------

图赏更多>

: 搜狗输入法12.0发布：接入腾讯混元移动/PC端深度融合AI

: Arm年度技术大会: 预计2025年底，全球将有超过 1,000 亿台具备AI能力的Arm设备

: 微软发布AI Shell工具，为命令行插上AI翅膀

: 进度45%，爆料称小米SUV或将参加2025年车展

: REDMI K80系列将搭载龙晶玻璃2.0 配备大R角哑光金属中框

: 余承东晒出华为Mate X6典藏版

最热新闻最新新闻 更多>

用户推荐最热产品 更多>

倾城

小新

张影

创维电视（SKYWORTH）55V40

小米全面屏电视E43K

康佳（KONKA）55D6S

荣泰S60按摩椅

自媒体头条更多>: 极致听感智能降噪三星Galaxy Buds Pro诠释非同凡“响”

未来科技范试驾摩灵MOi｜视频

品牌专区更多>