科技魔方
  • 模态最新相关新闻
  • 图像伪造照妖镜!北大发布多模态LLM图像篡改检测定位框架FakeShield

    北京大学与华南理工大学的研究团队提出了一种全新的任务:可解释的图像伪造检测与定位(e-IFDL),并设计了一个新颖的多模态伪造检测定位框架:FakeShield。

  • 新智元公众号 大模型模态图像
  • 545 0
  • 2B多模态新SOTA,华科、华南理工发布Mini-Monkey,专治“切分增大分辨率”后遗症

    Mini-Monkey是一个轻量级的多模态大型语言模型,通过采用多尺度自适应切分策略(MSAC)和尺度压缩机制(SCM),有效缓解了传统图像切分策略带来的锯齿效应,提升了模型在高分辨率图像处理和文档理解任务的性能。

  • 新智元公众号 大模型模态语言模型
  • 710 0
  • 多模态模型再进化,已学会看图玩扑克、算“12点”

    在科技领域,多模态模型的决策能力一直是研究的热点。最近,UC伯克利等高校的研究团队提出了一种名为RL4VLM的全新强化学习框架,成功地提升了多模态大模型在决策任务上的表现。该模型在无需人类反馈的情况下,通过强化学习微

  • 站长之家 模态大模型框架
  • 547 0
  • 多模态语言模型Reka Core:可分析图片、视频、音频 评测得分与GPT-4接近

    Reka AI近日宣布推出其最新力作——Reka Core,这是一款前沿的多模态语言模型,拥有强大的性能和灵活的部署方式。

  • 站长之家 模态
  • 613 0
  • 机器人Ameca已经具备视觉能力 类人反应令人惊叹

    在科技领域,类人机器人Ameca的最新进化令人瞩目。通过拥有视觉能力和多模态AI功能,Ameca不仅能够观察周围环境,还能模拟人类的情感和反应。这种进化背后涉及了多领域技术的融合,包括语言模型、图像生成和语音识别等。

  • 站长之家 机器人视觉模态AI
  • 594 0
  • 最强开源多模态生成模型MM-Interleaved 支持任意穿插的图文输入和输出

    2月1日 消息:近期,一项开源项目MM-Interleaved引起了学者的广泛关注,该模型在多模态生成大模型方面取得了新的突破。项目引入了独创的特征同步器,刷新多项任务SOTA,拓展了多种图文生成及图像生成任务的应用领域,为多模态大

  • 站长之家 模态
  • 667 0
  • 多模态大模型,阿里通义千问能和GPT-4V掰手腕了
    多模态大模型,阿里通义千问能和GPT-4V掰手腕了

    最近一段时间,先是 OpenAI 推出 GPT-4V,让大模型拥有了前所未有的图像语义理解能力。

  • 机器之心公众号 模态大模型阿里通义千问GPT-4
  • 662 0
  • 北大推出首个多轮多模态PPT任务完成基准PPTC GPT-4完成正确率仅6%

    北大和微软亚洲研究院的研究人员提出了一项新的评估基准PPTC,旨在评估大型语言模型在复杂多轮多模态PPT任务中的表现。

  • 站长之家 北大模态大模型
  • 732 0
  • 突破性技术!开源多模态模型—MiniGPT-5

    多模态生成一直是OpenAI、微软、百度等科技巨头的重要研究领域,但如何实现连贯的文本和相关图像是一个棘手的难题。

  • 微信公众号 AIGC开放社区 开源模态模型
  • 602 0
  • -------------没有了-------------

    图赏更多>