视觉最新相关新闻-科技魔方_中文AI大模型门户网站

视觉最新相关新闻

GPT-4o 级别!VITA-1.5:实时视觉与语音交互，1.5秒互动延迟

VITA-MLLM团队最近推出了VITA-1.5，这是对VITA-1.0的重大升级，旨在提升多模态交互的实时性和准确性。

科技魔方 GPT-4o大模型视觉语音

558

GPT-4o再暴露「弱智」缺陷，大模型无一幸免，港中文等发布「视觉听觉」基准AV-Odyssey：26个任务直指死角问题

多模态大模型在听觉上，居然也出现了「9.11>9.8」的现象，音量大小这种简单问题都识别不了!港中文、斯坦福等大学联合发布的AV-Odyssey基准测试，包含26个视听任务，覆盖了7种声音属性，跨越了10个不同领域，确保测试的深度和广度

新智元公众号 GPT-4o大模型视觉

638

百度复旦视觉生成模型Hallo2或将落地数字人等场景

近日，百度联合复旦大学等发布Hallo2，一个可以生成长达数小时且分辨率为4K的人物动画的视觉模型。

Donews 百度复旦视觉生成模型

560

全新视觉识别技术Revisit Anything

通过特征提取、聚类中心生成和SegVLAD管道运行，用户可以获取高效的识别结果。这项研究推动了视觉位置识别领域的发展。

科技魔方视觉大模型模型

604

清华大学团队研制出世界首款类脑互补视觉芯片“天眸芯”

精密仪器系类脑计算研究团队聚焦类脑视觉感知芯片技术，提出了一种基于视觉原语的互补双通路类脑视觉感知新范式。该范式借鉴人类视觉系统的基本原理，模仿人类视觉系统的特征，形成两条优势互补、信息完备的视觉感知通路。

爱集微视觉芯片大模型

537

Llama3-V：全新开源视觉大语言模型正式亮相

AI界近日迎来了一项重大突破，一款名为Llama3-V的全新开源视觉大语言模型正式亮相。据称，Llama3-V基于Llama38B和siglip-so400m构建，被业界誉为最先进的视觉大语言模型之一。

站长之家 大模型开源视觉大语言模型

576

美团、浙大等提出视觉任务统一架构VisionLLAMA

近期提出的 VisionLLaMA 架构在视觉任务领域取得了突破性进展。该架构致力于解决视觉和语言模态之间的架构差异，通过引入类似于 LLAMA 的统一接口，将视觉任务推向了一个新的高度。

站长之家美团浙大视觉大模型

610

机器人Ameca已经具备视觉能力类人反应令人惊叹

在科技领域，类人机器人Ameca的最新进化令人瞩目。通过拥有视觉能力和多模态AI功能，Ameca不仅能够观察周围环境，还能模拟人类的情感和反应。这种进化背后涉及了多领域技术的融合，包括语言模型、图像生成和语音识别等。

站长之家 机器人视觉模态AI

600

研究: AI代替打工人成本太高，只有23% 视觉工作可替代

1月25日消息:根据 MIT 计算机科学与人工智能实验室的研究，人工智能对打工人的淘汰速度可能比人们想象中的要慢得多。这是因为对于企业来说，视觉 AI 实在是太贵了。在绝大多数情况下，人力成本要比采用自动化更便宜。

站长之家 AI人工智能视觉

595

年度技术突破新物种：美图视觉大模型MiracleVision

1月20日，凭借独特的美学价值、扎实的场景能力，美图自研AI视觉大模型MiracleVision(奇想智能)被评为“年度技术突破新物种”。

DoNews 美图视觉大模型MiracleVision

685

智源推Vision Mamba 高效处理视觉任务，内存能省87%

Vision Mamba 是一种新的视觉模型，通过引入状态空间模型(SSM)来进行视觉建模，并在 ImageNet 分类、COCO 对象检测和 ADE20k 语义分割任务上实现了更高的性能。

站长之家智源视觉

701

维基百科+大模型打败幻觉！斯坦福WikiChat性能领先GPT-4

斯坦福大学的研究人员利用维基百科数据训练了一个大模型，命名为WikiChat，通过优化和改进，成功解决了大模型的幻觉问题，并在事实准确性和其他指标上表现优秀。

站长之家 维基百科视觉性能GPT-4

637

美图AI视觉大模型MiracleVision奇想智能将向公众开放

1月2日，美图公司自研AI视觉大模型MiracleVision(奇想智能)通过《生成式人工智能服务管理暂行办法》备案，将面向公众开放。

站长之家美图AI视觉大模型

782

美图AI视觉大模型MiracleVision将向公众开放

1月2日，美图公司自研AI视觉大模型MiracleVision(奇想智能)通过《生成式人工智能服务管理暂行办法》备案，将面向公众开放。

DoNews 美图AI视觉大模型

594

智谱 AI 开源视觉语言模型 CogAgent 支持GUI图形界面问答

智谱 AI 开源了 CogAgent，它是一个视觉语言模型，拥有180亿参数规模。该模型在 GUI 理解和导航方面表现出色，在多个基准测试上取得了 SOTA 的通用性能。

站长之家

681

全新视觉提示方法SoM 让GPT-4V看的更准、分的更细

研究人员推出了一种新的视觉提示方法 Set-of-Mark(SoM)，它可以让 OpenAI 多模态大模型 GPT-4V 在视觉内容理解方面有了质的提升。

站长之家视觉GPT-4V

604

美图吴欣鸿：自研视觉大模型MiracleVision已迭代至1.5版本

8月3日，美图创始人、董事长兼CEO吴欣鸿参加第四届中国人工智能大赛成果发布会。在会上，吴欣鸿透露，目前美图自研视觉大模型已迭代到1.5版本，并应用于美图旗下多款产品。

站长之家美图大模型视觉

577

什么是计算机视觉？

在电影《黑客帝国:复活》(2021年)中，主人公尼奥与电脑生成的世界“黑客帝国”战斗，他的战士团队聚集在一组电脑周围，试图找到尼奥的搭档崔妮蒂，她仍然被困在黑客帝国中。

千家网 计算机视觉计算机视觉

637

苹果计算机视觉框架Vision支持追踪动物全身姿态

在2017年时，苹果曾推出基于Core ML的计算机视觉框架Vision，就像它名字里暗示的那样，计算机视觉也是Vision Pro头显的重要功能之一。

青亭网苹果计算机视觉

638

计算机视觉技术即将迎来重大转变

计算机视觉是否会再次自我改造?

千家网视觉

748

日本视觉艺术家AUTO MOAI带来日本精工5运动款无面人物限量版

日本视觉艺术家AUTO MOAI将日本精工5运动手表作为最新作品的画布，这两件限量版的作品带有艺术家的无脸人物图案。

科技魔方视觉

658

苹果或已收购AI视觉搜索初创公司Fashwell

8月8日消息，据国外媒体报道，苹果可能已经收购了AI视觉搜索初创公司Fashwell。

TechWeb.com.cn Fashwell初创视觉

364

索尼日本工作室分享如何实现《Astro Bot 》视觉风格

2019年01月25日，斩获TGA最佳VR游戏的《宇宙机器人：搜救行动》(Astro Bot Rescue Mission)是一款来自索尼日本工作室的作品，玩家需要控制太空船舰长并搜索自己失散的船员。

yivian 《AstroBot》视觉工作室

351

苹果新专利曝光可通过GPS和视觉识别器来识别车辆

苹果公司每年都会去研发很多专利，但实际上，有很多的专利并没有实施下来。而最近，从美国专利商标局公布的专利申请来看，苹果提交了一项名为“帮助识别到达车辆的增强现实接口”的新专利。

镁客网专利识别器视觉

540

-------------没有了-------------

图赏更多>

: AI生态拐点降临！联发科联合众多巨头启动“天玑智能体化体验领航计划”！

: 告别碎片化开发，Neuron Studio 让AI开发全流程可视化

: 登顶全球运动耳机销量No.1 韶音开放声学技术的现象级破圈之路

: 宜人智科“智语大模型”正式通过备案开启AI科技新征程

: 质效为源匠心共赢创想三维2025年度战略供应商大会在深圳成功举办

: 创想三维十一周年庆典：技术普惠，生态共赢

最热新闻最新新闻 更多>

用户推荐最热产品 更多>

倾城

小新

叶紫

创维电视（SKYWORTH）55V40

小米全面屏电视E43K

康佳（KONKA）55D6S

荣泰S60按摩椅

自媒体头条更多>: 极致听感智能降噪三星Galaxy Buds Pro诠释非同凡“响”

未来科技范试驾摩灵MOi｜视频

品牌专区更多>