精密仪器系类脑计算研究团队聚焦类脑视觉感知芯片技术,提出了一种基于视觉原语的互补双通路类脑视觉感知新范式。该范式借鉴人类视觉系统的基本原理,模仿人类视觉系统的特征,形成两条优势互补、信息完备的视觉感知通路。
AI界近日迎来了一项重大突破,一款名为Llama3-V的全新开源视觉大语言模型正式亮相。据称,Llama3-V基于Llama38B和siglip-so400m构建,被业界誉为最先进的视觉大语言模型之一。
近期提出的 VisionLLaMA 架构在视觉任务领域取得了突破性进展。该架构致力于解决视觉和语言模态之间的架构差异,通过引入类似于 LLAMA 的统一接口,将视觉任务推向了一个新的高度。
在科技领域,类人机器人Ameca的最新进化令人瞩目。通过拥有视觉能力和多模态AI功能,Ameca不仅能够观察周围环境,还能模拟人类的情感和反应。这种进化背后涉及了多领域技术的融合,包括语言模型、图像生成和语音识别等。
1月25日 消息:根据 MIT 计算机科学与人工智能实验室的研究,人工智能对打工人的淘汰速度可能比人们想象中的要慢得多。这是因为对于企业来说,视觉 AI 实在是太贵了。在绝大多数情况下,人力成本要比采用自动化更便宜。
1月20日,凭借独特的美学价值、扎实的场景能力,美图自研AI视觉大模型MiracleVision(奇想智能)被评为“年度技术突破新物种”。
Vision Mamba 是一种新的视觉模型,通过引入状态空间模型(SSM)来进行视觉建模,并在 ImageNet 分类、COCO 对象检测和 ADE20k 语义分割任务上实现了更高的性能。
斯坦福大学的研究人员利用维基百科数据训练了一个大模型,命名为WikiChat,通过优化和改进,成功解决了大模型的幻觉问题,并在事实准确性和其他指标上表现优秀。
1月2日,美图公司自研AI视觉大模型MiracleVision(奇想智能)通过《生成式人工智能服务管理暂行办法》备案,将面向公众开放。
1月2日,美图公司自研AI视觉大模型MiracleVision(奇想智能)通过《生成式人工智能服务管理暂行办法》备案,将面向公众开放。
智谱 AI 开源了 CogAgent,它是一个视觉语言模型,拥有180亿参数规模。该模型在 GUI 理解和导航方面表现出色,在多个基准测试上取得了 SOTA 的通用性能。
研究人员推出了一种新的视觉提示方法 Set-of-Mark(SoM),它可以让 OpenAI 多模态大模型 GPT-4V 在视觉内容理解方面有了质的提升。
8月3日,美图创始人、董事长兼CEO吴欣鸿参加第四届中国人工智能大赛成果发布会。在会上,吴欣鸿透露,目前美图自研视觉大模型已迭代到1.5版本,并应用于美图旗下多款产品。
在2017年时,苹果曾推出基于Core ML的计算机视觉框架Vision,就像它名字里暗示的那样,计算机视觉也是Vision Pro头显的重要功能之一。
日本视觉艺术家AUTO MOAI将日本精工5运动手表作为最新作品的画布,这两件限量版的作品带有艺术家的无脸人物图案。
从与歌尔合作发布的XR1参考设计到刚刚结束的Qualcomm & Pico XR创新应用大赛奖,高通一直在积极地探索沉浸式领域。
2019年01月25日,斩获TGA最佳VR游戏的《宇宙机器人:搜救行动》(Astro Bot Rescue Mission)是一款来自索尼日本工作室的作品,玩家需要控制太空船舰长并搜索自己失散的船员。
苹果公司每年都会去研发很多专利,但实际上,有很多的专利并没有实施下来。而最近,从美国专利商标局公布的专利申请来看,苹果提交了一项名为“帮助识别到达车辆的增强现实接口”的新专利。
2018年12月03日,漫步月球的宇航员已经有足够的危险情况需要面对。过低的重力,极端的温度,辐射,整个区域都是尘土满溢。如果这还不够,我们用来感知深度和距离的视觉感知线索并不按照地球的规则运作,所以人类的眼球可以变成“
11月29日消息,据The Verge报道,Instagram宣布正式推出AI图片描述功能,用于帮助视觉障碍用户也可以轻松使用这款应用。
-------------没有了-------------