根据最新报道,用于训练Midjourney的生成式人工智能(AI)程序的艺术家数据库已泄露,引起社交媒体和艺术界的广泛争议。泄露的名单中包括一些知名艺术家,如Banksy、David Hockney等。
VCoder是一个视觉编码器,旨在提高多模态语言模型(MLLM)在识别图像中的对象和理解图像场景方面的能力。它能够帮助模型更好地理解和分析图像内容。
微软公司的研究团队最近提出了一种独特且简单的方法,用于生成高质量的文本嵌入。这种新方法仅使用合成数据和极少的训练步骤(少于1,000步),就取得了令人瞩目的成果。
CoMoSVC是一种能够将一个人的歌声转换成另一个人的歌声的创新技术。这个项目是由香港大学和微软亚洲研究员共同开发的,它在高质量音频转换和快速处理速度之间找到了平衡,是语音转换领域的重大进步。
MetaAI最近发布了一项引人注目的技术,他们成功地开发出一种能够从音频中生成逼真的虚拟人物形象的系统。
悉尼科技大学的科研人员,通过大语言模型、EEG(大脑活动检测工具)、脑机接口等技术,开发了一个可自动读取人类想法,并转化成文本的AI大模型——DeWave。
Pile是一款非常整洁美观的开源AI日记软件。它不仅可以帮助你撰写和保存日记条目,记录你的思考和经历,还可以作为备忘录使用。Pile内置了OpenAI的API功能,让你可以通过写下提示词来扩展你的想法和日记内容。
利用人工智能来合成视频一直是该领域的难题,因为其中最关键的一环——映射与合成,缺乏优秀的模型算法,只能利用卷积神经网络(CNN)和生成对抗网络(GAN)来不断提取特征、生成、判断,直至最后结果。
随着三星即将于1月17日推出Galaxy S24系列,一场以人工智能为主题的“移动新时代”正式拉开序幕。在最新的预告片中,三星通过回顾自家手机的历史,强调了其在塑造手机演进方面的关键作用。
图像修复一直是一个备受研究者关注的复杂挑战,其主要目标是在维持降质输入的感知质量的同时,创建视觉上吸引人且自然的图像。在没有有关主题或降质的信息的情况下(盲目恢复),了解自然图像范围至关重要。
-------------没有了-------------