生成式AI走进小学生「编程第一课」：画条线生成音乐、草图一秒变大作

　　本文来自于微信公众号机器之心(ID:almosthuman2014)，作者:蛋酱。

　　在经典作品《小王子》中，有这样一幕情节:一个小孩子画下了蛇吞象的样子，他向大人们展示自己的作品，并问他们害不害怕。然而，所有的成年人都说:「一顶帽子有什么可怕的?」

　　但对于充满想象力的孩子来说，这并不是一顶帽子，而是一条正在消化大象的蟒蛇:

　　相信每一位读者都曾被这段情节所打动，这就是艺术创作的精髓所在。对于小朋友来说，即使是几笔简单的线条，也代表着最纯真可爱的想象。

　　比如，简单的几笔涂鸦，为何不能代表光怪陆离的科幻世界?借助 AI 的「画笔」，从灵感到完整作品也不过几秒的时间:

　　再比如，一条随手画出的波浪线，也能变成一段美妙的旋律:

　　这些神奇的「AI 魔法」，都来自于一个名为「腾讯 AI 编程第一课」的小程序。

　　孩子们的「AI第一课」

　　自2022年以来，生成式 AI 热度不减，以 Stable Diffusion、GPT-4、PaLM2为代表的大模型成为了热门关键词，并衍生出文本生成、图像生成、动画制作、视频生成等领域的落地产品，深刻改变了人们的生活方式。

　　不难想象，未来将是 AI 创造更多价值的时代。这个时代对青少年的 AI 认知与计算思维提出了新的要求，但这些「高大上」的技术，对孩子们来说仍然是有距离感的。

　　如何将最前沿的技术以易感知的方式传递给他们，增强青少年对科学技术的兴趣、深化青少年对 AI 领域发展的认知呢?

　　通过剧本式、「玩中学」的方式，腾讯与中国宋庆龄基金会共同发布「AI 编程第一课」公益项目，为全国零基础青少年提供 AI 和编程启蒙小程序平台，首批上线内容结合中国航天、未来交通两项国家重大科技议题，原创趣味探索故事，让青少年在1小时中初识计算思维、AI基本原理、人机协同理念等。

　　开学之际，「腾讯 AI 编程第一课」正式上线。在腾讯音乐天琴实验室的技术支持下，小程序上线了「AI 创作」版块，分为「AI 作曲」和「AI 作画」两个功能，希望能让孩子们体验到最新AI 技术的魅力。

　　今年10岁的静宜(化名)是「腾讯AI 编程第一课」的首批「用户」之一。几天试用下来，最让她好奇的就是「AI 创作」功能的实现原理:

　　「为什么不同的线可以生成不同的曲调?」

　　「曲线如何变成音乐?」

　　「AI 是怎么猜到我心中想画的是什么呢?」

　　这些问题的确令人好奇，所以这款宝藏应用背后有哪些 AI 技术?接下来，让我们一探究竟。

　　从一条线到「宫商角徵羽」的神奇之旅

　　提到 AI 音乐生成，大部分人并不陌生。今年1月，谷歌发布了「MusicLM」，实现了从文本或图像中生成高保真音乐。之后，Meta 开源了可生成各种音频的 PyTorch 库「AudioCraft」，能够基于用户输入的文本生成高质量、高保真的音频，不仅能生成有旋律的音乐，甚至还可以选择乐器。这一系列方法都有一个特点:直接从文本 / 图像生成音频。

　　在「AI 作曲」功能研发过程中，天琴实验室首先对上述方法进行了尝试与评估。他们发现，现有的从文本到音频的音乐生成大模型确实取得了不错的进展，但距离大规模商用还有一个挑战必须解决:采样率低的问题。

　　「音乐的标准采样率为44.1kHz 或48kHz，语音的采样率是16kHz，目前大部分方法生成的音乐只有24kHz 或者32kHz，音质有待提升。」天琴实验室 AI 作曲团队技术人员泽文表示。

　　来自 QQ 音乐负责此次「AI 作曲」功能研发的团队成员都有过音乐创作经历，有人曾担任乐队吉他手，也有人曾是音乐制作人。这些经历让他们对于生成音乐的质量要求更加极致，同时也带来了重要的启发:他们忽然想到，或许可以采用与人类创作过程非常相似的生成方式，以保证音乐的连贯性和高质量。

　　最终，他们决定采用「符号音乐生成」这一技术路线。「从自然语言处理的角度来看，乐符本来就可视为一种语言，不同的是乐谱包含的信息密度比文本更高，还包括旋律、节拍、乐器、流派等。」天琴实验室 AI 作曲技术人员哲旭表示。

　　经过与一线产品团队的交流，技术团队还获得了一个重要洞察:相比于常见的「哼唱识曲」，「画线谱曲」对于青少年来说是更具新鲜感的生成方式，更能引发他们对 AI 的兴趣。

　　在这个设想的推动下，技术团队以「曲线」作为输入，以乐谱转化为音频作为输出，打造出了颇具创意的「AI 作曲」功能。具体来说:

　　第一步是从划线图像到音符的识别。孩子们画线的起伏高低就象征着旋律的变化，界面中的横轴为时间，纵轴对应不同的音符「do re mi sol la」，同时，也对应着中国传统的五音「宫商角徵羽」。

　　第二步是旋律的续写。有了五个音符的组合，AI 就有了灵感，并将其扩展为一段16秒的旋律。模型基于自回归的方式逐个音符进行预测，每个时刻的输入都依赖于上一个时刻的输出，直到生成一段连贯的音乐。

　　第三步就是编曲。编曲模型会分析旋律的节奏、调子、和弦，给旋律加上不同的乐器和节奏，并提供了流行、古典和电子三种编曲风格。

　　第四步是算法渲染，乐谱将被转化为音频。

　　至此，一首完整的音乐就完成了。

　　天琴实验室 AI 作曲负责人 Ethan 表示，符号音乐生成技术的价值远不止于娱乐向、教育向的 C 端产品，更值得期待的是成为高效的音乐人创作工具。从文本直接到音频的过程像一个「黑箱」，而「符号音乐生成」有完整的乐理系统支撑，生成结果也是可编辑的，音乐人可以在生成的乐谱中进行二次创作。

　　这种对于技术落地价值的考量，在天琴实验室的技术探索中是一以贯之的。作为腾讯音乐旗下首个音视频实验室，他们希望真正将 AI 创新技术融入到产品之中，为用户提供高度个性化及差异化的音乐娱乐体验。

　　目前，天琴实验室在 AI 音乐生成的技术积累已经覆盖了作曲、混音、编曲、作词、演唱等全部音乐创作环节。除了提供「作曲、混音、编曲」能力的一站式音乐生成技术「琴乐」，以及AI 辅助作词平台「觅词」。此外，腾讯音乐 AI 伴侣「小琴」和「小天」两款虚拟人产品均已应用于歌曲的智能演唱之中。

　　比如，本次「AI 编程第一课」的主题曲《魔法字符》，就是由腾讯、QQ 音乐、腾讯音乐天琴实验室共同打造的，从作曲到演唱全链路均由 AI 完成。其中，「琴乐」一站式音乐生成技术完成作曲、混音及编曲，「觅词」辅助创作了趣味十足的魔法歌词，虚拟人「小琴」负责最终演绎。

　　与音乐的意义类似，绘画也是一种表达情感的方式。

　　当前，AI 在绘画生成方面的应用已经比较成熟，比如通过文字 Prompt 生成图像的 Stable Diffusion、Midjourney。但用过的人都知道，如何设计 Prompt 也是一大难点，生成结果未必总能「如人所愿」。

　　问题来了:AI 能不能接住小朋友的奇思妙想呢?

　　天琴实验室 AI 作画团队的成员们意识到，对于「AI 作画」功能的用户群体6-12岁的孩子来说，以文字形式去生成图像仍然存在一定的门槛，特别是仅使用文本难以控制生成细节，无法对图片进行细化编辑。

　　因此，他们将目光锁定在一种更能发挥想象力和创造力的方法:线稿成画。

　　在「AI 编程第一课」的「AI 作画」中，不同于传统的「文生图」需要输入非常复杂的 Prompt，用户只需要简单描绘几笔，就能让「草图」变成「精品」。

　　这种方法不仅需要扩散模型强大的生成能力，还需要精确的条件控制方案。「AI 作画」这一功能能够在短时间内顺利上线，很大程度上得益于天琴实验室在图像生成领域的技术积累。

　　从2022年，天琴实验室开始布局生成式 AI 技术，并在 QQ 音乐和全民 K 歌中应用落地，比如直播礼物、歌词海报、歌曲背景图、AIGC 播放器、歌曲封面图等多项功能。对生成图像风格 / 内容的精确控制，一直是天琴实验室在重点研究的方向。

　　比如，「AI 歌曲封面」就是 AI 技术与音乐理解结合的一大成果，为 QQ 音乐曲库中大量封面留空的作品自动生成封面，不仅能够让音乐人和作品的关注度得到提升，更重要的为新上作品提供了降低制作成本的选择。

　　此外，天琴实验室还推出了 AI 音乐视觉生成技术 MUSE(Music Envision)，「以歌生图」能力就是其一大亮点:用户选择一首歌或一段歌词，就可以将歌曲的意境用 AI 技术具象化呈现出来，包括歌词海报、歌词动效视频等视觉内容。

　　这种「意境」与「具象」的转化，在本次「AI 作画」中也有所体现。「小朋友的绘画作品可能会更加写意，对于这种情况，我们专门使用儿童涂鸦和最终成品图进行了搭配训练，为模型定制相关能力以提升最终生成效果。」天琴实验室 AI 作画负责人 Ben 表示。「我们在精确描绘和物体识别之间进行了一种平衡，一方面让草图的线条起到引导作用，另一方面通过简单的线条进行内容本身的识别，同时给到模型一定的自由发挥空间。」

　　而这些成果和经验不只用于腾讯音乐的内部业务，也正在赋能全行业。

　　很多 AI 应用面向的用户数量都比较庞大，这将带来极高的大模型推理成本。对于这个问题，天琴实验室推出了MUSE Light 大模型推理加速引擎，并在 HuggingFace 公开发布了 lyraSD、lyraChatGLM、lyraBELLE 三项开源大模型的加速版本，实践效果均为行业领先，在 B 端助力技术从业者和科研工作者节约时间和成本。

　　在「AI 编程第一课」的研发实践中，MUSE Light 帮助节省了90% 以上的推理成本，使图像的生成加速了10倍，且有效提升了用户体验。

　　此外，团队还观察到:「从草图生成图像的技术已经取得不错的效果，但如果他人想去尝试一件同样的事情，前期会花很多的时间，才能找到比较合用的模型。」

　　为了解决这个痛点，天琴实验室将过往的技术实践经验汇集在AI 绘图创作平台「MUSE UI」之中。该平台融合了 MUSE Light 大模型推理加速等多项行业领先的创新技术，提供了「一键出图」、「模型广场」、「图搜模型」、「动图生成」、「一键定制绘图加速服务」、「多场景绘图应用」等多项功能。借助 MUSE UI，设计师、插画师和其他专业人士将节约更多时间成本并最大程度地提高效率。

　　据了解，经过内部业务实践的检验之后，MUSE UI 平台也将在不久后面向全行业开放。

　　当万物皆可 AI 生成的时代来临

　　这两年来，与生成式 AI 相关的技术创新与应用总能成为热门话题。

　　虽然从内容生产的维度去评价，AI 生成音乐、图像作品的艺术价值还存在诸多争议。但可以期待的是，随着技术的不断发展，现阶段的很多问题将被克服，AI 生成内容的水准必然会有所突破。

　　从生产力发展的角度看，生成式 AI 使得内容生产的门槛不断降低，效率不断提高，这对于各行各业来说都是巨大的变革。例如，使用 AI 生成营销文案，成本仅为人工撰写的几十分之一，且内容更加多样化。

　　可以确定的是，未来的社会生产分工，将会更注重人机协作模式，对人的计算思维能力的培养也更加重要。我们必须适应这种变化，找到自身在新时代的定位，更充分地去感受科技带来的美好。

　　在这种背景下，科学教育理念也需要随之进化。对于今天的青少年来说，他们未必需要过多关注 AI 的底层技术，未必需要一行一行地编写代码，更重要的是先学会如何「Prompt」。

　　对于「AI 编程第一课」的青少年用户来说，这可能是他们的「AI第一课」，也是他们成为智能时代新型人才的起航点。

生成式AI走进小学生「编程第一课」：画条线生成音乐、草图一秒变大作

延展资讯