以假乱真，天工音乐大模型带来颠覆式 AI 体验

2024/4/3 10:36:32 来源：之家网站作者：- 责编：-

评论：

昨日，昆仑万维 AI 音乐生成大模型「天工 SkyMusic」开启了免费邀测活动，诚邀媒体、行业专家以及感兴趣的音乐从业者们共同体验人声情感表达 SOTA 的音乐大模型产品。

邀测开始后，广大用户对「天工 SkyMusic」AI 音乐生成大模型的热情远超我们的预期，工作人员在极短时间内收到了几十万份测试申请，其中包括众多专业的音乐创作人、媒体及行业专家，还有大量测试申请被源源不断地发至后台。

同时，我们也收到了大量来自用户的真实反馈与高度评价：

“人声很清晰抒情旋律也好”

“好听！”

“这是天工做的？？太厉害了！”

“《悟空》这首歌是演唱气息感的，感情很到位，基本上代表了生成情感以假乱真的能力巅峰之作”

“天工 SkyMusic 在高音演唱技巧上超出我的想象，非常优秀。”

“太强了，1、AI 音乐用户群体非常大；2、生成的音乐可以反复使用；3、很容易做社交裂变”

“副歌部分真丝滑，Beat 真好”

“没想到中国团队做的东西比国外的好”

广大用户的热情反馈既然让我们看到了行业对于「天工 SkyMusic」AI 音乐生成大模型的高度期待，也让我们看到了在以“智力”为主的 AGI 大模型探索方向中，“情感 AGI”的重要意义。

相比文本和图片，音频内容是理解人类情感最好的方式，而音乐又是人类情感表达最充沛、最不受地域和文化限制的内容载体，不论时代变幻，不论是战争还是灾祸，人们总是能通过音乐传递自己的感受并获得情感的慰藉。这是「天工 SkyMusic」的创作初衷，也是昆仑万维情感 AGI 持续探索的重要方向。

我们感谢所有积极参与并热情反馈的用户们，感谢你们的支持、鼓励与陪伴，我们将持续迭代、优化、拓宽「天工 SkyMusic」的能力边界，让模型具备更强的多模态情感理解与表达能力，为用户带来更优质的 AI 音乐体验。

最后，我们将很快给出「天工 SkyMusic」音乐创作 Prompt 指南，并提供更多的 AI 音乐 Demo 与使用技巧，与用户一同探索 AI 音乐的强大魅力！

关于「天工 SkyMusic」与「天工 3.0」

「天工 SkyMusic」AI 音乐生成大模型基于昆仑万维「天工 3.0」超级大模型打造。4 月 17 日，「天工 SkyMusic」将随「天工 3.0」同步开启公测。

申请网页：https://rg975ojk5z.feishu.cn/share/base/form/shrcnTcBRpGzv5Sx9xAGd5V97Md

「天工 3.0」采用 4 千亿级参数 MoE 混合专家模型，并将同步选择开源，是全球模型参数最大、性能最强的 MoE 模型之一。相较于上一代「天工 2.0」MoE 大模型，「天工 3.0」在模型语义理解、逻辑推理、以及通用性、泛化性、不确定性知识、学习能力等领域拥有惊人的性能提升，其模型技术知识能力提升超过 20%，数学 / 推理 / 代码 / 文创能力提升超过 30%。同时，「天工 3.0」新增了搜索增强、研究模式、调用代码及绘制图表、多次调用联网搜索等能力，并针对性地训练了模型的 Agent 能力，使得「天工 3.0」能够独立完成规划、调用、组合外部工具及信息，以精准高效地完成产业分析、产品对比等各类复杂需求，带来全新的颠覆式人工智能体验。

「天工 SkyMusic」是目前国内首款且唯一公开可用的 AI 音乐生成大模型，其采用音乐音频领域类 Sora 模型架构，Large-scale Transformer 负责谱曲，来学习 Music Patches 的上下文依赖关系，同时完成音乐可控性；Diffusion Transformer 负责演唱，通过 LDM 让 Music Patches 被还原成高质量音频，使得「天工 SkyMusic」能够支持生成 80 秒 44100Hz 采样率双声道立体声歌曲。这套模型架构在处理视频、音频和音乐领域效果极佳。昆仑万维团队也将在后续逐步迭代和添加新的能力，让模型具备多模态的情感理解与表达能力。

「天工 SkyMusic」测试申请网页：https://rg975ojk5z.feishu.cn/share/base/form/shrcnTcBRpGzv5Sx9xAGd5V97Md

「天工 SkyMusic」具有以下五大特点：

1.高质量 AI 音乐

「天工 SkyMusic」能够生成 80 秒 44100Hz 采样率双声道立体声 AI 歌曲，并可根据用户输入的歌词风格生成对应歌曲风格。

2.人声“以假乱真”

人声合成是 AI 音乐生成中最重要、最能体现生成效果和品质的维度。「天工 SkyMusic」的 AI 人声合成能够达到业内顶尖的 SOTA 水平，中文水平极为优秀，发音清晰、无异响。其中文演唱效果更是显著好于国外产品，领先世界水平。

3.歌词段落控制

「天工 SkyMusic」能够通过歌词来控制歌曲，让生成的歌曲可以明确分辨出不同歌词段落的情绪变化，体现出主歌和副歌、前奏和主歌的段落差异。

4.多种音乐风格

「天工 SkyMusic」支持说唱、民谣、放克、古风、电子等多种音乐风格，用户在创作音乐时，可以通过参考音频制定想要的音乐风格。

5.音乐智能表达-歌唱技巧学习

「天工 SkyMusic」同时能够学习如颤音、歌剧、吟唱、男女对唱，自动和声等多种歌唱技巧，让用户创作的歌曲得到更恰当的情感表达。

2023 年，昆仑万维在“All in AGI 和 AIGC”的战略推动下，在人工智能领域取得了许多进展，逐步形成了 AI 大模型、AI 搜索、AI 音乐、AI 动漫、AI 社交、AI 游戏等 AI 业务矩阵。

当前，昆仑万维已打造了集 AI 搜索、AI 写作、AI 长文本阅读、AI 对话、AI 语音合成、AI 图片生成、AI 漫画创作、AI 图片识别、AI 音乐生成、AI 代码写作、AI 表格生成等多项能力于一体的「天工 3.0」多模态“超级模型”（Super Model），成为 AI 行业全新里程碑。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

下载IT之家APP，签到赚金币兑豪礼

以假乱真，天工音乐大模型带来颠覆式 AI 体验

相关文章