AI改动口音、组成史无前例声响NVIDIA推新模型“Fugatto”

来源：斯诺克直播大厅发布时间：2024-12-22 14:46:44

NVIDIA开发全新生成式AI模型“Fugatto”，以文本和音频输入来发明声响、对话及音乐。

点击咨询

订购热线：0755-28815622

产品描述

NVIDIA开发全新生成式AI模型“Fugatto”，以文本和音频输入来发明声响、对话及音乐。

Fugatto（全名为Foundational Generative Audio Transformer Opus 1）运用文本和音频文件，将提示描绘转化成声响、对话及音乐的恣意组合。可根据文本提示发生一段音乐，从现有歌曲独立出人声部分，改动说话的口音或口气，乃至组成史无前例的声响。

NVIDIA枚举Fugatto的运用场景，例如音乐制造人可用Fugatto加快歌曲制造，测验不相同的风格、声响及乐器，还能增加音效、提高现有歌曲全体音频质量。

面临不相同的区域和商场的宣扬需求，广告公司可用Fugatto发生不同口音或口气的广告配音。言语学习东西可以个性化，运用用户挑选的声响来发音。还有电玩游戏开发者也能用Fugatto修正预先录制的声响数据，对应玩家游戏时一直在改变的动作，或许根据文本提示和可选音频发生新的声响财物。

“咱们期望创立一个可以像人类相同了解和生成声响的模型”，NVIDIA运用音频研讨司理Rafael Valle表明，他是开发Fugatto十多人团队的成员之一，一起也是一位管弦乐作曲家与指挥家。“Fugatto是咱们迈向未来的第一步，音频组成和转化中的无监督多使命学习将根据数据和模型规划而发生”，他说。

Fugatto创立在开发团队从前在语音建模、音频声码及音频了解等范畴的作业基础上，声称以开源数据来进行练习。完好版别运用25亿参数，并在一组包含32个NVIDIA H100 Tensor Core GPU的DGX体系练习而成。

这项开发作业最困难的部分是发生一个混合数据集，包含数百万个用于练习的音频样本。开发团队选用多面向战略来发生数据和指令，扩展该模型可执行的使命规模，做到更精确的功能，一起无需额定数据就能完结新使命。

在推理过程中，Fugatto运用名为ComposableART的技能，以组合只在练习期间独自看到的指令，这方面详细运用如要求Fugatto用法国口音说出带有哀痛心情的文本。

值得一提的是，Fugatto由来自国际各地的成员合力研讨，包含印度、巴西、我国、约旦及韩国，我们通力合作使Fugatto多言语和多口音才能变得更强。

尽管Fugatto没有敞开测验，NVIDIA深度学习运用研讨副总裁Bryan Catanzaro则以为，生成式AI将为音乐、电玩游戏及想要发明新事物的一般人带来新才能。

特别声明：以上内容(如有图片或视频亦包含在内)为自媒体渠道“网易号”用户上传并发布，本渠道仅供给信息存储服务。

卡鲁索期望能与雷霆对话赶快完结续约，他下一份合同估计年薪在2000万左右

马斯克特朗普阻挠拜登政府预算案，美政府行将关门？希拉里：国际首富想让贫困家庭失掉福利

20年之耻！59岁弗里克跌下神坛：7轮1胜，41天丢16分行将掉到第3

《编码物候》展览开幕北京年代美术馆以科学艺术解读数字与生物交错的世界节律

产品中心

最新资讯

产品中心

AI改动口音、组成史无前例声响NVIDIA推新模型“Fugatto”

产品描述

相关产品

0755-28815622