微速讯：谷歌开发出从文本生成高保真音乐的人工智能，但不计划发布

来源：扬子晚报 | 时间：2023-01-28 15:54:04

人工智能（AI）的发展历程经历过几次热潮，最新一轮即是由DALL-E、ChatGPT等生成式AI引起的热潮。在这一轮，科技巨头们似乎因对伦理相关问题的谨慎，而在与初创公司的竞争中暂落下风。

当地时间1月27日，谷歌公司发布了对AI模型MusicLM的研究，该系统可以从文本描述中生成任何类型的高保真音乐。但因担心风险，谷歌没有立即发布它的计划。“我们强调，需要在未来开展更多工作来应对这些与音乐生成相关的风险——我们目前没有发布模型的计划。”谷歌发布的论文写道。

(相关资料图)

AI生成作曲复杂、保真度高的歌曲

这不是第一个文本生成歌曲的AI系统，此前有爱好者基于Stable Diffusion模型制作的Riffusion，谷歌自己的AudioML和人工智能研究机构OpenAI的Jukebox等项目也都可以从文字生成音乐。然而，MusicLM的模型和庞大的训练数据库（280000小时的音乐）使其能制作出作曲特别复杂或保真度特别高的歌曲。

MusicLM不仅可以结合流派和乐器，还可以使用计算机通常难以掌握的抽象概念来编写曲目。比如“一种舞曲和雷鬼音乐的混合体，其曲调空旷、超凡脱俗，能唤起惊奇和敬畏之感”，MusicLM就可以实现。

谷歌研究人员表明，该系统可以建立在现有旋律的基础上，无论是哼唱、演唱、吹口哨还是在乐器基础上演奏。此外，MusicLM有一个“故事模式”来编程特定时间的风格、氛围和节奏的转变，比如可以采用几个按顺序编写的描述“冥想时间”、“醒来时间”、“跑步时间”来创建一种“故事”叙事旋律。

MusicLM 也可以通过图片和标题的组合来指导、生成相应风格的音乐。

与许多AI生成器一样，MusicLM也有它的问题，有些作品听起来很奇怪，或者人声往往难以理解。这是因为，MusicLM虽然在技术上可以生成人声，包括合唱和声，但大多数“歌词”内容能勉强听出是英语或听不出是什么语言，由合成声音演唱，听起来像是几位艺术家声音的融合。

AI生成音乐或侵犯版权法

研究人员发布了MusicCaps数据集，包含超过5500个成对组成的音乐文本数据集，其中有由人类专家提供的丰富文本描述。该数据集已公开发布，以“支持进一步研究”。同时，研究人员在论文中承认了与音乐生成相关的风险，即创意内容的盗用。

谷歌的研究员在一次实验中发现，该系统生成的音乐中约有1%是直接复制自其训练的歌曲。假设有一天MusicLM或类似的系统可用，似乎不可避免地会出现重大法律问题，即使这些系统被定位为辅助艺术家创作而不是取代他们的工具。

实际上目前已经有了相关案例。2020年，美国说唱歌手Jay-Z的唱片公司对YouTube频道Vocal Synthesis提出版权警告，理由是它使用AI创作了Jay-Z翻唱比利·乔尔（Billy Joel）的“We Didn"t Start the Fire”等歌曲。

美国音乐出版商协会的埃里克·桑雷 (Eric Sunray) 撰写的一份白皮书认为，像MusicLM这样的AI音乐生成器通过“从训练数据库中吸收作品中连贯的音频，侵犯了美国版权法的复制权”。

随着OpenAI的Jukebox发布，批评者也质疑在受版权保护的音乐材料上训练AI模型是否合理。图像、代码和文本生成AI系统都已经让人产生了类似的担忧，它们的训练数据通常是在创作者不知情的情况下从网络上收集的。

目前，几个有关生成式AI的诉讼案正在进行中。微软、GitHub和OpenAI在一项集体诉讼中被指控允许Copilot违反版权法，Copilot是GitHub推出“AI程序员”插件，可以根据输入的部分代码或注释自动生成完整的代码。

流行的AI绘画工具背后的两家公司Midjourne和Stability AI也正处于一起法律案件审理中，被指控通过在网络抓取的图像上训练其工具，侵犯了数百万艺术家的权利。

科技巨头落于下风，初创公司成领导者

对于生成式AI系统，一些人工智能伦理学家担心，在信任和安全专家进行研究之前，大型科技公司急于进入市场可能会使数十亿人面临潜在危害，如分享不准确的信息、生成假照片或让学生有能力在学校考试中作弊。

“我们相信人工智能是基础性的变革性技术，对个人、企业和社会都非常有用，我们需要考虑这些创新可能产生的更广泛的社会影响。我们继续在内部测试我们的AI技术，以确保它有用且安全。”谷歌发言人林莉莉（Lily Lin）说。

科技巨头们在面对风险时的谨慎，似乎已使其在与初创公司的竞争中落于下风。

美国佐治亚理工学院（Georgia Institute of Technology ）计算机教授和机器学习专家马克里·德尔（Mark Riedl）在接受《华盛顿邮报》采访时表示，“ChatGPT的底层技术不一定比谷歌和Meta开发的技术更好，但OpenAI发布其语言模型供公众使用的做法给了它一个真正的优势。”

在过去约一年里，谷歌的顶级AI研究人员纷纷离职，围绕大型语言模型创办了初创公司，包括Character.AI、Cohere、Adept、Inflection.AI和Inworld AI。此外，使用类似模型的搜索初创公司正在开发聊天界面，例如由前谷歌高管斯里达尔·拉马斯瓦米（Sridhar Ramaswamy）运营的Neeva。

在“谷歌大脑（Google Brain）”工作了三年的尼克·弗罗斯特（Nick Frosst）说，像谷歌和微软这样的大公司通常专注于使用人工智能来改进他们庞大的现有商业模式。“这个领域发展得如此之快，对我来说，领先者是较小的公司并不奇怪。”

标签：

微速讯：谷歌开发出从文本生成高保真音乐的人工智能，但不计划发布

图片推荐