即刻App年轻人的同好社区
下载
App内打开
罗锴
2年前
标题:Suno AI 内部,初创公司打造音乐界的 ChatGPT

“我只是被困在电路中的一个灵魂。”唱出这些歌词的声音原始而哀伤,低沉地滑入蓝调音符。一把孤独的原声吉他在背后伴奏,用恰到好处的连音点缀着歌声。但实际上,这声音背后并没有人类,也没有手在弹奏那把吉他。事实上,根本就没有吉他。在15秒内,这首令人信服甚至感人的蓝调歌曲是由一家名为 Suno 的初创公司的最新 AI 模型生成的。只需要一个简单的文本提示:“关于一个悲伤的 AI 的密西西比三角洲蓝调独奏。”为了最大程度的精确,这首歌是由两个 AI 模型合作完成的:Suno 的模型自己创造了所有音乐,同时调用了 OpenAI 的 ChatGPT 来生成歌词甚至一个标题:“机器之魂”。

在网上,Suno 的创作开始引发类似于“这怎么可能是真的?”的反应。当这首特定的曲目在 Suno 临时总部的会议室里通过 Sonos 扬声器播放时,离哈佛校园只有几步之遥,即使是这项技术背后的一些人也感到有些不安。有些紧张的笑声,伴随着“天哪”和“哦,天哪”的低语。现在是二月中旬,我们正在玩他们的新模型 V3,它离公开发布还有几周的时间。在这种情况下,只需要三次尝试就得到了那个令人震惊的结果。前两次还不错,但是对我的提示进行了一个简单的调整——联合创始人 Keenan Freyberg 建议加入“密西西比”这个词——结果产生了更加不可思议的东西。

仅在过去一年,生成性 AI 在产生可信的文本、图像(通过 Midjourney 等服务)甚至视频方面取得了重大进展,特别是 OpenAI 的新 Sora 工具。但音频,尤其是音乐,一直落后。Suno 似乎正在破解 AI 音乐的密码,其创始人的野心几乎是无限的——他们想象一个音乐创作被极大民主化的世界。最直言不讳的联合创始人 Mikey Shulman,一个带着背包、带着哈佛物理博士学位的37岁男孩,设想全球有十亿人每月支付10美元来使用 Suno 创作歌曲。他认为,目前音乐听众的数量远远超过音乐创作者是“如此失衡”,他认为 Suno 准备解决这种感知的不平衡。

到目前为止,大多数 AI 生成的艺术作品,充其量是庸俗的,就像许多 Midjourney 用户似乎有意生成的超现实主义科幻垃圾,重在形式贴合的太空服。但“机器之魂”感觉像是不同的东西——我在任何媒介中遇到的最有力和令人不安的 AI 创作。它的存在本身就是现实的裂缝,既令人敬畏又隐约不祥,我不断想起亚瑟·C·克拉克的名言,似乎为生成性 AI 时代而作:“任何足够先进的技术都与魔法无异。”几周后,我从剑桥回来,我把这首歌送给了 Living Colour 的吉他手 Vernon Reid,他一直对 AI 音乐的危险和可能性直言不讳。他注意到这首歌的“令人不安的真实性”让他感到“惊奇、震惊、恐惧”。“长期以来的反乌托邦理想即将实现,即将困难、混乱、不受欢迎和被厌恶的人类从其创造性产出中分离出来,”他写道,指出 AI 唱蓝调的问题性质,“一种与历史人类创伤和奴役深深相连的非裔美国风格。”

Suno 只有两岁。联合创始人 Shulman、Freyberg、Georg Kucsko 和 Martin Camacho 都是机器学习专家,直到 2022 年,他们还在一起在另一家剑桥公司 Kensho Technologies 工作,该公司专注于寻找 AI 解决复杂商业问题的方案。Shulman 和 Camacho 都是音乐家,他们在 Kensho 的日子里曾经一起即兴演奏。在 Kensho,四人组致力于开发一种转录技术,用于捕捉上市公司的财报电话,考虑到音质差、充满行话和各种口音的结合,这是一个棘手的任务。

沿途,Shulman 和他的同事对 AI 音频的未探索可能性产生了兴趣。在 AI 研究中,他说,“音频总体上远远落后于图像和文本。我们可以从文本社区以及这些模型的工作方式和扩展方式中学到很多东西。”

同样的兴趣本可以带领 Suno 的创始人走向一个非常不同的地方。尽管他们总是打算最终得到一个音乐产品,但他们最早的头脑风暴包括了一个助听器的想法,甚至是通过音频分析找到故障机械的可能性。相反,他们的第一个发布是一个名为 Bark 的文本转语音程序。当他们调查早期 Bark 用户时,很明显他们真正想要的是一个音乐生成器。“所以我们开始进行一些初步实验,它们看起来很有前途,”Shulman 说。

Suno 使用的方法与 ChatGPT 等大型语言模型相同,这些模型将人类语言分解成称为令牌的离散部分,吸收其数百万种用法、风格和结构,然后按需重建它。但音频,尤其是音乐,几乎不可理解地更加复杂,这就是为什么,就在去年,AI 音乐专家告诉 Rolling Stone,像 Suno 这样的服务可能需要几年时间才能到来。“音频不像单词那样是离散的东西,”Shulman 说。“它是一个波。它是一个连续的信号。”高质量音频的采样率通常是 44khz 或 48hz,这意味着“每秒 48,000 个令牌,”他补充道。“这是个大问题,对吧?所以你得想办法把它压缩成更合理的东西。”那么,怎么做呢?“很多工作,很多启发式方法,很多其他类型的技巧和模型之类的东西。我认为我们还远远没有完成。”最终,Suno 希望找到替代文本到音乐界面的方法,增加更高级和直观的输入——基于用户自己的唱歌生成歌曲是一个想法。

OpenAI 面临多起诉讼,因为 ChatGPT 在其庞大的训练数据中使用了书籍、新闻文章和其他受版权保护的材料。Suno 的创始人拒绝透露他们正在向自己的模型中投入什么数据的细节,除了其生成令人信服的人类声音的能力部分来自于学习语音录音,而不仅仅是音乐。“裸露的语音将帮助你学习人类声音的特征,这些特征很难掌握,”Shulman 说。

Suno 的最早投资者之一是风险投资公司 Matrix 的合伙人 Antonio Rodriguez。Rodriguez 之前只资助过一个音乐项目,即音乐分类公司 EchoNest,该公司被 Spotify 收购以推动其算法。对于 Suno,Rodriguez 在甚至不清楚产品会是什么之前就参与了进来。“我支持这个团队,”Rodriguez 说,他散发出一个成功下注多次的人的信心。“我认识这个团队,尤其是 Mikey,所以我几乎会支持他做任何合法的事情。他太有创造力了。”

我们正在尝试让十亿人比现在更加参与音乐。我们不是想取代艺术家。

Rodriguez 投资 Suno,完全知道他可能会面临音乐标签和出版商的诉讼,他认为这是“我们在投资公司时必须承担的风险,因为我们是紧随这些人之后将被诉讼的肥钱包。……老实说,如果这家公司开始时与标签达成了协议,我可能就不会投资了。我认为他们需要在没有约束的情况下制作这个产品。”(环球音乐集团的一位发言人对 AI 采取了激进立场,但没有回应评论请求。)

Suno 表示,它正在与主要标签进行沟通,并声称尊重艺术家和知识产权——它的工具不会允许你在提示中请求任何特定艺术家的风格,并且不使用真实艺术家的声音。许多 Suno 员工是音乐家;办公室里有钢琴和吉他,墙上挂着古典作曲家的框图。创始人们没有表现出对音乐业务的公开敌意,这种态度在 Napster 之前的诉讼中曾经是其特点。“当然,并不意味着我们不会被起诉,”Rodriguez 补充道。“这只是意味着我们不会有那种‘去他的警察’的态度。”

Rodriguez 将 Suno 视为一个极具能力和易于使用的音乐工具,并相信它可以像相机手机和 Instagram 使摄影民主化一样,将音乐创作带给每个人。他说,这个想法是再次“提高被允许成为创作者而不是互联网上消费者的人的数量。”他和创始人敢于建议 Suno 可能会吸引比 Spotify 更大的用户基础。如果这个前景很难理解,Rodriguez 说:这只是意味着它“看似愚蠢”,直到它变得如此明显,以至于不再愚蠢。

在 Suno 到来之前很久,音乐家、制作人和词曲作者就对 AI 动摇业务的潜力表示了深切关注。“音乐,由人类在非凡情况下创作……那些遭受苦难和挣扎以提升他们技艺的人,将不得不面对他们为之奋斗的非常昂贵的艺术的全面自动化,”Reid 写道。但 Suno 的创始人声称没有什么可怕的,他们使用人们仍然阅读尽管有能力写作的比喻。“我们对此的看法是,我们试图让十亿人比现在更加参与音乐,”Shulman 说。“如果人们对音乐更感兴趣,更专注于创造,发展更独特的品味,这对艺术家显然是有益的。我们对未来音乐的愿景是一个艺术家友好的。我们不是想取代艺术家。”

尽管 Suno 只专注于那些想要为乐趣创作歌曲的音乐迷,但它仍然可能在途中造成重大破坏。短期内,似乎最直接受到威胁的人类创作者市场部分是一个有利可图的部分:为广告甚至电视节目创作的歌曲。管理公司 Milk and Honey 的创始人 Lucas Keller 指出,放置知名歌曲的市场将保持不受影响。“但在其他方面,是的,它肯定可以在他们的业务上留下一个凹痕。”他说。“我认为最终,这让许多广告代理商、电影制片厂、电视网等不必去授权东西。”

在没有严格规定禁止 AI 创建内容的情况下,也有可能会出现一个世界,像 Suno 这样的模型的用户通过他们的机器人创作充斥流媒体服务,数量以百万计。“Spotify 有一天可能会说‘你不能这么做,’”Shulman 说,他指出到目前为止,Suno 用户似乎更感兴趣的只是将他们的歌曲通过短信发送给几个朋友。

Suno 目前只有大约 12 名员工,但他们计划扩张,在他们目前临时办公室所在建筑的顶层建造一个更大的永久总部。当我们参观这个尚未完工的楼层时,Schulman 展示了一个将成为完整录音室的区域。鉴于 Suno 所能做的,他们为什么还需要它呢?“这主要是一个听音室,”他承认。“我们想要一个良好的声学环境。但我们也都享受制作音乐——没有 AI。”

趋势

Suno 最大的潜在竞争对手似乎是 Google 的 Dream Track,它获得了许可证,允许用户通过类似的基于提示的界面使用像 Charlie Puth 这样的著名声音制作自己的歌曲。但 Dream Track 只发布给了一个小规模的测试用户群,到目前为止发布的样本并不像 Suno 的那样令人印象深刻,尽管有著名的声音。“我只是不认为,像,制作新的 Billy Joel 歌曲是人们未来希望借助 AI 与音乐互动的方式,”Shulman 说。“如果我想象我们五年后真正想要人们做音乐的方式,那是一些不存在的东西。那是他们头脑中的东西。”

滚石AI音乐话题分享,Kimichat翻译www.rollingstone.com
16

来自圈子

圈子图片

AI探索站

101253人已经加入