今年来LLM的飞速发展,基于LLM底座的各种垂类应用层出不穷,建立在LLM对世界高维语义信息的强劲理解下,各类Agent得以赋能,创造出各种难以想象的惊艳能力。这让我们发现,如今正处在时代快速变化的背景——不会使用AI,你就有可能被社会淘汰。就在行文的昨天,Google推出了Gemini Lyria 3,赋能AI音乐创作,正巧春节期间有空,我就作为一个不懂音乐的Kpop爱好者,看看能不能在很短时间上手Gemini Lyria 3创建出我们想要的音乐。

注意,本文只是笔者的闲聊杂谈,深度不高,只适合同样和我一样喜欢vibe使用AI的读者。如果您是一个期望深度阅读与专业化学习的读者,可以关闭本页,避免浪费时间。

去你的prompt

良好的开端是成功的一半。对于很多对AI各类垂类应用稍有兴趣的人,往往最大的壁垒是最开始Prompt的构建。

我们当然可以很轻松搜索到Google官方对Lyria3的Prompt指南:点击跳转

然而,即使网页已经做的足够美观,仍然有个方面的挑战:

  • 页面太长
  • 英文阻碍

大家可以直接点击进入Prompt Guide查看。我们在此之前,的确第一步要克服阅读指南的心理抗拒(也许对你来说是水到渠成的事)。
简单而言我们扫一眼可以知道要想使用好Lyria3我们可以这么构造Prompt:

  • 简单提示 (Simple Prompts):直接输入基本请求(如“一首摇滚乐”),并指定歌词主题或人声风格。
  • 图像转音乐 (Image-to-music):上传照片或艺术作品,Lyria 会根据画面中的人物、地点和动作捕捉情绪,并以此生成匹配的音乐。
  • 结构化详细提示 (Detailed Prompts):通过细化音乐的专业维度(如速度、动态、乐器)来获得更精准的控制。
    Well done!我们只要知道一句话就可以创建prompt即可。毕竟对于我们初上手的新手而言,对于结构化的prompt、曲风、节奏、乐器等等不会非常了解,甚至连这些名词的举例都比较困难。

第一步:一句直白的话作为第一个Prompt

对于初学者来说,我们甚至不知道喜欢的歌是什么风格的、包含什么音乐元素。

Anyway,无需多言!我们直接构建一个想要的Prompt。比如对于我来说,习惯了Kpop的舞曲。那么我直接上prompt:

一首轻快活泼的元气女团kpop歌曲,类似twice风格的舞曲。充满活力与阳光

可见Gemini会在生成音乐之前给出一些回答,告诉你其思考的音乐的基本构成。如808贝斯、合成器音色、verse、副歌,为了比较准确你也可以上传一首歌先让Gemini分析,或者直接告诉你想作为参照的歌手,这样对于一些大众歌手Gemini能够理解其常见的曲风,此时对歌曲就得到了一些描述:

歌曲从充满动感的 Verse 开始,并在 10 秒左右迅速推向一个充满力量感的大合唱副歌。歌词采用了韩语与英语交织的经典 K-pop 风格,由充满自信的说唱和清亮的高音主唱共同演绎,整体氛围非常轻快活泼。

这时候你就可以对你喜欢的风格有一个基本描述了。

第二步:组建初步Prompt

根据上一步你生成到了一个非常vibe的AIGC音乐,我们可以收听并且大概有一个直观的判断。这里的感性认识是非常重要的,多少的文字描述都不如你亲自听十几秒。
我们就可以根据上一个AI的回答这样构建Prompt:

一首轻快活泼的元气女团kpop歌曲,类似twice风格的舞曲。充满活力与阳光。
融合了现代的 808 贝斯、跳跃的合成器音色以及极具感染力的副歌,节奏轻快。
歌曲从充满动感的快节奏 Verse 开始,并在 10 秒左右迅速推向一个充满力量感的大合唱副歌。歌词采用了韩语与英语交织的经典 K-pop 风格,由充满自信的说唱和清亮的高音主唱共同演绎,整体氛围非常轻快活泼。

可见就是摘抄第一次回答微调了一下Prompt,我们可以听听效果。

是不是有点感觉了?后面我们也可以按需求慢慢微调。这时候我还学到了一种风格,就是歌手唱几秒,欢快洗脑的BGM播放几秒重复的感觉,这时候你可以问问AI可以知道是一种音乐表示手法:

如果你真的很喜欢这种音乐表达形式,你可以直接融入到你的Prompt。

第三步:让AI给你构建结构化Prompt

上一步经过微调我们差不多了解了你自己喜欢的曲风、节奏等等的一些专业名词,可能也采样到了一些音乐表现形式,我们这时候就可以让AI给你写结构化Prompt了。
比如,我直接上传了上一步生成的比较满意的结果到Gemini,提问并让他直接输入一个可以直接输入给他的结构化Prompt:

这个视频的track是你刚刚创作的,但是我并不了解音乐的相关信息。请你分析你创作的这个track,给我拆解一下这个音乐的音乐风格、氛围、乐器、节奏。
并根据我之前的prompt做出修改 直接输出一个以符合你创作要求的prompt

那么他后续就给我拆解出了我中意的曲风的音乐术语,让我们更好的学习(生命在于学习,所谓的Vibe也要建立在提供一定语义信息的基础上~)。

通过不断修正和调整,我让他给我输出了我想要的结构化Prompt:

[Genre]: 现代 K-Pop 顶尖女团风格 (Modern K-Pop Girl Group), 融合 Dance-Pop 与 Synth-wave, 130 BPM。
[Vocal Style - 核心调整]:

Verse (0s-10s): 拒绝生硬的说唱。采用“吟唱式旋律流 (Melodic Flow)”。由一位声线空灵、带有 R&B 质感的女主唱开场,半唱半说(Sing-talking),语调充满自信且流畅。
Transition: 歌词衔接紧密,通过人声的爬升自然过渡,不再有突兀的停顿。
Chorus (10s+): 强大的 5 人合唱团,极其宽广的立体声和声。高音清脆有力,呈现出一种“大调、昂扬”的视觉化听感。
[Structure & Drop]:

0s-9s: 节奏稳步推进,通过加入清脆的吉他扫弦或电子合成器垫音,营造夜晚都市的氛围感。
9s-10s: 关键转折。在 Drop 之前,人声做一个简短的“吸气声”或“高音转音”,随后接 0.5 秒的极简静默(Dead air),瞬间爆发进入副歌。
10s+ (The Drop): 重低音 808 Kick 炸裂开启,伴随闪亮的合成器锯齿波。
[Lyrics & Theme]:

主题: “午夜霓虹追逐 (Midnight Neon Chase)”。
语言: 65% 韩语 / 35% 英语(英语主要用于 Hook 和重点词汇)。
细节: 歌词描述在城市灯光下疾驰,表达“自我主宰”的酷飒感。
[Instrumentation]:

厚实的 808 滑音贝斯 (Sub-bass slides)。
复古且现代的合成器领奏 (Staccato synth leads)。
极其干净、清脆的高频鼓组 (Crisp percussion)。

我们听听效果,这时候还给我输出了比较空灵的效果。

第四步:生成并不断调整

后续其实很简单了,上手了之后你才能有更大的动力去学习Prompt和微调~。可以不断重复上面的过程,让AI给你构建你想要的风格的结构化Prompt,慢慢的不断微调。

相关工作

由于本文只是闲聊杂谈,因此本文在后续才会相对写的稍微比较正式,免得读者觉得过于枯燥(其实是懒得写那么正式~)。

26年初,Google推出了新一代音乐创作工具——Gemini Lyria3 ,并将其无缝集成在Gemini的会话里,使得我们能够快速根据文本提示词构建我们想要生成的30s不同风格的音乐。
一些文章^1认为,Lyria 3能够为Youtube Short提供图转音乐的BGM素材。一些人^2指出,Gemini生成的视频是带SynthID的数字水印,能够被识别为GeminiAI生成的音乐,因此能够别溯源;并且Gemini能够支持英语、德语、西班牙语、法语、印地语、日语、韩语和葡萄牙语等在内的多语言。一些人^3认为Gemini Lyria3的提出标志着产品设计从工程思维转向创作思维,大大降低了音乐创作的门槛;同时该工作尝试利用广东话重构90s Boom-Bap的歌曲,但指出Gemini创作的粤语歌曲发音和声调存在一定的进步空间。一些工作^4指出从简易版到专业版的Prompt的构建建议,但仍然要求读者具有一定的音乐素养门槛。

本文提供了对普通人而言简单上手Gemini Lyria3音乐创作的执行流程,能够为对音乐本身不熟悉的人群利用Gemini创作想要的音乐提供了新的指引和启发。

局限

Gemini Lyria 3作为一个SOTA的AI音乐创作新模型,大大降低了创作者制作BGM的门槛,但是它同样存在目前难以解决的局限性。

  • 不能创作完整的音乐。该模型只能提供固定30s的AIGC音乐,无法创作一个完整的音乐,更多是一个音乐片段,用于短视频或者为音乐创作者提供门槛。
  • 需要不断尝试以期获得更好的结果。音乐好坏是一个主观的评价标准,然而AIGC的结果基于概率采样,因此不一定能够按照Prompt达到我们想要的效果。
  • 重复音色与歌词。需要通过Prompt给AI进行选择和随机生成。
  • 上下文污染。AI会话的形式容易造成上下文污染,有时候同一个prompt在不同隔离会话的结果质量截然不同。
  • 尚不明确的版权问题。

本站由 @JasonYip 使用 Stellar 主题创建。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。