今年来LLM的飞速发展，基于LLM底座的各种垂类应用层出不穷，建立在LLM对世界高维语义信息的强劲理解下，各类Agent得以赋能，创造出各种难以想象的惊艳能力。这让我们发现，如今正处在时代快速变化的背景——不会使用AI，你就有可能被社会淘汰。就在行文的昨天，Google推出了Gemini Lyria 3，赋能AI音乐创作，正巧春节期间有空，我就作为一个不懂音乐的Kpop爱好者，看看能不能在很短时间上手Gemini Lyria 3创建出我们想要的音乐。

注意，本文只是笔者的闲聊杂谈，深度不高，只适合同样和我一样喜欢vibe使用AI的读者。如果您是一个期望深度阅读与专业化学习的读者，可以关闭本页，避免浪费时间。

去你的prompt

良好的开端是成功的一半。对于很多对AI各类垂类应用稍有兴趣的人，往往最大的壁垒是最开始Prompt的构建。

我们当然可以很轻松搜索到Google官方对Lyria3的Prompt指南：点击跳转。

然而，即使网页已经做的足够美观，仍然有个方面的挑战：

页面太长
英文阻碍

大家可以直接点击进入Prompt Guide查看。我们在此之前，的确第一步要克服阅读指南的心理抗拒（也许对你来说是水到渠成的事）。
简单而言我们扫一眼可以知道要想使用好Lyria3我们可以这么构造Prompt：

简单提示 (Simple Prompts)：直接输入基本请求（如“一首摇滚乐”），并指定歌词主题或人声风格。
图像转音乐 (Image-to-music)：上传照片或艺术作品，Lyria 会根据画面中的人物、地点和动作捕捉情绪，并以此生成匹配的音乐。
结构化详细提示 (Detailed Prompts)：通过细化音乐的专业维度（如速度、动态、乐器）来获得更精准的控制。
Well done！我们只要知道一句话就可以创建prompt即可。毕竟对于我们初上手的新手而言，对于结构化的prompt、曲风、节奏、乐器等等不会非常了解，甚至连这些名词的举例都比较困难。

第一步：一句直白的话作为第一个Prompt

对于初学者来说，我们甚至不知道喜欢的歌是什么风格的、包含什么音乐元素。

Anyway，无需多言！我们直接构建一个想要的Prompt。比如对于我来说，习惯了Kpop的舞曲。那么我直接上prompt：

一首轻快活泼的元气女团kpop歌曲，类似twice风格的舞曲。充满活力与阳光

可见Gemini会在生成音乐之前给出一些回答，告诉你其思考的音乐的基本构成。如808贝斯、合成器音色、verse、副歌，为了比较准确你也可以上传一首歌先让Gemini分析，或者直接告诉你想作为参照的歌手，这样对于一些大众歌手Gemini能够理解其常见的曲风，此时对歌曲就得到了一些描述：

歌曲从充满动感的 Verse 开始，并在 10 秒左右迅速推向一个充满力量感的大合唱副歌。歌词采用了韩语与英语交织的经典 K-pop 风格，由充满自信的说唱和清亮的高音主唱共同演绎，整体氛围非常轻快活泼。

这时候你就可以对你喜欢的风格有一个基本描述了。

第二步：组建初步Prompt

根据上一步你生成到了一个非常vibe的AIGC音乐，我们可以收听并且大概有一个直观的判断。这里的感性认识是非常重要的，多少的文字描述都不如你亲自听十几秒。
我们就可以根据上一个AI的回答这样构建Prompt：

一首轻快活泼的元气女团kpop歌曲，类似twice风格的舞曲。充满活力与阳光。
融合了现代的 808 贝斯、跳跃的合成器音色以及极具感染力的副歌，节奏轻快。
歌曲从充满动感的快节奏 Verse 开始，并在 10 秒左右迅速推向一个充满力量感的大合唱副歌。歌词采用了韩语与英语交织的经典 K-pop 风格，由充满自信的说唱和清亮的高音主唱共同演绎，整体氛围非常轻快活泼。

可见就是摘抄第一次回答微调了一下Prompt，我们可以听听效果。

是不是有点感觉了？后面我们也可以按需求慢慢微调。这时候我还学到了一种风格，就是歌手唱几秒，欢快洗脑的BGM播放几秒重复的感觉，这时候你可以问问AI可以知道是一种音乐表示手法：

如果你真的很喜欢这种音乐表达形式，你可以直接融入到你的Prompt。

第三步：让AI给你构建结构化Prompt

上一步经过微调我们差不多了解了你自己喜欢的曲风、节奏等等的一些专业名词，可能也采样到了一些音乐表现形式，我们这时候就可以让AI给你写结构化Prompt了。
比如，我直接上传了上一步生成的比较满意的结果到Gemini，提问并让他直接输入一个可以直接输入给他的结构化Prompt：

这个视频的track是你刚刚创作的，但是我并不了解音乐的相关信息。请你分析你创作的这个track，给我拆解一下这个音乐的音乐风格、氛围、乐器、节奏。
并根据我之前的prompt做出修改直接输出一个以符合你创作要求的prompt

那么他后续就给我拆解出了我中意的曲风的音乐术语，让我们更好的学习（生命在于学习，所谓的Vibe也要建立在提供一定语义信息的基础上~）。

通过不断修正和调整，我让他给我输出了我想要的结构化Prompt：

[Genre]: 现代 K-Pop 顶尖女团风格 (Modern K-Pop Girl Group), 融合 Dance-Pop 与 Synth-wave, 130 BPM。
[Vocal Style - 核心调整]:

Verse (0s-10s): 拒绝生硬的说唱。采用“吟唱式旋律流 (Melodic Flow)”。由一位声线空灵、带有 R&B 质感的女主唱开场，半唱半说（Sing-talking），语调充满自信且流畅。
Transition: 歌词衔接紧密，通过人声的爬升自然过渡，不再有突兀的停顿。
Chorus (10s+): 强大的 5 人合唱团，极其宽广的立体声和声。高音清脆有力，呈现出一种“大调、昂扬”的视觉化听感。
[Structure & Drop]:

0s-9s: 节奏稳步推进，通过加入清脆的吉他扫弦或电子合成器垫音，营造夜晚都市的氛围感。
9s-10s: 关键转折。在 Drop 之前，人声做一个简短的“吸气声”或“高音转音”，随后接 0.5 秒的极简静默（Dead air），瞬间爆发进入副歌。
10s+ (The Drop): 重低音 808 Kick 炸裂开启，伴随闪亮的合成器锯齿波。
[Lyrics & Theme]:

主题: “午夜霓虹追逐 (Midnight Neon Chase)”。
语言: 65% 韩语 / 35% 英语（英语主要用于 Hook 和重点词汇）。
细节: 歌词描述在城市灯光下疾驰，表达“自我主宰”的酷飒感。
[Instrumentation]:

厚实的 808 滑音贝斯 (Sub-bass slides)。
复古且现代的合成器领奏 (Staccato synth leads)。
极其干净、清脆的高频鼓组 (Crisp percussion)。

我们听听效果，这时候还给我输出了比较空灵的效果。

第四步：生成并不断调整

后续其实很简单了，上手了之后你才能有更大的动力去学习Prompt和微调~。可以不断重复上面的过程，让AI给你构建你想要的风格的结构化Prompt，慢慢的不断微调。

局限

Gemini Lyria 3作为一个SOTA的AI音乐创作新模型，大大降低了创作者制作BGM的门槛，但是它同样存在目前难以解决的局限性。

不能创作完整的音乐。该模型只能提供固定30s的AIGC音乐，无法创作一个完整的音乐，更多是一个音乐片段，用于短视频或者为音乐创作者提供门槛。
需要不断尝试以期获得更好的结果。音乐好坏是一个主观的评价标准，然而AIGC的结果基于概率采样，因此不一定能够按照Prompt达到我们想要的效果。
重复音色与歌词。需要通过Prompt给AI进行选择和随机生成。
上下文污染。AI会话的形式容易造成上下文污染，有时候同一个prompt在不同隔离会话的结果质量截然不同。
尚不明确的版权问题。

本文采用署名-非商业性使用-相同方式共享 4.0 国际许可协议，转载请注明出处。

不懂音乐的Gemini Lyria 3音乐创作初体验

去你的prompt

第一步：一句直白的话作为第一个Prompt

第二步：组建初步Prompt

第三步：让AI给你构建结构化Prompt

第四步：生成并不断调整

相关工作

局限