Skip to content

AI 音频模型入门 (Audio Model Intro)

💡 学习指南:声音是空气的振动,也是情感的载体。本章节将带你了解 AI 如何"听懂"声音,又是如何像人一样"开口说话"甚至"作曲"的。从语音识别到音乐生成,探索音频 AI 的完整技术栈。

0. 快速上手:如何让 AI 说话?

0.1 常见的 AI 音频工具

☁️ 在线服务 (简单易用)

  1. ElevenLabs: 目前最顶尖的语音合成,支持克隆任何声音。
  2. Sunno AI: 文本生成音乐,几秒钟内创作完整歌曲。

💻 本地部署 (硬核玩家)

  1. Coqui TTS: 开源语音合成工具包。
  2. Bark: Meta 开源的零样本 TTS。
  3. RVC (Retrieval-based Voice Conversion): 基于检索的语音变声。

0.2 为什么要学习 AI 音频?(Why Audio AI?)

你可能会问:"文字交流已经很方便了,为什么还需要语音?" 或者 "我是程序员,为什么要懂音频处理?"

这并非为了替代文字交互,而是因为 语音是最高效的信息传递方式之一

1. 传递效率:秒级理解

  • 文字:阅读一段话需要数秒到数分钟。
  • 语音:人类说话速度约 150-200 词/分钟,且可以同时传递情感。

2. 情感载体:超越文字

  • 文字:只能通过标点符号和表情符号表达有限的情感。
  • 语音:语调、停顿、语速、笑声都能传递丰富的情感信息。

3. 解放双手:自然交互

  • 场景:开车、做饭、运动时,打字不方便,但说话很容易。
  • 未来:AI 助手将通过语音成为我们的自然伙伴。
🎙️ AI 音频初体验:让机器开口说话
从语音合成到声音克隆,探索 AI 如何让机器拥有"声音"
🎵

选择一个场景开始体验 AI 音频

💡TTS: 文本转语音,让 AI 朗读任意文字
🎯ASR: 语音识别,将语音转为文字
🎭声音克隆: 只需几秒音频,复制任何人的声音

1. 概念界定:音频的数字化 (Definition)

很多人以为 AI 直接处理"声音",但实际上 AI 处理的是数字化的音频信号

在物理世界,声音是连续的波(Wave)。在数字世界,我们通常用采样率(比如 44.1kHz)把波形记录下来。

但对于 AI 来说,直接处理每秒 44100 个数字太累了,而且这些数字本身没有明显的语义含义。

  • 传统信号处理:处理原始波形(WAV 文件)。
  • AI 音频模型:处理更有意义的"中间表示"。

本质上,音频 AI 是一个从物理信号到语义表示的转换过程:

  • 物理层:声波振动(模拟信号)
  • 数字层:采样点序列(PCM 数据)
  • 表示层:频谱图、Token、Embeddings(AI 能理解的形式)

2. 核心架构:两种主流范式 (The Big Picture)

要让 AI 处理音频,科学家们设计了两种完全不同的范式。理解它们的差异是掌握音频 AI 的关键。

2.1 范式一:离散化 (Tokenization) — 把声音当文字

如果把声音也变成 Token(就像 GPT 处理文本那样),是不是就能用语言模型来生成声音了?

核心思想

  1. 切碎:把连续的音频波形切成小段(每段 20-40ms)。
  2. 量化:在预训练的"声音字典"里找到最像的那段声音的代号(Code)。
  3. 序列化:一段音频变成了一串数字序列:[1024, 2048, 55, ...]
  4. 语言建模:用 GPT 生成下一个 Token,就像预测下一个词。
🎵 音频 Tokenization:神经编解码器
🔽 编码器 (Encoder)
原始波形
24kHz, 16-bit
Conv 1
Conv 2
Conv 3
Conv 4
CNN 下采样
降维 320x
VQ 量化
离散 Token
压缩后: ~1.5 kbps
🔼 解码器 (Decoder)
4212872553391
离散 Token
Codebook 索引
ConvT 4
ConvT 3
ConvT 2
ConvT 1
转置卷积
上采样
重建波形
24kHz
📊 不同码率对比
1.5 kbps
EnCodec-24k
采样率:24 kHz
帧率:75 Hz
码本大小:1024
4
3.0 kbps
EnCodec-48k
采样率:48 kHz
帧率:75 Hz
码本大小:1024
5
6.0 kbps
SoundStream
采样率:16 kHz
帧率:50 Hz
码本大小:1024
4.5
0.98 kbps
SNAC
采样率:24 kHz
帧率:43 Hz
码本大小:4096
4
🔢 Token 序列可视化
0.1s0.2s0.30000000000000004s0.4s0.5s0.6000000000000001s0.7000000000000001s0.8s0.9s1s1.1s1.2000000000000002s1.3s1.4000000000000001s1.5s1.6s1.7000000000000002s1.8s1.9000000000000001s2s
低频成分 中频成分 高频成分
🎯 为什么需要音频 Tokenization?
🚀
高效传输
将音频压缩到 ~1.5 kbps,比原始音频小 256 倍,适合网络传输
🧠
语言模型友好
离散 Token 可以被 LLM 直接处理,实现文本到音频的统一建模
🎵
音乐生成
MusicGen、AudioLDM 等模型使用音频 Token 生成音乐和音效
🗣️
语音合成
VALL-E、SoundStorm 等 TTS 模型直接生成音频 Token

💡神经音频编解码器: EnCodec (Meta)、SoundStream (Google)、SNAC 等模型使用 VQ-VAE 架构将音频压缩成离散 Token。这些 Token 可以被语言模型处理,实现高质量的音频生成和压缩。

代表模型:AudioLM, VALL-E, MusicLM

优点

  • 能学到非常自然的韵律和情感
  • 可以用同一个模型做语音合成、音乐生成、音效生成

缺点

  • 容易"胡言乱语"(重复、漏词)
  • 生成速度慢(必须逐个 Token 生成)

2.2 范式二:频谱生成 (Spectrogram-based) — 把声音当图像

声音本质上是波,而波的频谱(频率成分随时间变化)看起来像一张图像。

核心思想

  1. 变换:通过傅里叶变换(FFT)将波形转换为梅尔频谱图 (Mel-Spectrogram)
  2. 生成:用图像生成模型(如 CNN、Diffusion)生成频谱图。
  3. 还原:通过声码器 (Vocoder) 将频谱图还原为音频波形。
📊 梅尔频谱:AI 如何"看懂"声音
声音是波,但 AI 看到的是频谱图。探索波形如何变成 AI 能理解的"图像"
1024
80
🔊 波形 (时域)原始音频振幅随时间变化
STFT 变换
📈 线性频谱高频分辨率低
VS
🎯 梅尔频谱符合人耳感知
🎧 为什么用梅尔刻度?
人耳感知
100Hz→200Hz 与 10000Hz→10100Hz 感知差异相同
线性刻度
等距频率间隔,不符合人耳感知
💡

梅尔频谱原理: 梅尔刻度模拟了人耳对频率的非线性感知。人耳对低频变化更敏感,对高频变化较迟钝。 梅尔频谱将频率映射到梅尔刻度,使 AI 更关注人耳敏感的部分。

代表模型:Tacotron 2, FastSpeech, F5-TTS

优点

  • 生成速度快(可以并行生成整段频谱)
  • 鲁棒性强(不容易漏词)

缺点

  • 频谱图丢弃了相位信息,需要声码器重建
  • 情感和韵律的表达不如 Tokenization 自然

3. 梅尔频谱详解 (Mel-Spectrogram Deep Dive)

梅尔频谱是音频 AI 中最核心的表示之一。理解它需要一点点物理和信号处理知识。

3.1 什么是频谱图?

想象你听到一段音乐,有高音(小提琴)、低音(大提琴)、鼓点。频谱图就是把这些成分可视化:

  • 横轴:时间
  • 纵轴:频率(音高)
  • 颜色深浅:响度(音量)

3.2 为什么是"梅尔"频谱?

人耳对频率的感知不是线性的。我们能区分 100Hz 和 200Hz,但很难区分 10000Hz 和 10100Hz。

梅尔刻度 (Mel Scale) 模拟了人耳的感知特性:

  • 低频区域:分辨率高(区分细微音高变化)
  • 高频区域:分辨率低(人耳听不出来)

这让 AI 更关注人耳敏感的部分,忽略不重要的细节。

4. TTS 流程全景 (TTS Pipeline)

文本转语音(TTS)是音频 AI 最核心的应用之一。让我们深入了解其完整流程。

🔄 TTS 架构演进:从慢到快
探索文本如何变成语音,以及不同架构的优劣对比
1
📝
文本处理
分词 & 音素
2
🔢
文本嵌入
特征提取
3
🌊
流匹配
最优传输
4
🔊
声码器
频谱转波形
📝
文本处理
将输入文本转换为音素序列
输入:原始文本
输出:音素序列
技术:G2P
📊 架构对比
特性
自回归
非自回归
流匹配
生成速度
很快
音质
中高
稳定性
可控性
🏆 代表模型
Tacotron 2
AR
经典 AR 模型,音质优秀
FastSpeech 2
NAR
并行生成,速度快
F5-TTS
Flow
最新 SOTA,10 步生成
CosyVoice
Flow
阿里开源,支持多语言
💡

TTS 演进趋势: 从早期的自回归模型(如 Tacotron)到非自回归(如 FastSpeech),再到最新的流匹配模型(如 F5-TTS), TTS 技术正在向更快、更稳定、更高质量的方向发展。

4.1 自回归 vs 非自回归

特性自回归 (AR)非自回归 (NAR)流匹配 (Flow)
生成方式逐个时间步一次性生成流匹配路径
速度很快
音质中高
代表模型Tacotron 2FastSpeech 2F5-TTS

4.2 关键组件

  1. 文本前端 (Text Frontend):将文本转换为音素序列,处理多音字、数字、缩写等。
  2. 声学模型 (Acoustic Model):将音素转换为声学特征(梅尔频谱)。
  3. 声码器 (Vocoder):将声学特征还原为音频波形。

5. ASR 与 TTS:语音的双向转换 (ASR vs TTS)

语音识别(ASR)和语音合成(TTS)是音频 AI 的两个核心方向,它们互为逆过程。

🔄 ASR ↔ TTS:语音的双向转换
探索语音识别和语音合成的互逆过程
🎙️
ASR 语音识别
音频 → 文本
🔊
TTS 语音合成
文本 → 音频
📊 ASR vs TTS 对比
🎙️
ASR
输入:音频波形
输出:文本序列
难点:噪声、口音、同音词
🔊
TTS
输入:文本序列
输出:音频波形
难点:韵律、情感、自然度
🔀 架构对比
ASR Pipeline
音频
特征
Encoder
Decoder
文本
TTS Pipeline
文本
Encoder
Decoder
声码器
音频
💡

互逆关系: ASR 和 TTS 是语音技术的两个核心方向,互为逆过程。 ASR 将连续的音频信号转换为离散的文本,TTS 则将离散的文本转换为连续的音频信号。 两者都依赖于声学模型和语言模型。

5.1 ASR:音频 → 文本

  • 输入:音频波形
  • 输出:文本/Token
  • 核心任务:模式识别、分类
  • 代表模型:Whisper, Conformer

5.2 TTS:文本 → 音频

  • 输入:文本序列
  • 输出:音频波形
  • 核心任务:序列生成、回归
  • 代表模型:F5-TTS, CosyVoice

5.3 联合应用

  • 语音助手:ASR → LLM → TTS
  • 实时翻译:ASR → 翻译 → TTS
  • 字幕生成:视频 → ASR → 字幕

6. 声音克隆:零样本能力的魔法 (Zero-Shot Voice Cloning)

早期的 TTS 需要几十小时的数据来训练一个声音。现在,我们只需要几秒钟。

🎭 声音克隆:让 AI 模仿任何人
只需几秒钟的参考音频,AI 就能学会任何人的声音
1 提供参考音频
👨
男声 A
低沉磁性
👩
女声 B
温柔甜美
🧒
童声
活泼可爱
👴
老人
沧桑稳重
2 AI 学习声音特征
📂
加载音频
🔢
编码特征
🎨
提取音色
💎
构建嵌入
3 输入文本生成语音
💡 声音克隆小贴士
⏱️
参考音频时长

3-10 秒即可,质量比时长更重要

🔇
环境要求

安静环境,避免背景噪音

🗣️
内容选择

包含多种音调和语速效果更好

🔬

技术原理: 声音克隆通过提取参考音频的音色、语调和说话风格特征,构建说话人嵌入向量。 生成时,TTS 模型结合文本内容和说话人嵌入,合成与参考声音相似的语音。

6.1 声音编码器 (Speaker Encoder)

声音编码器是一个神经网络,它的任务是:把一段音频压缩成一个固定长度的向量(Embedding)

这个向量捕捉了声音的"身份":

  • 音色(低沉 vs 清脆)
  • 声道特征(男声 vs 女声)
  • 说话风格(语速、停顿习惯)

6.2 零样本合成流程

有了声音编码器,我们就能实现"一句话克隆":

  1. 提取声音特征:参考音频 → 声音编码器 → 声音向量(如 256 维)
  2. 条件生成:文本 + 声音向量 → TTS 模型 → 音频

这就是 ElevenLabs、CosyVoice 等工具的核心技术。

7. 情感与风格控制 (Emotion & Style Control)

现代 TTS 系统不仅能合成自然的语音,还能精确控制情感、语速、语调等风格特征。

🎭 情感与风格控制
选择情感风格
😐
中性
平稳自然
😊
开心
轻快愉悦
😢
悲伤
低沉缓慢
😠
愤怒
激昂有力
🤩
兴奋
热情高涨
😌
平静
舒缓放松
情感向量空间 (Emotion Embedding)
中性 开心 悲伤 愤怒 兴奋 平静
🎚️ 细粒度控制
语速1x
正常
音调0
正常
音量动态100%
柔和适中激昂
停顿控制150ms
紧凑自然舒缓
🎙️ 预览合成

💡情感控制: 现代 TTS 系统不仅能合成自然的语音,还能精确控制情感、语速、语调等风格特征。这使得 AI 配音可以适应不同的应用场景,从平静的客服对话到激昂的演讲。

7.1 全局风格 Token (GST)

GST (Global Style Token) 是一种从参考音频中提取风格特征的方法。模型学习将情感、语速、语调等风格信息编码成一组 Token,在推理时可以通过选择或插值这些 Token 来控制合成风格。

7.2 细粒度控制

现代 TTS 模型支持细粒度的风格控制:

  • 速度控制:调整音频播放速度而不改变音调
  • 音调控制:改变基频 (F0) 曲线
  • 能量控制:调整音量包络
  • 停顿控制:调整句间和短语间的停顿长度

8. 生成机制演进 (Generation Evolution)

音频生成模型经历了从模仿人类到直接建模的演进。

8.1 Audio Language Model (如 VALL-E, AudioLM)

这一派的思想是:把声音当语言学

  • 原理:使用 GPT 架构(Decoder-only Transformer)。
  • 输入:文本 Token + 音频 Token
  • 预测:像成语接龙一样,根据前面的声音,预测下一个声音 Token。

优点

  • 能学到非常自然的韵律、停顿和情感
  • 可以通过"上下文学习"快速适应新声音

缺点

  • 容易"胡言乱语"(重复、漏词)
  • 生成速度慢(必须逐个 Token 生成)

8.2 Flow Matching TTS (如 F5-TTS, CosyVoice, Matcha-TTS)

这是目前最前沿的流派,结合了生成模型的最新进展。

  • 原理:不预测 Token,而是直接在频谱层面进行流匹配(Flow Matching)。
  • 过程
    1. 输入:文本 + 带有噪声的频谱
    2. 模型:预测一个"向量场",指导噪声如何一步步"流"动变成清晰的语音频谱
    3. 声码器:把生成的频谱还原成波形

优点

  • 速度快:不需要像 GPT 那样逐个 Token 蹦,可以并行生成
  • 鲁棒性强:不容易丢字漏字
  • 零样本克隆:给一段几秒钟的参考音频,立马就能模仿它的音色和语调

9. 总结 (Summary)

音频 AI 的进化,正在从"信号处理"走向"语义理解"。

  • Tokenization 把声音变成了语言,让 GPT 能"开口说话"。
  • Flow Matching 把生成速度提升了数十倍,让实时语音合成成为可能。
  • Speaker Encoder 让声音克隆像换皮肤一样简单。
  • Emotion Control 让 AI 语音充满情感,适应各种场景。

未来的 AI(如 GPT-4o),将不再需要把声音转成文字再转回去,而是直接在统一的多模态空间里理解声音的笑声、语气和情绪

附录:常用术语表 (Vocabulary)

术语英文解释
采样率Sample Rate每秒采集的音频样本数(如 44.1kHz)。
梅尔频谱Mel-Spectrogram模拟人耳感知的频谱表示,音频 AI 的核心输入。
声码器Vocoder将频谱图还原为音频波形的模型。
TTSText-to-Speech文本转语音,让 AI 说话的技术。
ASRAutomatic Speech Recognition自动语音识别,让 AI 听懂的技术。
零样本克隆Zero-Shot Cloning只需几秒参考音频就能模仿任何声音。
流匹配Flow Matching一种高效的生成方法,用于最新的 TTS 模型。
声音编码器Speaker Encoder提取声音身份特征的神经网络。
GSTGlobal Style Token全局风格 Token,用于情感控制。
神经编解码器Neural Codec将音频压缩为离散 Token 的模型。