技术教育社区
www.teccses.org

语音与音乐信号处理轻松入门(基于PYTHON与PYTORCH)

封面

作者:姚利民 著

出版社:清华大学出版社

出版日期:2025

ISBN:9787302679110

电子书格式:pdf/epub/txt

网盘下载地址:下载语音与音乐信号处理轻松入门(基于PYTHON与PYTORCH)

内容简介

“近年来人工智能技术突飞猛进,以语音识别为代表的音频处理技术取得了大量突破,但该领域内理论结合实战的入门书籍却较为缺乏,本书旨在为有志学习音频信号处理的读者提供一本实用的入门书籍。
本书共13章,第1章和第2章是基础部分,包括声学基础知识及Python基础等内容;第3到4章介绍了音频信号的获取及分析方法;第5~8章介绍了语音识别基础、传统语音识别技术及语音识别、语音合成的实战技术;第9章和第10章介绍了常用的音乐分析方法及Python编曲等内容;第11~13章介绍了深度学习的基础知识及如何用PyTorch对语音和音乐信号进行分析处理。
本书以通俗易懂的语言、图文并茂的讲解力图使读者在短时间内掌握音频信号处理的基本技术。本书既可供包括高校学生在内的各类初学者快速入门、也可供该领域的专业技术人员及爱好者参考。

作者简介

姚利民,毕业于东南大学,长期在外资企业从事管理工作,同时致力于AI及图像处理的研究。2012年赴某知名跨国企业全球总部工作,回国后自主创业。目前专注于人工智能各领域的研究。著有《Java OpenCV高效入门》和《Java OpenCV案例佳作选》。

本书特色

本书以科普读物风格对音频信号处理由浅入深地进行了介绍,同时辅以大量实战案例,以期达到轻松入门、事半功倍的效果。

通俗易懂 语言生动、浅显易懂,避免枯燥的理论和公式。
图文并茂 大量插图配合文字说明有助于抽象概念的理解。
内容丰富 包括声学基础、音频信号分析、语音识别、语音合成、音乐分析、MIDI编曲、深度学习等丰富内容。
轻松实战 采用Python和PyToch(深度学习部分)编程,门槛低,易学易会;主要函数列出函数原型,便于应用和参考。
大量示例 介绍了音频处理各领域众多Python库的用法,如NumPy、SciPy、Librosa、Pyaudio、Moviepy、Pydub、Soundfile、OpenAI-whisper、Pyttx3、SpeechLib、PyWorld、Parselmouth、Mido、Music21、PyTorch等。

目录

第1章基础知识

1.1声学基础

1.1.1声音的产生和传播

1.1.2声波的描述

1.1.3声音的客观衡量

1.1.4声音的主观属性

1.2音频文件格式

1.2.1WAV文件格式

1.2.2MP3文件格式

1.2.3MIDI文件格式

1.2.4其他文件格式

1.3Praat简介

1.3.1Praat概要

1.3.2Praat的下载和安装

1.3.3Praat的主要功能

1.3.4Praat基础操作

第2章Python基础

2.1Python简介

2.2Anaconda的安装

2.3主要Python库

2.4Python绘图基础

2.4.1散点图的绘制

2.4.2线性图的绘制

2.4.3图形的美化

2.4.4子图的绘制

2.5FFmpeg的安装与配置

第3章音频信号的获取

3.1采样与量化

3.1.1采样相关概念

3.1.2从话筒拾取信号

3.2读取音频文件

3.3从视频文件提取

3.4声音的合成

3.4.1纯音的生成

3.4.2复合音的生成

3.4.3音效的合成

第4章音频信号分析初步

4.1分帧

4.2加窗

4.3信号的时域分析

4.3.1短时平均过零率

4.3.2短时平均能量

4.3.3短时自相关函数

4.4信号的频域分析

4.4.1频谱图

4.4.2傅里叶变换

4.4.3傅里叶变换的应用

4.5信号的时频域分析

4.5.1短时傅里叶变换

4.5.2语谱图

4.5.3宽带语谱图和窄带语谱图

4.5.4Praat中查看语谱图

4.6小波变换

4.6.1概述

4.6.2连续小波变换

4.6.3离散小波变换

4.6.4小波变换的应用

第5章语音识别基础

5.1语音的产生和感知

5.1.1语音信号的产生

5.1.2语音信号的感知

5.1.3语音信号的数字模型

5.2汉语的语音特征

5.2.1元音和辅音

5.2.2声母和韵母

5.2.3音素

5.2.4音调

5.3元音与共振峰

5.4语音端点检测

5.4.1音量法

5.4.2平均能量法

5.4.3双门限法

5.5基音估计

5.6梅尔倒谱系数

5.6.1MFCC特征提取步骤

5.6.2MFCC特征

5.6.3Fbank特征

第6章传统语音识别技术

6.1语音识别概述

6.2动态时间规整

6.3高斯混合模型

6.3.1高斯分布

6.3.2高斯混合模型

6.3.3GMM睻BM

6.4隐马尔可夫模型

6.4.1马尔可夫链

6.4.2隐马尔可夫模型

6.4.3Viterbi算法

第7章语音识别实战

7.1Whisper的安装

7.2Whisper的使用

第8章语音合成

8.1文本转语音

8.1.1使用SAPI

8.1.2使用Pyttsx

8.1.3使用SpeechLib

8.2语音合成

8.2.1World声码器

8.2.2World声码器优点

8.2.3World的主要模块

8.2.4语音合成实战

第9章音乐分析

9.1常用音乐术语

9.2音乐分析常用指标

9.2.1频带能量比

9.2.2频谱特征

9.2.3恒Q变换

9.3声音的包络

9.4节拍检测

9.5音高识别

9.6调性分析

第10章MIDI文件编程

10.1MIDI文件格式剖析

10.1.1HC和TC

10.1.2时间差

10.1.3事件

10.2用Mido操作MIDI

10.3用Music21编曲

10.3.1Music21简介

10.3.2Music21的安装及配置

10.3.3Music21的层级结构

第11章深度学习基础

11.1神经网络基础

11.1.1神经元

11.1.2激活函数

11.1.3前馈神经网络

11.1.4梯度下降法

11.2PyTorch基础

11.2.1PyTorch简介

11.2.2PyTorch的主要模块

11.2.3PyTorch的安装

11.2.4张量

11.2.5计算图

11.2.6自动求导机制

11.2.7损失函数

11.2.8优化器

11.3案例: 声音的分类

11.3.1数据集介绍

11.3.2预处理

11.3.3数据载入类

11.3.4构建网络

11.3.5训练模型

11.3.6预测与验证

第12章常用神经网络

12.1卷积神经网络

12.1.1卷积运算

12.1.2池化

12.1.3卷积神经网络的结构

12.2循环神经网络

12.2.1RNN

12.2.2LSTM

12.2.3GRU

12.3案例: 音乐风格分类

12.3.1数据集介绍

12.3.2特征提取

12.3.3模型及训练

第13章深度学习与语音识别

13.1Word2Vec

13.1.1词向量

13.1.2Word2Vec

13.1.3Hierarchical Softmax

13.1.4负采样

13.2ELMo

13.3Transformer

13.3.1Transformer的构成

13.3.2位置编码

13.3.3注意力机制

13.3.4多头注意力

13.3.5残差连接和层归一化

13.3.6Transformer整体架构

前言

近年来,以语音识别为代表的音频处理技术取得了重大突破。2008年底,谷歌公司发布了第1个语音搜索应用; 2010年,苹果公司收购Siri并将其改造成语音助手。此后的十余年,语音技术的发展日新月异。与此同时,相关领域也有一些新技术如雨后春笋般涌现,例如根据声音样本生成语音的声音克隆技术、用AI技术模仿人类唱歌的虚拟歌手、将歌声与伴奏分离的人声分离技术等。毋庸讳言,音频处理与计算机视觉一样都处于人工智能大潮的风口之上。
本书主要内容
阅读建议
姚利民
2024年10月

赞助用户下载地址

立即下载

(解压密码:www.teccses.org)

Article Title:《语音与音乐信号处理轻松入门(基于PYTHON与PYTORCH)》
Article link:https://www.teccses.org/45493.html