搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
出版时间 :
实时语音处理实践指南
  • ISBN:
    9787121387593
  • 作      者:
    葛世超 等
  • 出 版 社 :
    电子工业出版社
  • 出版日期:
    2020-04-01
收藏
图书特色

       远程办公时,您的团队同时进行视频会议的语音通话质量是否有待提高呢?

       如果有这个疑惑,建议您看看这本书。

       本书围绕视频会议和远场语音识别两个热门的领域展开,将音频算法和工程实践连成一体,从基础理论到实践方案,全面介绍业内主流的可商用的实时语音处理技术。

        语音算法开发中遇到的大部分问题均有涉及,并给出了比较专业的解法。

作者简介
葛世超,硕士,毕业于西安电子科技大学雷达国防重点实验室,先后任职于阿里巴巴和rokid,从事语音算法工作。 吕强,学士,吉林大学通信工程专业毕业,原微鲸电视系统软件音频专家。 钱思冲,武汉理工大学博士,2016年至2018年在rokid从事麦克风阵列信号研究,目前主要研究语音信号盲源分离。 张博伦,硕士研究生,毕业于中国海洋大学海底科学与探测技术教育部重点实验室。毕业后先后从事水声、音频信号处理等工作。 张硕,毕业于西安电子科技大学和法国高等电力学院,先后任职于诺基亚和Rokid,从事语音算法相关工作。
内容介绍

       本书主要介绍基于互联网场景的交互式实时语音处理流程,内容涉及智能语音助手、智能音箱、音/视频会议等,具体包括实时语音信号处理、数字音效、网络传输编/解码和语音唤醒识别四部分。在阐述各部分内容时,本书从基本概念和原理入手,将理论和实践相结合,并细致分析了极具商业价值的实例,以帮助读者了解相关算法在工程上是如何实现的。另外,为便于有兴趣的读者快速进行算法验证并将其改进和应用到实际的项目中,作者也开源了书中算法的源码。

      对于语音技术零基础的读者,建议按照本书的编排顺序阅读;本书也适合有一定语音理论基础的高等院校相关专业本科生和研究生;对从事语音相关产品的非技术人员来说,可从本书了解语音处理的主要内容和技术难点,对从事语音工程开发的技术人员来说,本书开源了一些极具商业价值的源码工程,具有较高的参考价值。


展开
精彩书摘
       暂无内容
展开
目录

绪论1

第1章 信号处理 7

1.1 数字和模拟频率 7

1.2 离散傅里叶变换8

1.2.1 实数DFT 9

1.2.2 复数DFT  10

1.2.3 负频分量 10

1.2.4 DFT变换性质 10

1.3 FFT 11

1.3.1 FFT 结果举例  12

1.3.2 实信号FFT  13

1.3.3 短时傅里叶变换  14

1.3.4 STFT语音窗函数选择  14

1.4 重叠相加法和重叠保留法  16

1.4.1 OLA 17

1.4.2 OLS  19

1.5 加权重叠相加法  21

1.5.1 WOLA 计算过程  22

1.5.2 WOLA 窗函数选择  22

1.6 滤波器组  23

1.7 语音预加重  27

1.8 高斯分布  27

1.8.1 单高斯分布  27

1.8.2 多维高斯分布  29

1.9 HMM模型 31

1.10 卡尔曼滤波  32

第2章 发音机理和器件  34

2.1 语音的产生和接收  34

2.1.1 语音产生机理  34

2.1.2 发声模型  36

2.1.3 发音单位  36

2.1.4 发音分类  37

2.1.5 声音接收 37

2.1.6 声音传播  38

2.2 扬声器      38

2.2.1 电学性能  38

2.2.2 声学性能  39

2.2.3 底噪      40

2.2.4 频响特性  41

2.2.5 THD+N POUT  41

2.2.6 电压(功率)和失真  42

2.3 麦克风  42

2.3.1 麦克风性能指标  42

2.3.2 麦克风的选择  43

2.4 结构设计 45

2.5 音频设备  46

2.6 声学测试          49

第3章 语音端点检测    59

3.1 特征选取          59

3.2 判决准则          61

3.2.1 门限            61

3.3 VAD 实例          63

3.4 语音/非语音帧的初始参数    75

第4章 单通道降噪       79

4.1 谱减法             79

4.2 维纳滤波           84

4.3 子空间降噪         86

4.4 WebRTC 单通道降噪实现   87

4.5 深度学习降噪  101

第5章 声学回声消除        106

5.1 回声消除原理         106

5.2 自适应滤波器         108

5.3 WebRTC 回声消除算法   113

5.4 Speex 回声消除算法   128

第6章 声源定位      147

6.1 GCC算法         147

6.2 SRP-PHAT算法    149

6.3 MUSIC算法        150

6.4 TOPS 算法        152

6.5 FRIDA算法        154

6.6 后处理抗噪       155

第7章 波束形成技术   162

7.1 麦克风阵列   163

7.2 常见波束形成方法         168

7.3 WebRTC 波束形成实例       174

7.4 后置滤波(Post-filtering)   187

第8章 盲源分离        196

8.1 基本概念及数学预备知识      196

8.2 盲语音分离预处理——PCA   199

8.3 频域独立成分分析法——FDICA   200

8.4 后置滤波处理       205

8.5 GSC 与ICA联合估计        209

第9章 音效处理   214

9.1 声道的分类    214

9.2 后端音效处理  217

第10章 语音编/解码  227

10.1 LPC 编码   230

10.2 SILK编/解码   231

10.3 opus 编/解码概览  239

10.4 语音质量评估  247

第11章 语音网络传输       251

11.1 拥塞控制  252

11.2 NetEQ    266

第12章 语音唤醒       278

12.1 语音唤醒技术简介    278

12.2 特征提取        279

12.3 模型结构     284

12.4 计算加速        292

第13章 语音识别        301

13.1 语音特征提取       303

13.2 声学模型  306

13.3 语言模型  310

13.4 YES 和NO识别实例    312

13.5 Kaldi 中文语音识别     321

13.6 DeepSpeech 语音识别    324

附录A 本书涉及的专业术语     331

展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

温馨提示:请使用石家庄市图书馆的读者帐号和密码进行登录

点击获取验证码
登录