数字图书馆-云书网

图书特色

Kaldi的出现，被业内公认为极大地降低了语音识别技术学习与使用的门槛，成为广受欢迎的工具。

本书由Kaldi的知名贡献者和社区技术骨干撰写，结合实际场景，系统全面地阐述了Kaldi的基础理论和应用知识，非常适合入门，是珍贵的学习资料。

本书脉络清晰，讲解亲民，非常适合从人工智能其他领域转行入语音识别领域的读者和语音识别领域的从业人员阅读。

本书特色：

1 以Kaldi脚本实例为线索，结合大量示例，降低学习门槛
2 详述各类实践技巧，举一反三
3 实际场景问题分析与解决方案

4兼述语音技术其他关键应用：语音唤醒（关键词识别）、说话人识别、语种识别

作者简介

陈果果清华大学本科学位，约翰霍普金斯大学博士学位，主要研究方向是语音识别及关键词检索，师从语音识别开源工具Kaldi主要开发者Daniel Povey，以及约翰霍普金斯大学语言语音处理中心教授Sanjeev Khudanpur。博士期间为Google开发了Google的唤醒词Okay Google的原型，现在已经用到数以亿计的安卓设备及Google智能语音交互设备上。博士期间同时参与开发语音识别开源工具Kaldi，以及神经网络开源工具CNTK。博士毕业以后联合创办KITT.AI，专注于语音识别及自然语言处理，公司于2017年被百度收购，目前担任百度智能生活事业群组（SLG）主任架构师。都家宇本科毕业于大连理工大学，后于澳大利亚新南威尔士大学电子信息工程学院学习，取得信号处理专业硕士学位。研究生期间在导师 Julien Epps 指导下开始进行语音处理、情绪识别方向的研究。毕业后先后任职于清华大学语音技术实验室、百度语音技术部，以及阿里巴巴iDST、达摩院语音组，从事声学模型、解码器、语音唤醒等方面的研发工作。参与过与 Kaldi 相关的工作有：Kald

内容介绍

刚刚过去的十年是语音技术发展的黄金十年。2010 年前后，从谷歌公司发布第一个语音搜索应用、苹果公司发布第一个语音助手 Siri 开始，语音技术的发展转瞬进入了快车道。

语音技术的基础算法不断推陈出新，语音任务 Benchmark 持续被刷新；语音产品的应用也从一开始很小众的语音输入，逐渐渗透到人们生活的方方面面。

语音产业飞速发展，传统的语音技术教材已经满足不了该领域从业者的迫切需求。本书以目前流行的开源语音识别工具 Kaldi 为切入点，深入浅出地讲解了语音识别前沿的技术及它们的实践应用。本书的作者们拥有深厚的学术积累及丰富的工业界实战经验。

本书适合语音技术相关研究人员及互联网从业人员学习参考。

展开

精彩书评

精彩书摘

暂无内容

展开

1  语音识别技术基础 1

1.1 语音识别极简史 1

1.2 语音识别系统架构 6

1.3 一些其他细节 11

2  Kaldi概要介绍 15

2.1 发展历史 15

2.2 设计思想 18

2.3 安装 20

2.4 一个简单的示例 26

2.5 示例介绍 34

3  数据整理 44

3.1 数据分集 44

3.2 数据预处理 49

3.3 输入和输出机制 56

3.4 常用数据表单与处理脚本 69

3.5 语言模型相关文件 79

4  经典声学建模技术 94

4.1 特征提取 95

4.2 单音子模型的训练 107

4.3 三音子模型训练 128

4.4 特征变换技术 139

4.5 区分性训练 143

5  构图和解码 147

5.1 N元文法语言模型 148

5.2 加权有限状态转录机 151

5.3 用WFST表示语言模型 156

5.4 状态图的构建 158

5.5 图的结构优化 170

5.6 最终状态图的生成 174

5.7 基于令牌传递的维特比搜索 176

5.8 SimpleDecoder源码分析 178

5.9 Kaldi 解码器家族 187

5.10 带词网格生成的解码 189

5.11 用语言模型重打分提升识别率 192

6  深度学习声学建模技术 195

6.1 基于神经网络的声学模型 195

6.2 神经网络在Kaldi中的实现 200

6.3 神经网络模型训练 214

6.4 神经网络的区分性训练 228

6.5 与其他深度学习框架的结合 242

7  关键词搜索与语音唤醒 245

7.1 关键词搜索技术介绍 245

7.2 语音检索 247

7.3 语音唤醒 263

……

展开