MIT的《深度学习》精读（17）-白红宇的个人博客

发布日期：2021-07-01 05:06:26 浏览次数：3 分类：技术文章

本文共 2856 字，大约阅读时间需要 9 分钟。

When designing features or algorithms for learning features, our goal is usually to separate the factors of variation that explain the observed data. In this context, we use the word “factors” simply to refer to separate sources of influence; the factors are usually not combined by multiplication. Such factors are often not quantities that are directly observed. Instead, they may exist either as unobserved objects or unobserved forces in the physical world that affect observable quantities. They may also exist as constructs in the human mind that provide useful simplifying explanations or inferred causes of the observed data. They can be thought of as concepts or abstractions that help us make sense of the rich variability in the data. When analyzing a speech recording, the factors of variation include the speaker’s age, their sex, their accent and the words that they are speaking. When analyzing an image of a car, the factors of variation include the position of the car, its color, and the angle and brightness of the sun.

当设计特征值或者设计特征值学习算法时，我们主要的目标是分离被观察的数据的变量因子。在这里使用了“因子”这两个字，主要是为了简单地说明起主要作用的独立角度，而不是说这些独立角度可以像乘法算式的因子那样可以直接相乘。因此，这些因子所表示的特征值，并不是直接可以观察到的特征。相反，这些因子可能存在于未曾观察到的对象里，或者无法理解的现实世界起作用的力量里。它们也许会是让人类用来对观察的数据起简化作用，或者用来对观察的数据起推断作用。它们可以被认为是概念或抽象，帮助我们了解数据的丰富变化的内容。例如在分析语音时，与之相关的变量因子就有说话者的年龄、性别、口音和所表达的内容；在分析一个汽车的图片时，与之相关的变量因子就有汽车的位置、颜色，以及太阳照射的角度和亮度。

接着下来，来了解一下语言识别的相关内容：

目前，主流的大词汇量语音识别系统多采用统计模式识别技术。典型的基于统计模式识别方法的语音识别系统由以下几个基本模块所构成

信号处理及特征提取模块。该模块的主要任务是从输入信号中提取特征，供声学模型处理。同时，它一般也包括了一些信号处理技术，以尽可能降低环境噪声、信道、说话人等因素对特征造成的影响。统计声学模型。典型系统多采用基于一阶隐马尔科夫模型进行建模。发音词典。发音词典包含系统所能处理的词汇集及其发音。发音词典实际提供了声学模型建模单元与语言模型建模单元间的映射。语言模型。语言模型对系统所针对的语言进行建模。理论上，包括正则语言，上下文无关文法在内的各种语言模型都可以作为语言模型，但目前各种系统普遍采用的还是基于统计的N元文法及其变体。解码器。解码器是语音识别系统的核心之一，其任务是对输入的信号，根据声学、语言模型及词典，寻找能够以最大概率输出该信号的词串。从数学角度可以更加清楚的了解上述模块之间的关系。首先，统计语音识别的最基本问题是，给定输入信号或特征序列，符号集（词典），求解符号串使得：

W = argmaxP(W | O) 通过贝叶斯公式，上式可以改写为

由于对于确定的输入串O，P(O)是确定的，因此省略它并不会影响上式的最终结果，因此，一般来说语音识别所讨论的问题可以用下面的公式来表示，可以将它称为语音识别的基本公式。 W = argmaxP(O | W)P(W)

从这个角度来看，信号处理模块提供了对输入信号的预处理，也就是说，提供了从采集的语音信号(记为S)到特征序列O的映射。而声学模型本身定义了一些更具推广性的声学建模单元，并且提供了在给定输入特征下，估计P(O | uk)的方法。

为了将声学模型建模单元串映射到符号集，就需要发音词典发挥作用。它实际上定义了映射的映射。为了表示方便，也可以定义一个由到U的全集的笛卡尔积，而发音词典则是这个笛卡尔积的一个子集。并且有：

最后，语言模型则提供了P(W)。这样，基本公式就可以更加具体的写成：

对于解码器来说，就是要在由,,ui以及时间标度t张成的搜索空间中，找到上式所指明的W。

语音识别是一门交叉学科，语音识别正逐步成为信息技术中人机接口的关键技术，语音识别技术与语音合成技术结合使人们能够甩掉键盘，通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

与机器进行语音交流，让机器明白你说什么，这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科。近二十年来，语音识别技术取得显著进步，开始从实验室走向市场。人们预计，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。

1. TensorFlow API攻略

2. TensorFlow入门基本教程

3. C++标准模板库从入门到精通

4.跟老菜鸟学C++

5. 跟老菜鸟学python

6. 在VC2015里学会使用tinyxml库

7. 在Windows下SVN的版本管理与实战

8.Visual Studio 2015开发C++程序的基本使用

9.在VC2015里使用protobuf协议

10.在VC2015里学会使用MySQL数据库

转载地址：https://mysoft.blog.csdn.net/article/details/68929362 如侵犯您的版权，请留言回复原文章的地址，我们会给您删除此文章，给您带来不便请您谅解！

上一篇：TensorFlow的异常Reciprocal[T=DT_INT32](Variable_1/read)

下一篇：MIT的《深度学习》精读（16）

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！