让我真真切切领略到数学的魅力~数学之美概率统计与语音识别

最近读完了吴军老师的《数学之美》,受益匪浅 。本书适合有一定数学基础,想了解互联网技术背后的一些数学原理的读者 。吴军先生并没有从“技巧”的层面向读者讲解技术背后使用的数学算法模型,而是从“道”的层面用简单生动的语言向读者解释了解决某些问题的数学方法和原理 。读这本书,大学高等数学、概率论与数理统计、线性代数似乎都脱掉了枯燥的外衣,让我真正领略到了数学的魅力~
数学之美
概率统计和语音识别
让我真真切切领略到数学的魅力~数学之美概率统计与语音识别
自 1950 年艾伦·图灵提出机器智能至今已有 60 多年,科学家们在探索机器智能语言处理的过程中走过了漫长的弯路 。在最初的 20 年里,科学家们一直在尝试让机器模拟人脑,让机器像人类一样分析句子和语义 。由于语法规则解析树的高度复杂性和用规则来描述语言中的多义词的难度,1950-1970年代的研究成果几乎为零 。
1970年,提出用统计语言模型来解决语言识别问题,即根据句子中每个单词出现的概率来判断句子的合理性,优于传统方法模拟人脑思维 。简单得多 。大学里学过概率论和数理统计的朋友应该很容易理解 。主要使用了里面的条件概率的数学模型 。假设 S 代表一个句子,句子由 10 个 x1, x2,...,x10 组成 。单词按顺序排列,P(S)是句子出现的概率 。P(S)的计算公式如下:
P(S)=P(x1)?P(x2|x 1)?P(x3|x1,x2)???P(x10|x1,x2 ,???,x10)
让我真真切切领略到数学的魅力~数学之美概率统计与语音识别
其中P(x1)是词x1出现的概率,P(x2|x1)是词x1在词x1出现的前提下出现的概率,所以on,可以计算出其他词出现的条件概率 。但是如果句子很长,按照上面的方法计算复杂度会更高 。马尔科夫之前提出了一种方法来简化这种过程,即每个词只和前面的词有关,P(S)的计算公式可以简化为:
P(S)=P(x1)?P(x2|x1)?P(x3|x2)???P (x10|x9)@ >
这个公式是一个二元概率和统计语言模型 。当每个词只和它前面的两个词相关时,它就是一个三元概率统计语言模型 。等等 。随着模型阶数的增加,语音识别的准确率更高技术数学是什么,但也消耗大量资源 。
让我真真切切领略到数学的魅力~数学之美概率统计与语音识别
从概率统计语言模型的公式可以看出,数学可以用简单优雅的方式解决复杂的问题,而且不仅可以解决语音识别问题,还可以应用于机器翻译、拼写错误更正,文献检索,嗯,太强大了 。
布尔运算和搜索引擎
大多数人应该熟悉布尔代数 。记得高中物理课本里有“AND”门、“NOT”门、“OR”门,分别代表逻辑上的“是”和“不是”,正好对应二进制的1和0,1代表真(真),0代表假(假) 。只有“与”、“或”、“非”三种基本运算,与我们的日常生活息息相关 。搜索引擎基于布尔运算解决索引问题 。
让我真真切切领略到数学的魅力~数学之美概率统计与语音识别
当我们在搜索引擎中输入一个关键字时,搜索引擎是如何从大量网页中匹配到所有包含我们输入的关键字的网页索引的原理很简单,用一个长二进制来表示是否关键字出现在每个网页中,有多少个二进制位就有多少个网页,每个位对应一个网页 。比如关键字“”的二进制数为1,则第一、th五、第8、12个网页中包含关键字“”,该关键字将被索引以匹配这些网页页 。当您想同时找到“模型”页面时,只需将这两个关键字的二进制数与布尔运算相结合即可 。


以上关于本文的内容,仅作参考!温馨提示:如遇专业性较强的问题(如:疾病、健康、理财等),还请咨询专业人士给予相关指导!

「辽宁龙网」www.liaoninglong.com小编还为您精选了以下内容,希望对您有所帮助: