数据科学入门数学指南:深入探讨每种算法需要多少数学知识?( 二 )


正如线性回归算法产生线性函数模型一样,回归算法产生函数模型 。也称为函数,它将所有输入值映射到0到1之间的概率结果 。函数可以表示如下:
数据科学入门数学指南:深入探讨每种算法需要多少数学知识?
那么为什么函数总是返回一个介于 0 和 1 之间的值呢?请记住,代数中任何数的负幂等于该数的正幂的倒数 。
所需的数学知识:我们在这里讨论了指数和概率,您需要对代数和概率有扎实的理解才能理解算法的工作原理 。如果你想深入了解概念,我建议你学习概率论以及离散数学或实数分析 。
K 均值聚类
定义:K-Means 聚类算法是的无监督机器学习 。该算法通过揭示数据中的集群来工作,其中集群的数量用 k 表示 。然后迭代,根据特征将每个数据点分配给 k 个集群中的一个 。K-means 聚类依赖于整个算法中的距离概念,将数据点“分配”到不同的聚类中 。距离的概念是指两个给定项目之间的空间量 。在数学中,描述集合中任意两个元素之间距离的函数称为距离函数或度量 。常用的有两种:欧几里得距离和曼哈顿距离 。欧式距离的标准定义如下:
数据科学入门数学指南:深入探讨每种算法需要多少数学知识?
其中 (x1,y1) 和 (x2,y2) 是平面上的笛卡尔坐标点 。虽然欧式距离被广泛使用术数学基础入门全集,但在某些情况下它不起作用 。假设你在走路在大城市;如果有一座巨大的建筑物挡住了你的路线,那么你说“我距离我的目的地6.5个单位”是没有意义的 。为了解决这个问题,我们可以使用曼哈顿距离 。曼哈顿距离公式如下:
其中 (x1,y1) 和 (x2,y2) 是笛卡尔平面上的坐标点 。
数学要求:其实你只需要知道加减法,了解代数的基础,就可以掌握距离公式 。但要深入了解每种度量所涵盖的基本几何类型,我建议学习包括欧几里得几何和非欧几里得几何的几何 。为了深入了解度量和度量空间的含义,我会阅读数学分析并参加实数分析课程 。
决策树
定义:决策树是一种类似于流程图的树结构,使用分支方法来说明决策的每个可能结果 。树中的每个节点都代表对特定变量的测试,每个分支都是该测试的结果 。决策树依赖于信息论的理论来确定它们是如何构建的 。在信息论中,人们对一个事件了解得越多,他们从中获得的新信息就越少 。信息论中的关键指标之一称为熵 。熵量化了给定变量 A 度量中的不确定性量 。熵可以表示为:
数据科学入门数学指南:深入探讨每种算法需要多少数学知识?
【数据科学入门数学指南:深入探讨每种算法需要多少数学知识?】在上面的公式中,P(x_i) 是随机事件 x_i 发生的概率 。对数的底 b 可以是任何大于 0 的实数;通常基值为2、e(2.71)和10 。像“S”这样花哨的符号是求和符号,可以连续添加求和符号以外的函数,而加法的次数取决于求和的上下界,计算完熵后,我们就可以开始构建决策树了,利用信息增益来确定哪种分割方法会使熵最大化 。信息增益的公式为如下:
数据科学入门数学指南:深入探讨每种算法需要多少数学知识?
信息增益衡量的是信息量术数学基础入门全集,即获得了多少“比特”信息 。在决策树的情况下,我们可以计算数据集中每一列的信息增益,以便找出哪一列会给我们带来最大的信息增益,然后在该列上进行拆分 。
需要数学知识:仅对决策树有初步的了解,需要基本的代数和概率知识 。如果您想深入了解概率和对数的概念,我建议您参加概率论和代数课程 。


以上关于本文的内容,仅作参考!温馨提示:如遇专业性较强的问题(如:疾病、健康、理财等),还请咨询专业人士给予相关指导!

「辽宁龙网」www.liaoninglong.com小编还为您精选了以下内容,希望对您有所帮助: