数据科学入门数学指南：深入探讨每种算法需要多少数学知识？( 二 ) _数学

正如线性回归算法产生线性函数模型一样，回归算法产生函数模型。也称为函数，它将所有输入值映射到0到1之间的概率结果。函数可以表示如下：

那么为什么函数总是返回一个介于 0 和 1 之间的值呢？请记住，代数中任何数的负幂等于该数的正幂的倒数。
所需的数学知识：我们在这里讨论了指数和概率，您需要对代数和概率有扎实的理解才能理解算法的工作原理。如果你想深入了解概念，我建议你学习概率论以及离散数学或实数分析。
K 均值聚类
定义：K-Means 聚类算法是的无监督机器学习。该算法通过揭示数据中的集群来工作，其中集群的数量用 k 表示。然后迭代，根据特征将每个数据点分配给 k 个集群中的一个。K-means 聚类依赖于整个算法中的距离概念，将数据点“分配”到不同的聚类中。距离的概念是指两个给定项目之间的空间量。在数学中，描述集合中任意两个元素之间距离的函数称为距离函数或度量。常用的有两种：欧几里得距离和曼哈顿距离。欧式距离的标准定义如下：

其中 (x1,y1) 和 (x2,y2) 是平面上的笛卡尔坐标点。虽然欧式距离被广泛使用术数学基础入门全集，但在某些情况下它不起作用。假设你在走路在大城市；如果有一座巨大的建筑物挡住了你的路线，那么你说“我距离我的目的地6.5个单位”是没有意义的。为了解决这个问题，我们可以使用曼哈顿距离。曼哈顿距离公式如下：
其中 (x1,y1) 和 (x2,y2) 是笛卡尔平面上的坐标点。
数学要求：其实你只需要知道加减法，了解代数的基础，就可以掌握距离公式。但要深入了解每种度量所涵盖的基本几何类型，我建议学习包括欧几里得几何和非欧几里得几何的几何。为了深入了解度量和度量空间的含义，我会阅读数学分析并参加实数分析课程。
决策树
定义：决策树是一种类似于流程图的树结构，使用分支方法来说明决策的每个可能结果。树中的每个节点都代表对特定变量的测试，每个分支都是该测试的结果。决策树依赖于信息论的理论来确定它们是如何构建的。在信息论中，人们对一个事件了解得越多，他们从中获得的新信息就越少。信息论中的关键指标之一称为熵。熵量化了给定变量 A 度量中的不确定性量。熵可以表示为：

【数据科学入门数学指南：深入探讨每种算法需要多少数学知识？】在上面的公式中，P(x_i) 是随机事件 x_i 发生的概率。对数的底 b 可以是任何大于 0 的实数；通常基值为2、e(2.71）和10 。像“S”这样花哨的符号是求和符号，可以连续添加求和符号以外的函数，而加法的次数取决于求和的上下界，计算完熵后，我们就可以开始构建决策树了，利用信息增益来确定哪种分割方法会使熵最大化。信息增益的公式为如下：

信息增益衡量的是信息量术数学基础入门全集，即获得了多少“比特”信息。在决策树的情况下，我们可以计算数据集中每一列的信息增益，以便找出哪一列会给我们带来最大的信息增益，然后在该列上进行拆分。
需要数学知识：仅对决策树有初步的了解，需要基本的代数和概率知识。如果您想深入了解概率和对数的概念，我建议您参加概率论和代数课程。

以上关于本文的内容，仅作参考！温馨提示：如遇专业性较强的问题（如：疾病、健康、理财等），还请咨询专业人士给予相关指导!

「辽宁龙网」www.liaoninglong.com小编还为您精选了以下内容，希望对您有所帮助：