数据科学中最常用的6种算法,已经掌握它们分别需要哪些数学知识( 二 )


神经网络擅长捕捉数据中的非线性关系,并帮助我们完成音频和图像处理等任务 。虽然存在许多不同类型的神经网络(例如卷积神经网络、前馈神经网络、循环神经网络等),但它们都依赖于转换输入以生成输出的基本概念 。
在上图中,线条将每个圆圈连接到另一个圆圈 。在数学中,这被称为图,一种由边连接的节点组成的数据结构 。
神经网络的核心是一个接收数据、执行线性代数运算并输出答案的系统 。
线性代数是理解神经网络的关键,神经网络通过矩阵和向量空间表示线性方程 。因为线性代数涉及到表示线性方程的矩阵,所以矩阵是理解神经网络核心部分的必备知识 。
矩阵是一个由数字、符号或表达式组成的矩形数组,按行和列排列 。例如:
数据科学中最常用的6种算法,已经掌握它们分别需要哪些数学知识
之所以称为 3x3 矩阵,是因为它有三行三列 。
神经网络,每个特征都表示为一个输入神经元 。每个特征的值乘以神经元的权重向量得到输出 。从数学上讲,这个过程是这样的:
数据科学中最常用的6种算法,已经掌握它们分别需要哪些数学知识
其中 X 是一个 m×n 矩阵,m 是神经元输入的数量,n 是神经元输出的数量 。a是权重向量,aT是a的转置,b是偏差 。
偏差通过向左或向右移动函数来影响神经网络输出,以便更好地预测某些数据集 。() 是一个线性代数术语,意思是将矩阵的行转换为列,将列转换为行 。
所有特征列和权重相乘后,调用激活函数判断神经元是否被激活 。激活函数主要分为三种类型:RELU 函数、函数和双曲正切函数 。
我们已经知道的功能 。RELU函数是一个简洁的函数,当输入x大于0时输出x,当输入x小于0时输出0 。双曲正切函数类似于函数,只是它是用来约束值的?介于 -1 和 1 之间 。
需要数学知识:
需要离散数学和线性代数课程 。为了深入理解,还需要图论、矩阵论、多元微积分和实分析等课程 。
【数据科学中最常用的6种算法,已经掌握它们分别需要哪些数学知识】K 均值聚类
K-Means 聚类 (K-Means) 算法是一种用于对未标记数据进行分类的无监督机器学习 。该算法通过在数据中查找组来工作,其中组由变量 k 表示 。它根据提供的功能将每个数据点分配给 k 个组之一 。
K-means 聚类依赖于整个算法中的距离概念来将数据点“分配”到聚类 。在数学中,有两个指标可以描述集合中任意两个元素之间的距离:欧几里得距离和出租车距离(又名曼哈顿距离) 。
其中,(x1, y1), (x2, y2) 是笛卡尔平面上的坐标点 。
虽然欧几里得距离标准就足够了,但在某些情况下它不起作用 。假设你在城市街道上打车,那么你不能走对角线,你只能走水平和垂直的街道 。这时,我们可以使用打车距离:
需要数学知识:
数据科学中最常用的6种算法,已经掌握它们分别需要哪些数学知识
这部分涉及的知识较少 。你实际上只需要知道加减法和代数的基础知识就可以掌握距离公式 。但是为了深入了解各个距离的基本几何,建议学习欧几里得和非欧几里得几何 。为了更深入地了解度量和度量空间的含义,我阅读了数学分析并参加了一门实际分析课程 。
决策树
决策树是一种类似流程图的树结构,它使用分支方法来说明决策的每个可能结果 。树中的每个节点代表一个特定变量的测试,每个分支都是该测试的结果 。
决策树依赖于信息论 ( ) 。在信息论中,一个人对一个话题了解得越多,能了解的新信息就越少 。信息论的关键之一是熵() 。熵是变量不确定性的度量,形式为:


以上关于本文的内容,仅作参考!温馨提示:如遇专业性较强的问题(如:疾病、健康、理财等),还请咨询专业人士给予相关指导!

「辽宁龙网」www.liaoninglong.com小编还为您精选了以下内容,希望对您有所帮助: