数据科学中最常用的6种算法,已经掌握它们分别需要哪些数学知识( 三 )


数据科学中最常用的6种算法,已经掌握它们分别需要哪些数学知识
在上面的公式中,P(x) 是特征在数据集中出现的概率 。b是对数函数的底,其常用值为2、e和10 。前面的Σ符号代表求和,上、下两边写上求和的上下限,分别 。
在计算完熵之后,我们可以构造一个具有信息增益的决策树,它告诉哪个分裂将最小化熵 。信息增益公式如下:
信息增益是衡量有多少“信息”可用的指标 。在决策树中,我们可以计算数据集中每一列的信息增益,找出哪一列给我们的信息增益最多,然后在该列上进行拆分 。
需要数学知识:
代数和概率的基本知识是理解决策树所必需的 。


以上关于本文的内容,仅作参考!温馨提示:如遇专业性较强的问题(如:疾病、健康、理财等),还请咨询专业人士给予相关指导!

「辽宁龙网」www.liaoninglong.com小编还为您精选了以下内容,希望对您有所帮助: