信息增益计算和决策树生长过程

9 篇文章 3 订阅
订阅专栏

信息增益计算和决策树生长过程

给定训练集S,下面以信息增益作为最佳划分的标准,演示信息增益的计算和决策树生长的过程:

image-20220902101624313

根节点

(1)以“Outlook”被选做划分属性

image-20220902080238593

总共有14条数据,打球9条,不打球的5条

根据Outlook进行划分:

  • Sunny中有5条数据,其中打球2条,不打球3条
  • Overcast中有4条数据,其中打球4条,不打球0条
  • Rain中有5条数据,其中打球3条,不打球2条

如下图所示:

image-20220902084506916

计算信息增益:
E ( O u t l o o k ) = − 9 14 l o g 2 9 14 − 5 14 l o g 2 5 14 E ( S S u n n y ) = − 2 5 l o g 2 2 5 − 3 5 l o g 2 3 5 E ( S O v e r c a s t ) = − 4 4 l o g 2 4 4 − 0 4 l o g 2 0 4 E ( S R a i n ) = − 3 5 l o g 2 3 5 − 2 5 l o g 2 2 5 G a i n ( O u t l o o k ) = E ( O u t l o o k ) − [ 5 14 E ( S S u n n y ) + 4 14 E ( S O v e r c a s t ) + 5 14 E ( S R a i n ) ] = 0.246 E(Outlook)=-\frac{9}{14}log_2\frac{9}{14}-\frac{5}{14}log_2\frac{5}{14} \\E(S_{Sunny})=-\frac{2}{5}log_2\frac{2}{5}-\frac{3}{5}log_2\frac{3}{5} \\E(S_{Overcast})=-\frac{4}{4}log_2\frac{4}{4}-\frac{0}{4}log_2\frac{0}{4} \\E(S_{Rain})=-\frac{3}{5}log_2\frac{3}{5}-\frac{2}{5}log_2\frac{2}{5} \\Gain(Outlook)=E(Outlook)-[\frac{5}{14}E(S_{Sunny})+\frac{4}{14}E(S_{Overcast})+\frac{5}{14}E(S_{Rain})] =0.246 E(Outlook)=149log2149145log2145E(SSunny)=52log25253log253E(SOvercast)=44log24440log240E(SRain)=53log25352log252Gain(Outlook)=E(Outlook)[145E(SSunny)+144E(SOvercast)+145E(SRain)]=0.246
可见,用属性“Outlook”划分样本集S的信息增益为:

Gain(S,Outlook)=0.246

(2)以“Temperature”作为划分属性

根据Temperature进行划分:

  • Hot中有4条数据,其中打球2条,不打球2条
  • Mild中有6条数据,其中打球4条,不打球2条
  • Cool中有4条数据,其中打球3条,不打球1条

如下图所示:

image-20220902090504767

计算信息增益:
E ( T e m p e r a t u r e ) = − 9 14 l o g 2 9 14 − 5 14 l o g 2 5 14 E ( S H o t ) = − 2 4 l o g 2 2 4 − 2 4 l o g 2 2 4 E ( S M i l d ) = − 4 6 l o g 2 4 6 − 2 6 l o g 2 2 6 E ( S R a i n ) = − 3 4 l o g 2 3 4 − 1 4 l o g 2 1 4 G a i n ( T e m p e r a t u r e ) = E ( T e m p e r a t u r e ) − [ 4 14 E ( S H o t ) + 6 14 E ( S M i l d ) + 4 14 E ( S C o o l ) ] = 0.029 E(Temperature)=-\frac{9}{14}log_2\frac{9}{14}-\frac{5}{14}log_2\frac{5}{14} \\E(S_{Hot})=-\frac{2}{4}log_2\frac{2}{4}-\frac{2}{4}log_2\frac{2}{4} \\E(S_{Mild})=-\frac{4}{6}log_2\frac{4}{6}-\frac{2}{6}log_2\frac{2}{6} \\E(S_{Rain})=-\frac{3}{4}log_2\frac{3}{4}-\frac{1}{4}log_2\frac{1}{4} \\Gain(Temperature)=E(Temperature)-[\frac{4}{14}E(S_{Hot})+\frac{6}{14}E(S_{Mild})+\frac{4}{14}E(S_{Cool})] =0.029 E(Temperature)=149log2149145log2145E(SHot)=42log24242log242E(SMild)=64log26462log262E(SRain)=43log24341log241Gain(Temperature)=E(Temperature)[144E(SHot)+146E(SMild)+144E(SCool)]=0.029

(3)以“Humidity”作为划分属性

根据Humidity进行划分:

  • High中有7条数据,其中打球3条,不打球4条
  • Normal中有7条数据,其中打球6条,不打球1条

如下图所示:

image-20220902095027292

计算信息增益:
E ( H u m i d i t y ) = − 9 14 l o g 2 9 14 − 5 14 l o g 2 5 14 E ( S H i g h ) = − 3 7 l o g 2 3 7 − 4 7 l o g 2 4 7 E ( S N o r m a l ) = − 6 7 l o g 2 6 7 − 1 7 l o g 2 1 7 G a i n ( H u m i d i t y ) = E ( H u m i d i t y ) − [ 7 14 E ( S H i g h ) + 7 14 E ( S N o r m a l ) ] = 0.151 E(Humidity)=-\frac{9}{14}log_2\frac{9}{14}-\frac{5}{14}log_2\frac{5}{14} \\E(S_{High})=-\frac{3}{7}log_2\frac{3}{7}-\frac{4}{7}log_2\frac{4}{7} \\E(S_{Normal})=-\frac{6}{7}log_2\frac{6}{7}-\frac{1}{7}log_2\frac{1}{7} \\Gain(Humidity)=E(Humidity)-[\frac{7}{14}E(S_{High})+\frac{7}{14}E(S_{Normal})] =0.151 E(Humidity)=149log2149145log2145E(SHigh)=73log27374log274E(SNormal)=76log27671log271Gain(Humidity)=E(Humidity)[147E(SHigh)+147E(SNormal)]=0.151

(4)以“Wind”作为划分属性

根据Wind进行划分:

  • Weak中有8条数据,其中打球6条,不打球2条
  • Strong中有6条数据,其中打球3条,不打球3条

如下图所示:

image-20220902100332429

计算信息增益:
E ( W i n d ) = − 9 14 l o g 2 9 14 − 5 14 l o g 2 5 14 E ( S W e a k ) = − 6 8 l o g 2 6 8 − 2 8 l o g 2 2 8 E ( S S t r o n g ) = − 3 6 l o g 2 3 6 − 3 6 l o g 2 3 6 G a i n ( W i n d ) = E ( W i n d ) − [ 8 14 E ( S W e a k ) + 6 14 E ( S S t r o n g ) ] = 0.048 E(Wind)=-\frac{9}{14}log_2\frac{9}{14}-\frac{5}{14}log_2\frac{5}{14} \\E(S_{Weak})=-\frac{6}{8}log_2\frac{6}{8}-\frac{2}{8}log_2\frac{2}{8} \\E(S_{Strong})=-\frac{3}{6}log_2\frac{3}{6}-\frac{3}{6}log_2\frac{3}{6} \\Gain(Wind)=E(Wind)-[\frac{8}{14}E(S_{Weak})+\frac{6}{14}E(S_{Strong})] =0.048 E(Wind)=149log2149145log2145E(SWeak)=86log28682log282E(SStrong)=63log26363log263Gain(Wind)=E(Wind)[148E(SWeak)+146E(SStrong)]=0.048

(5)根节点选择

比较四个以不同属性划分的信息增益:

  • Gain(S,Outlook)=0.246
  • Gain(S,Temperature)=0.029
  • Gain(S,Humidity)=0.151
  • Gain(S,Wind)=0.048

所以,对于当前节点,用“Outlook”划分样本集S的信息增益最大,被选为划分属性。

image-20220902112302227

左儿子节点(Sunny)

(1)以“Temperature”作为划分属性

总共有5条数据,打球2条,不打球的3条

根据Temperature进行划分:

  • Hot中有2条数据,其中打球0条,不打球2条
  • Mild中有2条数据,其中打球1条,不打球1条
  • Cool中有1条数据,其中打球1条,不打球0条

如下图所示:

image-20220902102857144

计算信息增益:
E ( T e m p e r a t u r e ) = − 2 5 l o g 2 2 5 − 3 5 l o g 2 3 5 E ( S H o t ) = − 0 2 l o g 2 0 2 − 2 2 l o g 2 2 2 E ( S M i l d ) = − 1 2 l o g 2 1 2 − 1 2 l o g 2 1 2 E ( S R a i n ) = − 1 1 l o g 2 1 1 − 0 1 l o g 2 0 1 G a i n ( T e m p e r a t u r e ) = E ( T e m p e r a t u r e ) − [ 2 5 E ( S H o t ) + 2 5 E ( S M i l d ) + 1 5 E ( S C o o l ) ] = 0.5710 E(Temperature)=-\frac{2}{5}log_2\frac{2}{5}-\frac{3}{5}log_2\frac{3}{5} \\E(S_{Hot})=-\frac{0}{2}log_2\frac{0}{2}-\frac{2}{2}log_2\frac{2}{2} \\E(S_{Mild})=-\frac{1}{2}log_2\frac{1}{2}-\frac{1}{2}log_2\frac{1}{2} \\E(S_{Rain})=-\frac{1}{1}log_2\frac{1}{1}-\frac{0}{1}log_2\frac{0}{1} \\Gain(Temperature)=E(Temperature)-[\frac{2}{5}E(S_{Hot})+\frac{2}{5}E(S_{Mild})+\frac{1}{5}E(S_{Cool})] =0.5710 E(Temperature)=52log25253log253E(SHot)=20log22022log222E(SMild)=21log22121log221E(SRain)=11log21110log210Gain(Temperature)=E(Temperature)[52E(SHot)+52E(SMild)+51E(SCool)]=0.5710

(2)以“Humidity”作为划分属性

总共有5条数据,打球2条,不打球的3条

根据Humidity进行划分:

  • High中有3条数据,其中打球0条,不打球3条
  • Normal中有2条数据,其中打球2条,不打球0条

如下图所示:

image-20220902104423365

计算信息增益:
E ( H u m i d i t y ) = − 2 5 l o g 2 2 5 − 3 5 l o g 2 3 5 E ( S H i g h ) = − 0 3 l o g 2 0 3 − 3 3 l o g 2 3 3 E ( S N o r m a l ) = − 2 2 l o g 2 2 2 − 0 2 l o g 2 0 2 G a i n ( H u m i d i t y ) = E ( H u m i d i t y ) − 3 5 E ( S H i g h ) + 2 5 E ( S N o r m a l ) = 0.9710 E(Humidity)=-\frac{2}{5}log_2\frac{2}{5}-\frac{3}{5}log_2\frac{3}{5} \\E(S_{High})=-\frac{0}{3}log_2\frac{0}{3}-\frac{3}{3}log_2\frac{3}{3} \\E(S_{Normal})=-\frac{2}{2}log_2\frac{2}{2}-\frac{0}{2}log_2\frac{0}{2} \\Gain(Humidity)=E(Humidity)-\frac{3}{5}E(S_{High})+\frac{2}{5}E(S_{Normal}) =0.9710 E(Humidity)=52log25253log253E(SHigh)=30log23033log233E(SNormal)=22log22220log220Gain(Humidity)=E(Humidity)53E(SHigh)+52E(SNormal)=0.9710

(3)以“Wind”作为划分属性

总共有5条数据,打球2条,不打球的3条

根据Wind进行划分:

  • Weak中有3条数据,其中打球1条,不打球2条
  • Strong中有2条数据,其中打球1条,不打球1条

如下图所示:

image-20220902105734251

计算信息增益:
E ( W i n d ) = − 2 5 l o g 2 2 5 − 3 5 l o g 2 3 5 E ( S W e a k ) = − 1 3 l o g 2 1 3 − 2 3 l o g 2 2 3 E ( S S t r o n g ) = − 1 2 l o g 2 1 2 − 1 2 l o g 2 1 2 G a i n ( W i n d ) = E ( W i n d ) − [ 3 5 E ( S W e a k ) + 2 5 E ( S S t r o n g ) ] = 0.019973 E(Wind)=-\frac{2}{5}log_2\frac{2}{5}-\frac{3}{5}log_2\frac{3}{5} \\E(S_{Weak})=-\frac{1}{3}log_2\frac{1}{3}-\frac{2}{3}log_2\frac{2}{3} \\E(S_{Strong})=-\frac{1}{2}log_2\frac{1}{2}-\frac{1}{2}log_2\frac{1}{2} \\Gain(Wind)=E(Wind)-[\frac{3}{5}E(S_{Weak})+\frac{2}{5}E(S_{Strong})] =0.019973 E(Wind)=52log25253log253E(SWeak)=31log23132log232E(SStrong)=21log22121log221Gain(Wind)=E(Wind)[53E(SWeak)+52E(SStrong)]=0.019973

(4)左儿子节点选择

比较四个以不同属性划分的信息增益:

  • Gain(S,Temperature)=0.5710
  • Gain(S,Humidity)=0.9710
  • Gain(S,Wind)=0.019973

所以,对于当前节点,用“Humidity”划分样本集S的信息增益最大,被选为划分属性。

image-20220902111740122

右儿子节点(Rain)

(1)以“Temperature”作为划分属性

总共有5条数据,打球3条,不打球的2条

根据Temperature进行划分:

  • Mild中有3条数据,其中打球2条,不打球1条
  • Cool中有2条数据,其中打球1条,不打球1条

如下图所示:

image-20220902112933214

计算信息增益:
E ( T e m p e r a t u r e ) = − 3 5 l o g 2 3 5 − 2 5 l o g 2 2 5 E ( S M i l d ) = − 2 3 l o g 2 2 3 − 1 3 l o g 2 1 3 E ( S R a i n ) = − 1 2 l o g 2 1 2 − 1 2 l o g 2 1 2 G a i n ( T e m p e r a t u r e ) = E ( T e m p e r a t u r e ) − [ 3 5 E ( S M i l d ) + 2 5 E ( S C o o l ) ] = 0.019973 E(Temperature)=-\frac{3}{5}log_2\frac{3}{5}-\frac{2}{5}log_2\frac{2}{5} \\E(S_{Mild})=-\frac{2}{3}log_2\frac{2}{3}-\frac{1}{3}log_2\frac{1}{3} \\E(S_{Rain})=-\frac{1}{2}log_2\frac{1}{2}-\frac{1}{2}log_2\frac{1}{2} \\Gain(Temperature)=E(Temperature)-[\frac{3}{5}E(S_{Mild})+\frac{2}{5}E(S_{Cool})] = 0.019973 E(Temperature)=53log25352log252E(SMild)=32log23231log231E(SRain)=21log22121log221Gain(Temperature)=E(Temperature)[53E(SMild)+52E(SCool)]=0.019973

(2)以“Humidity”作为划分属性

总共有5条数据,打球3条,不打球的2条

根据Humidity进行划分:

  • High中有2条数据,其中打球1条,不打球1条
  • Normal中有3条数据,其中打球2条,不打球1条

如下图所示:

image-20220902120912489

计算信息增益:
E ( H u m i d i t y ) = − 3 5 l o g 2 3 5 − 2 5 l o g 2 2 5 E ( S H i g h ) = − 1 2 l o g 2 1 2 − 1 2 l o g 2 1 2 E ( S N o r m a l ) = − 2 3 l o g 2 2 3 − 1 3 l o g 2 1 3 G a i n ( H u m i d i t y ) = E ( H u m i d i t y ) − [ 2 5 E ( S H i g h ) + 3 5 E ( S N o r m a l ) ] = 0.019973 E(Humidity)=-\frac{3}{5}log_2\frac{3}{5}-\frac{2}{5}log_2\frac{2}{5} \\E(S_{High})=-\frac{1}{2}log_2\frac{1}{2}-\frac{1}{2}log_2\frac{1}{2} \\E(S_{Normal})=-\frac{2}{3}log_2\frac{2}{3}-\frac{1}{3}log_2\frac{1}{3} \\Gain(Humidity)=E(Humidity)-[\frac{2}{5}E(S_{High})+\frac{3}{5}E(S_{Normal})] = 0.019973 E(Humidity)=53log25352log252E(SHigh)=21log22121log221E(SNormal)=32log23231log231Gain(Humidity)=E(Humidity)[52E(SHigh)+53E(SNormal)]=0.019973

(3)以“Wind”作为划分属性

总共有5条数据,打球3条,不打球的2条

根据Wind进行划分:

  • Weak中有3条数据,其中打球3条,不打球0条
  • Strong中有2条数据,其中打球0条,不打球2条

如下图所示:

image-20220902121253350

计算信息增益:
E ( W i n d ) = − 3 5 l o g 2 3 5 − 2 5 l o g 2 2 5 E ( S W e a k ) = − 3 3 l o g 2 3 3 − 0 3 l o g 2 0 3 E ( S S t r o n g ) = − 0 2 l o g 2 0 2 − 2 2 l o g 2 2 2 G a i n ( W i n d ) = E ( W i n d ) − [ 3 5 E ( S W e a k ) + 2 5 E ( S S t r o n g ) ] = 0.9710 E(Wind)=-\frac{3}{5}log_2\frac{3}{5}-\frac{2}{5}log_2\frac{2}{5} \\E(S_{Weak})=-\frac{3}{3}log_2\frac{3}{3}-\frac{0}{3}log_2\frac{0}{3} \\E(S_{Strong})=-\frac{0}{2}log_2\frac{0}{2}-\frac{2}{2}log_2\frac{2}{2} \\Gain(Wind)=E(Wind)-[\frac{3}{5}E(S_{Weak})+\frac{2}{5}E(S_{Strong})] =0.9710 E(Wind)=53log25352log252E(SWeak)=33log23330log230E(SStrong)=20log22022log222Gain(Wind)=E(Wind)[53E(SWeak)+52E(SStrong)]=0.9710

(4)右儿子节点选择

比较四个以不同属性划分的信息增益:

  • Gain(S,Temperature)= 0.019973
  • Gain(S,Humidity)=0.019973
  • Gain(S,Wind)=0.9710

所以,对于当前节点,用“Wind”划分样本集S的信息增益最大,被选为划分属性。

image-20220902121649494

决策树

image-20220902121638582

信息增益生成决策树
qq_38290604的博客
05-19 7355
首先查看数据集 我们用这个数据集来构造决策树,判断一个新的西瓜是否为好瓜。 决策树的构造 计算数据集的信息熵 首先观察数据集DDD,发现数据集DDD中有好瓜和坏瓜两个类别,其中好瓜占比p1=817p_1=\frac {8}{17}p1​=178​,坏瓜占比p2=917p_2=\frac {9}{17}p2​=179​,计算出数据集DDD的信息熵为 Ent(D)=−∑k=12pklog2pk=−(...
决策树(ID3)——用信息增益划分
m0_57326685的博客
05-23 6536
对于刚刚开始学习决策树的同学们来说,可能对建立一个决策树有一些疑惑,这篇文章主要是简略的介绍用信息增益来建立一个决策树的简单过程。 文章可能会有一些错误,欢迎大家讨论学习。 1.信息熵 在了解信息增益前,我们必须要清楚信息熵。信息熵的公式 yes 50 no 60 这个分类的信息熵:Info(D)= 2.信息增益 ...
基于信息增益决策树算法(附MATLAB代码)
weixin_38505222的博客
12-18 6277
基于信息增益决策树算法(附MATLAB代码) 最近在学机器学习,本篇文章的内容正好是作业内容,所以拿来分享一下,顺便捋一下思路。下面内容只涉及到决策树学习基本算法(伪代码)、信息增益计算和matlab代码实现。决策树算法原理不再赘述,请自行百度。水平有限,如有错误,欢迎指正! 一、决策树学习基本算法 二、 信息增益计算 1.信息熵 “信息熵”(information entropy)是度量样...
educoder机器学习-实验四-编程实现基于信息增益进行划分选择的决策树算法
m0_64351669的博客
10-29 1623
这是educoder平台,机器学习-实验四-编程实现基于信息增益进行划分选择的决策树算法的代码详解与解决过程详解,创造不易,请大家点点赞,收藏藏!
机器学习】采用信息增益信息增益率、基尼指数来建造决策树
qq_49192977的博客
10-28 3858
一.创建数据集 乳腺癌数据集breast-cancer.txt含有10个属性(包括决策属性)共286条样本。接下来我将一半样本作训练集,一半样本作测试集。 来源(UCI Machine Learning Repository: Breast Cancer Data Set) 属性信息 1. Class: no-recurrence-events, recurrence-events 2. age: 10-19, 20-29, 30-39, 40-49, 50-59, 60-69, 70-79, 80
python实现基于信息增益决策树归纳
12-26
本文实例为大家分享了基于信息增益决策树归纳的Python实现代码,供大家参考,具体内容如下 # -*- coding: utf-8 -*- import numpy as np import matplotlib.mlab as mlab import matplotlib.pyplot as plt from ...
Python决策树之基于信息增益的特征选择示例
12-24
本文实例讲述了Python决策树之基于信息增益的特征选择。分享给大家供大家参考,具体如下: 基于信息增益的特征选取是一种广泛使用在决策树(decision tree)分类算法中用到的特征选取。该特征选择的方法是通过计算每个...
基于信息增益决策树(python)
11-16
自己用Python3.6.1 写的基于信息增益决策树,信息熵函数、信息增益函数、多数决函数、产生决策树的函数写的都比较清楚,直接下载放在python环境中就能出结果,数据用的是周志华老师的《机器学习》的4.3。
决策树
weiwei19890308的博客
09-06 271
概述 决策树decision tree是功能强大且相当受欢迎的分类和预测方法。他是基于特征对实例进行分类,他是一种树状结构。 本章中,训练集用DDD,TTT示一颗决策树决策树 决策树原理 决策树是一个贪心算法,即在特性空间上执行递归的二元分割,决策树有节点和有向边组成。内部节点示一个特征或者属性;叶子节点示一个分类。 决策树可以给定特征条件下,类别的条件概率分布。将特征空...
决策树学习1-信息增益划分实例计算
魏晋小子的博客
07-26 5070
1. 算法流程及说明 首先给出决策树计算流程,该图来自于周志华老师的《机器学习》(经典教材) 书中提到,有三种情形会导致递归返回: -1 当前节点包含的样本属于同一类别; -2 当前属性集为空或者所有样本在所有属性上的取值相同 -3 当前节点包含的样本集合为空 并且强调了: -第2种情形将该节点中含样本最多的类别作为该节点的类别 -第3种情形将父节点中含样本最多的类别作为该节点的类别 个人认为这...
用于构造决策树的小数据集
04-16
数据挖掘概念与技术课本P218页数据格式为.csv。。决策树一般采用贪心策略**自顶向下**递归的分治方式构造,从训练元组集和与之相关联的类标号开始,随着树的构建训练集递归地划分成较小的子集。构造过程大致如下: 1. 构造**根结点**,根据**属性选择度量**(例如ID3的信息增益)来选择合适的属性作为根结点。 2. 根据根结点的属性值(可能是离散的,连续的或二值的)**分枝**,每个分枝代元组在该属性下可能满足的条件。
机器学习与数据挖掘--编程实现基于信息增益进行划分选择的决策树
qq_55949041的博客
10-27 1207
编程实现基于信息增益进行划分选择的决策树算法
机器学习第四章【决策树】学习记录:ID3练习题:给定如下一个训练集计算并画出ID3决策树
热门推荐
重邮小菜鸟的博客
05-08 1万+
数据如下图:    1.首先计算结果选项出现的频率:类1(p1)类2(p2)0.64290.3571     2.计算因变量的期望信息:               E = 0.94       3.计算自变量的期望信息:属性2657075788085909596数量131131211               E(2)=吃饭去,回来继续...
根据信息增益率构造决策树_机器学习实战:决策树(一)信息增益
weixin_34725044的博客
02-01 1730
CSDN:https://blog.csdn.net/weixin_45814668微信公众号:qiongjian0427Git:https://github.com/qiongjian/Machine-learning/​github.com运行环境:anaconda—jupyter notebookPython版本:Python31. 简介 k-近邻算法最大的缺点就是无法给出数据的内在含义,决...
决策树算法定义,理解,信息增益计算方式
iphone4grf的博客
05-29 4359
决策树算法:     参考网址:http://www.cnblogs.com/leoo2sk/archive/2010/09/19/decision-tree.html         通俗来说,决策树分类的思想类似于找对象。现想象一个女孩的母亲要给这个女孩介绍男朋友,于是有了下面的对话:       女儿:多大年纪了?       母亲:26。       女儿:长的帅不帅?   
论文笔记3《基于信息增益和最小距离分类的决策树改进算法
Txiaomiao的博客
12-10 1101
2013年《科学技术与工程》期刊 部分摘要:改进后的算法针对决策树在分类过程中遇到的训练集中存在相同属性集,但属于不同类别的实例的情况,不再采用多数决法判断叶结点的类别,而是采用基于信息增益的属性约简和最小距离分类的新方法进行类别的判断。 算法改进: 算法描述: (i)    先构造ID3决策树,但在构造的过程中对于具有相同属性集属于不同类别的实例,暂时用nu
机器学习】实验二 决策树
126
10-28 946
本次的博客任务: 描述决策树的生成算法的原理,流程(包含决策树生成、剪枝等) 针对自制数据库(划分成训练数据、测试数据),构造决策树并可视化。重点体现在实验结果分析 实验任务: 1.自建数据集,数据量不少于100条,属性不少于6个(不含决策属性),样本数量、属性越多越好 2.分别采用信息增益信息增益率、基尼指数来建造决策树, 3.实现树的可视化,同时评估精度,分析原因 4.博客需体现算法流程,以及原理 文章目录1.决策树简介2.决策树算法基本思想3.决策树构造3.1算法流程3.2划分选择3.2.1信息
日常学习记录——决策树根节点的选择
weixin_39276221的博客
04-29 2442
日常学习记录——决策树根节点的选择1 数据集2 根节点的选择1 信息增益计算2 计算单列属性信息熵3 计算各属性信息增益3 存在问题与反思 1 数据集 本例使用的是经过预处理的模糊数据集,如下所示。其中,C1代密度属性列,C2代含糖量属性列,L、N、H分别代偏低,中等,偏高这三个模糊语义。 2 根节点的选择 1 信息增益计算 代码如下: # 计算数据集的信息熵 def cal_entD(target): count_posi_label = 0 for i in range(l
信息增益决策树预剪枝
最新发布
04-27
信息增益决策树预剪枝是一种用于决策树算法中的优化技术,旨在避免过拟合问题。在构建决策树过程中,预剪枝通过提前停止树的生长来防止过度拟合训练数据。 具体来说,信息增益决策树预剪枝的步骤如下: 1. 在每个...

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • R及RStudio下载安装教程(超详细) 216243
  • localhost:8080打不开原因解决方法 96543
  • Jieba库的安装 84297
  • Python实现杨辉三角 77177
  • HIve安装配置(超详细) 55285

分类专栏

  • Mathtype 1篇
  • Hive数据仓库 10篇
  • HBase高手之路 8篇
  • Spark高手之路 4篇
  • Flink高手之路 6篇
  • Hadoop高手之路 11篇
  • Scala 3篇
  • Python 5篇
  • Python基础语法 25篇
  • Python库 8篇
  • Python练习题 17篇
  • 数据挖掘
  • 数据挖掘与可视化 9篇
  • 数据挖掘概念与技术
  • 工具 6篇
  • MySQL数据库
  • MySQL基础 6篇
  • MySQL进阶 2篇
  • Linux 16篇
  • Python爬虫 25篇
  • R语言 28篇
  • Pandas 2篇

最新评论

  • HIve安装配置(超详细)

    Cecelia☆: [root@hadoop03 mysql_lib]# rpm -ivh mysql-community-server-5.7.36-1.el7.x86_64.rpm 警告:mysql-community-server-5.7.36-1.el7.x86_64.rpm: 头V3 DSA/SHA256 Signature, 密钥 ID 5072e1f5: NOKEY 错误:依赖检测失败: /usr/bin/perl 被 mysql-community-server-5.7.36-1.el7.x86_64 需要 perl(Getopt::Long) 被 mysql-community-server-5.7.36-1.el7.x86_64 需要 perl(strict) 被 mysql-community-server-5.7.36-1.el7.x86_64 需要 显示这种怎么解决呀,有大佬能告知一下吗

  • HIve安装配置(超详细)

    Cecelia☆: 大神能发我一份么

  • HIve安装配置(超详细)

    wlhappppppp: 你好 我输入 初始化Derby的那条命令为什么一直显示未找到命令 我没输错呀

  • HIve安装配置(超详细)

    Echo.507: 都在一个容器里进行吗

  • Jieba库的安装

    hellokitttting: 怎么我解压缩之后是.tar格式?表情包

您愿意向朋友推荐“博客详情页”吗?

  • 强烈不推荐
  • 不推荐
  • 一般般
  • 推荐
  • 强烈推荐
提交

最新文章

  • Python数字类型
  • Python基础语法
  • Pandas基础介绍
2024年6篇
2023年59篇
2022年159篇
2021年1篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

W_chuanqi

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或 充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

聚圣源失业补助金几号发到卡上宝宝起名欠金验房知识小吃加盟店信息她的小梨涡fallinlove长春中考分数线穿越小说免费阅读用睿起什么名字好网名起什么名字好墨字适合属鼠起名吗东山学堂八字缺金起那个名字历史故事大全100篇一个人的武林粤语荣耀9a给小女孩起个洋气名字厂子起名字灵剑尊动漫在线观看qq等级排行榜查询新字开头的公司起名称项目名称怎么起帮男宝宝起个乳名起名诗词 的男孩名字家庭理财刀客家族的女人电视剧全集梦见放鞭炮赵天齐给医药器械公司起名qq空间闪图淀粉肠小王子日销售额涨超10倍罗斯否认插足凯特王妃婚姻让美丽中国“从细节出发”清明节放假3天调休1天男孩疑遭霸凌 家长讨说法被踢出群国产伟哥去年销售近13亿网友建议重庆地铁不准乘客携带菜筐雅江山火三名扑火人员牺牲系谣言代拍被何赛飞拿着魔杖追着打月嫂回应掌掴婴儿是在赶虫子山西高速一大巴发生事故 已致13死高中生被打伤下体休学 邯郸通报李梦为奥运任务婉拒WNBA邀请19岁小伙救下5人后溺亡 多方发声王树国3次鞠躬告别西交大师生单亲妈妈陷入热恋 14岁儿子报警315晚会后胖东来又人满为患了倪萍分享减重40斤方法王楚钦登顶三项第一今日春分两大学生合买彩票中奖一人不认账张家界的山上“长”满了韩国人?周杰伦一审败诉网易房客欠租失踪 房东直发愁男子持台球杆殴打2名女店员被抓男子被猫抓伤后确诊“猫抓病”“重生之我在北大当嫡校长”槽头肉企业被曝光前生意红火男孩8年未见母亲被告知被遗忘恒大被罚41.75亿到底怎么缴网友洛杉矶偶遇贾玲杨倩无缘巴黎奥运张立群任西安交通大学校长黑马情侣提车了西双版纳热带植物园回应蜉蝣大爆发妈妈回应孩子在校撞护栏坠楼考生莫言也上北大硕士复试名单了韩国首次吊销离岗医生执照奥巴马现身唐宁街 黑色着装引猜测沈阳一轿车冲入人行道致3死2伤阿根廷将发行1万与2万面值的纸币外国人感慨凌晨的中国很安全男子被流浪猫绊倒 投喂者赔24万手机成瘾是影响睡眠质量重要因素春分“立蛋”成功率更高?胖东来员工每周单休无小长假“开封王婆”爆火:促成四五十对专家建议不必谈骨泥色变浙江一高校内汽车冲撞行人 多人受伤许家印被限制高消费

聚圣源 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化