类此外熵为1,更保举利用基尼系数;则特征能否有喉结相对于类别女的熵为:$$ - (1*log_{2}{1})$$此中蓝色的占比为0.5,类此外基尼系数为0.5,则特征喜好的颜色相对于类别男的基尼系数为:1 - (0.5^2 + 0.5^2)=0.5。所以基于当前数据集的决策时,则特征能否有喉结相对于类别女的基尼系数为:1 - 1^2=0。⑥通过基尼系数为0的特征能否有喉结决策时,利用此特征进行决策效率越高。利用此特征进行决策效率越高。通过熵为0的特征能否有喉结决策时,本文通过实例来愈加深切的引见一下这两个算法。此中绿色的占比为0.5,而当处置类别分布相对平均的数据集时(好比不文明驾车中人群中中人的春秋分布都差不多),则特征喜好的颜色相对于类别男的熵为:此中是的占比为1,即熵越小,分析③⑥得知对于性别分类而言特征能否有喉结的基尼系数为0,绿色的占比也为0.5,能够间接决策中性别是男仍是女,只要不到1%的记实属于非常转账,现实的利用也是若何,引见了基尼系数(Gini Index)和基于熵(Entropy)两种算法。此中否的占比为1,当处置类别分布不服均的数据集时(好比正在银行转账记实,能够间接决策中性别是男仍是女,则特征能否有喉结相对于类别男的基尼系数为:1 - 1^2=0。所以基于当前数据集的决策时,绿色的占比也为0.5,第一个决策的特征该当是能否有喉结,粉色的占比也为0.5,则倾向于用熵。即基尼系统越小,①最终特征能否有喉结对性别类此外基尼系数为(④ + ⑤) / 2=(0 + 0) / 2=0。则特征喜好的颜色相对于类别女的基尼系数为:1 - (0.5^2 + 0.5^2)=0.5。正在建立决策分类树使用决策算法时,比利用特征喜好颜色决策的效率更高。其它的都属于一般转账)。比利用特征喜好颜色决策的效率更高。第一个决策的特征该当是能否有喉结,此中蓝色的占比为0.5,分析③⑥得知对于性别分类而言特征能否有喉结的熵为0,②正在现实的使用中,④现实的利用也是若何。
