Technologie

Sur les arbres de décision et l'entropie – La mise en route – Moyenne

Sur les arbres de décision et l'entropie - La mise en route - Moyenne


Regard sur les fonctions d’algorithme d’arbre de décision et d’entropie

Dans le royaume de Analyses prédictives, Decision Trees est l’un des algorithmes applicables aux tâches de régression et de classification.

L'idée derrière les arbres de décision est de construire de manière récursive une structure arborescente à l'envers avec les entités de l'ensemble de données, en fonction de leur contribution à la variable réponse à ce stade. À chaque itération, les caractéristiques seront sélectionnées de manière à ce que le modèle résultant minimise la fonction de coût.

La structure commence par le nœud racine en haut, qui se branche ensuite vers d’autres nœuds et aboutit aux nœuds terminaux ou aux feuilles de l’arbre. Chaque nœud de l'arborescence représente une fonctionnalité. chaque lien ou branche représente une décision, et chaque feuille représente un résultat (catégorie ou valeur continue de la variable de réponse)

Avantages et inconvénients

le simplicité derrière Decision Trees réside dans la manière dont le modèle est créé en déterminant la caractéristique la plus significative à un moment donné. Puisqu'il ne suppose pas linéaire ou n’importe quelle relation entre les variables, il n’est pas limité aux seules variables liées de manière linéaire ou autre; il peut être appliqué à n’importe quel ensemble de données. En outre, il n’est pas nécessaire de manipuler des données de manière exhaustive avant d’appliquer des arbres de décision, contrairement à de nombreux autres algorithmes

Il est parfois appelé un glouton algorithme, car il essaie à chaque point de minimiser au maximum la fonction de coût. Cette tentative excessive de minimiser la fonction de coût peut conduire à surapprentissage des données d'apprentissage, ce qui conduit à une variance élevée tout en prédisant les données de test. Des techniques telles que l’élagage ou l’ensachage sont souvent appliquées pour tenir compte de cette situation.

Types d'arbres de décision

En fonction de la technique de minimisation des coûts utilisée, il peut exister de nombreuses classifications d'arbres de décision, parmi lesquelles:

  • CART (Arbre de classification et de régression) - Utilise la mesure d’impureté de Gini pour calculer le gain d’information à chaque itération
  • ID3 (dichotomiseur itératif 3) - Utilise la fonction Entropie pour calculer la métrique de gain d'information

Ici, nous allons examiner la fonction Entropie pour les arbres de décision ID3 et concevoir un algorithme pour calculer l'entropie pour toute itération.

Entropie et gain d'information

Entropie de chaque valeur unique pour chaque fonctionnalité est calculé comme:

le Gain d'information pour le trait est alors calculé comme suit:

où E (T) est l'entropie de la variable de réponse

la mise en oeuvre

Nous utiliserons ici le jeu de données Balloons du référentiel de données UCI. Il représente différentes conditions d'une expérience - pour déterminer la variable de réponse «Gonflée» en fonction des 4 caractéristiques du prédicteur: couleur, taille, taille et âge.

# data = ensemble de données Balloons
# N = Nombre de colonnes
# target = variable de réponse
# fr = Entropie de la variable cible
# cats = dictionnaire des nombres de valeurs uniques pour la variable de réponse
# vals = dictionnaire des comptes de valeurs uniques pour l'entité courante
pour i dans la plage (0, N-1):
x = colonnes de données[i]
ig = 0
pour k, v dans vals.items ():
ent = 0

pour k1 dans cats.keys ():
n = data.loc[(data[target]== k1) & (données[x]== k), x].compter()
prob = - (n / v) * np.log (n / v) #Calcul de la probabilité
ent = ent + prob # Entropie de calcul
info = info + ((v / total) * ent) #Calcul des informations
gain = en - ig # Calcul du gain d'information

Derrière la première itération

Voyons maintenant comment Entropy & Information Gain est calculé pour la 1ère itération, à l’aide de la fonction ci-dessus.

  1. Calculer l'entropie et gagner de l'information w.r.t. "Gonflé"
    Colonne “couleur”:
    "JAUNE": 32, "VIOLET": 28
    “Couleur” JAUNE avec “Gonflé” VRAI - 19
    “Couleur” JAUNE avec “Gonflé” FAUX - 13
    «Couleur» VIOLET avec «Gonflé» VRAI - 12
    «Couleur» VIOLET avec «Gonflé» FAUX - 16
    E (JAUNE) = (-19/32) * log (19/32) + (-13/32) * log (13/32) = 0,675
    E (VIOLET) = (-12/28) * log (12/28) + (-16/28) * log (16/28) = 0,682
    I (couleur) = (32/60) * 0,675 + (28/60) * 0,682 = 0,678
    IG (couleur) = I (gonflé) - I (couleur) = 0,693–0,678 = 0,0149
  2. De même, calculez le gain d'entropie et d'information pour les colonnes restantes:
    IG (taille) = 0,0148
    IG (Act) = 0,131
    IG (âge) = 0,130
  3. La colonne «Act» est sélectionnée en tant que nœud racine, car elle présente le gain d’information le plus élevé.

Prochaines étapes

L'algorithme effectuerait alors les étapes suivantes de manière récursive pour construire l'arbre de décision (au-delà de la portée de cet article):

  • L'entité avec le gain d'information le plus élevé serait attribuée en tant que nœud pour cette itération
  • Les branches de ce noeud seraient formées par chaque valeur unique (condition / décision) possible à partir de ce noeud
  • Les branches mèneraient à d’autres nœuds, en fonction des caractéristiques et conditions ultérieures
  • Au cas où il n'y aurait pas d'autres caractéristiques ou conditions possibles, des noeuds feuilles seraient créés et aucune autre branche ne serait créée

De cette manière, l'arbre de décision serait construit de manière récursive. Le modèle peut ensuite être appliqué pour prévoir des valeurs ou des catégories pour la variable de réponse

1*YqDjlKFwScoQYQ62DWEdig - Sur les arbres de décision et l'entropie - La mise en route - Moyenne

Cet article est publié dans The Startup, la plus grande publication d’entrepreneurship de Medium, suivie de +411 714 personnes.

Abonnez-vous pour recevoir nos meilleures histoires ici.

1*ouK9XR4xuNWtCes TIUNAw - Sur les arbres de décision et l'entropie - La mise en route - Moyenne
Show More

SupportIvy

SupportIvy.com : Un lieu pour partager le savoir et mieux comprendre le monde. Meilleure plate-forme de support gratuit pour vous, Documentation &Tutoriels par les experts.

Related Articles

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Close
Close