Technologie

La malédiction de la dimensionnalité – Vers la science des données

La malédiction de la dimensionnalité - Vers la science des données


Imaginez que notre ensemble de données se compose des 8 bonbons suivants.

Nos deux groupes de bonbons

La vérité sur le terrain est qu’il existe deux groupes dans notre ensemble de données de 8 bonbons - épicés et sucrés. Donc, si tout ce qui nous importait, c'était d'obtenir le bon goût, comment pourrions-nous regrouper nos bonbons pour nous assurer de ne jamais donner accidentellement un bonbon épicé à notre ami doué de dent sucrée?

Nous pouvons regrouper par couleur comme suit:

Nos grappes de 2 couleurs à base de saveur de bonbons

Bien, grâce à notre regroupement, nous savons que si nous mangeons un bonbon rougeâtre, il sera épicé; et si nous mangeons un bonbon bleuâtre, ce sera doux.

Mais en réalité, ce n’est pas si simple. En tant qu'êtres humains, nous sommes en mesure d'inspecter visuellement les bonbons et de décider rapidement que rouge signifie épicé et bleu signifie sucré. Mais un algorithme d’apprentissage automatique ne peut le faire que si les données lui sont présentées correctement. Si nos données ressemblent au tableau ci-dessous, nous avons de la chance. Nous avons deux caractéristiques, rougeâtre et bleuâtre, qui produisent des groupes de goût parfaits, ce qui nous donne un modèle parfait.

Clusters parfaits

Mais que se passe-t-il si nos données sont de haute dimension, comme dans le tableau suivant?

Les données de grande dimension posent problème pour le clustering

Maintenant, au lieu de 2 catégories de couleurs, nous avons 8. Comment un algorithme de clustering pourrait-il interpréter cela? Il examinerait chaque bonbon et tirerait les conclusions suivantes:

  • Chaque bonbon a sa propre couleur.
  • En tant qu'algorithme (sans formation spéciale), Je ne connais pas les relations entre les couleurs. Par exemple, contrairement aux humains, je ne sais pas si le rose est plus proche du rouge que le turquoise.
  • Compte tenu de cet ensemble de caractéristiques, je conclus qu’il existe 8 groupes et qu’ils se ressemblent tous.
  • Je conclus également que sur mes 8 grappes, 4 sont épicées et 4 sont sucrées.

Ce n'est pas utile du tout. Il est vrai que les bonbons sont de couleurs différentes, mais cette conclusion ne nous laisse pas plus à l'aise que nos débuts. Lisez à nouveau la dernière puce - elle ne fait que rappeler ce que nous savions déjà de notre ensemble de données. Nous n'avons aucune idée sur la manière de prédire si un bonbon donné sera épicé ou sucré. Alors, comment pouvons-nous résoudre ce problème?

Afficher plus

SupportIvy

SupportIvy.com : Un lieu pour partager le savoir et mieux comprendre le monde. Meilleure plate-forme de support gratuit pour vous, Documentation &Tutoriels par les experts.

Articles similaires

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Bouton retour en haut de la page
Fermer