Pourquoi la direction aime le sur-ajustement
Gérer les attentes des décideurs en science des données
Le rôle d’un data scientist implique la construction et le réglage fin de modèles et l’amélioration des processus et des produits dans différents domaines d’activité. Les cas d’utilisation typiques impliquent des campagnes de marketing, la prédiction de désabonnement des clients ou la détection de fraude. Les modèles formés devraient non seulement travailler sur des données d’entraînement (vues) mais également sur de nouvelles données (invisibles) du monde réel. Cependant, cette exigence n’est généralement pas évidente pour la plupart des décideurs impliqués, qui ont tendance à favoriser les modèles sur-équipés et à se faire des illusions avec des chiffres et des promesses fabuleux. Les problèmes surviennent toujours juste après la mise en œuvre lorsque les résultats ne suivent pas. Il est donc de la responsabilité de chaque responsable des données de gérer correctement les attentes et d’utiliser les meilleures pratiques des industries, comme indiqué dans notre prochain cours. Apprentissage automatique avec R.
Pour voir le problème du sur-ajustement en action, regardons une relation simple dans le célèbre mtcars
ensemble de données entre le poids (poids) d’une voiture en tonnes et sa fourchette par gallon (mpg, miles par gallon). De toute évidence, plus la voiture est lourde, moins elle fait de kilomètres par gallon (ou plus sa consommation de carburant est élevée). Nous avons modélisé la relation en utilisant smooth.spline()
fonction dans R et utilisé le paramètre de lissage ( spar
) comme paramètre dans le curseur. Nous voyons qu’un spar
proche de zéro semble modéliser assez bien la relation (lisse). En augmentant la spar
du modèle, il commence à correspondre plus étroitement aux observations, ce qui augmente sa variance. Cependant, une fois spar
se rapproche de celui la spline commence à perdre sa forme lisse et zig-zag-un signe de surajustement.
Le même phénomène peut être montré dans un exemple de classification. Nous utilisons le modèle de base K-plus proche voisin pour différencier 3 espèces d’iris parmi 50 fleurs en utilisant les variables longueur / largeur sépale et longueur / largeur du pétale. Les trois classes peuvent facilement être différenciées visuellement en trois zones. En rapprochant le nombre de voisins de un, nous augmentons la variance du modèle et observons que les frontières de décision se fragmentent.
Même si davantage d’observations peuvent être correctement classées dans l’échantillon, ou de manière similaire, l’erreur de régression pourrait être réduite, nous devons toujours garder à l’esprit que les performances du modèle ne sont jugées que par des données hors échantillon. Ainsi, les décideurs devraient toujours être beaucoup plus conscients de la façon dont le modèle a été sélectionné plutôt que de la qualité des performances déclarées. Pour être sûr, et si suffisamment de données sont disponibles, nous pouvons toujours garder un test final mis de côté (non disponible pour les développeurs de modèles) pour évaluer les performances réelles – un peu comme un Kaggle compétition.
Donc, mes dernières recommandations seraient les suivantes:
- Ne vous trompez pas et soyez honnête avec les données / performances hors échantillon.
- Gérez bien les attentes des décideurs – soyez réaliste.
- Si les résultats semblent extrêmement bons lors de votre premier essai, ils ont très probablement tort.