Simplification de la précision, du rappel et de la matrice de confusion
Expliquer les paramètres d’évaluation en termes de base
Les termes d’apprentissage automatique peuvent sembler très compliqués, comme s’ils étaient faits pour être compris par les machines. Noms à consonance non intuitive et similaire comme Faux et vrais positifs, Précision, Rappel, Zone sous ROC, Sensibilité, Spécificité et Insanité. Ok, le dernier n’était pas réel.
Il y a déjà d’excellents articles sur la précision et le rappel, mais quand je les ai lus et d’autres discussions sur stackexchange, les termes désordonnés se mélangent tous dans mon esprit et je suis plus confus qu’une matrice de confusion non étiquetée – donc je n’ai jamais eu l’impression d’avoir bien compris.
Mais pour savoir comment fonctionne notre modèle, il est important de maîtriser les métriques d’évaluation et de les comprendre en profondeur. Alors, que doit vraiment savoir un data scientist pour évaluer un modèle de classification? J’explique les 3 termes principaux ci-dessous en utilisant des visuels et quelques exemples afin qu’il puisse mieux coller dans mon / notre cerveau.
Commençons par la plus simple: la précision. C’est littéralement la capacité de votre modèle à deviner les bonnes étiquettes. Si votre jeu de données est assez équilibré et que vous souhaitez que chaque catégorie soit correcte, c’est tout ce dont vous avez besoin de vous inquiéter.