Méthodes statistiques robustes – Vers la science des données
La régression OLS applique une certaine pondération à chaque point de données:
Dites X ~ N (0,1), et Y est également ~ N (0,1). Disons que X¹ = 1, sa contribution au bêta serait (X¹ * Y¹) / (X¹ * X¹) = (1 * Y¹ / 1 * 1) = Y¹. Comme Y¹ est également uniformément normal, nous nous attendrions à ce que la Bêta soit d’environ +/- 1 (les deux ensembles ont la même variance, donc la régression est équivalente à la corrélation).
Cependant, supposons que Y¹ soit accidentellement stocké à 10 000 (vous pouvez blâmer le stagiaire), la contribution à l’estimateur de ce point bêta passerait de 1 à 10 000! C’est fou et clairement pas souhaité!
Les régressions sont donc très sensibles aux points de données anormaux (au pire, le problème peut être exponentiel) et étant donné la discussion ci-dessus, nous préférerions utiliser un estimateur avec un point de décomposition plus élevé et un degré d’efficacité plus élevé. C’est pour s’assurer que notre estimateur ne soit pas renversé par des points de données voyous, donc si le manque potentiel de normalité dans les données est inquiétant, alors le chercheur devrait utiliser des méthodes d’estimation robustes:
Les estimateurs M sont des variantes des méthodes d’estimation du maximum de vraisemblance (MLE). Les méthodes MLE tentent de maximiser la distribution de probabilité conjointe tandis que les estimateurs M tentent de minimiser une fonction ⍴ comme suit:
Le lecteur astucieux verra rapidement que la régression linéaire est en fait un type de M-estimateur (minimise la somme des résidus au carré) mais elle n’est pas entièrement robuste. Ci-dessous, nous avons 4 autres types d’estimateurs M et d’autres peuvent être trouvés ici:
Par exemple, la déviation minimale absolue (LAD) estime les coefficients qui minimisent la somme des résidus absolus par opposition à la somme des erreurs quadratiques. Cela signifie que LAD a l’avantage d’être résistant aux valeurs aberrantes et aux écarts par rapport à l’hypothèse de normalité, bien qu’il soit plus coûteux en termes de calcul.
En tant que praticien, j’encouragerais les chercheurs à essayer plusieurs méthodes car il n’y a pas de règle stricte et rapide. Il est beaucoup plus convaincant de démontrer l’utilisation de plusieurs estimateurs donnant des résultats similaires, plutôt qu’un ensemble de résultats sporadiques et inexplicables.
Enfin, nous devons nous rappeler que les M-estimateurs ne sont normaux qu’asymptotiquement, donc même lorsque les échantillons sont grands, l’approximation peut être encore très mauvaise. Tout dépend du type et de la taille de l’anomalie!