Réduction du biais de l’IA grâce à la classification basée sur les options de rejet
Un exemple d’atténuation des biais dans la phase de post-traitement
Récemment, j’ai commencé à écrire une série de publications explorant plus en détail les biais dans l’IA et différentes façons de les atténuer dans un flux de travail. Dans mes deux derniers blogs, j’ai couvert le repesage en tant que technique d’atténuation lors de la phase de prétraitement de la modélisation, et le débiasing contradictoire lors de la phase de traitement (formation des modèles) du workflow d’apprentissage automatique.
La troisième étape du pipeline d’apprentissage automatique (ML) où nous pouvons intervenir pour réduire les biais est appelée post-traitement. Les algorithmes de post-traitement sont des étapes d’atténuation qui peuvent être appliquées aux prédictions du modèle. Sur l’équité et l’étalonnage [1], Égalité des chances dans l’apprentissage supervisé [2] et théorie de la décision pour une classification sensible à la discrimination [3] figurent parmi les différentes techniques d’atténuation des biais post-traitement proposées dans la littérature universitaire.
Dans ce post, je me concentrerai sur l’exploration de la théorie de la décision pour une technique de classification sensible à la discrimination appelée Reject Option-based Classification (ROC). Dans cette approche, l’hypothèse est que la plupart des discriminations se produisent lorsqu’un modèle est le moins certain de la prédiction, c’est-à-dire autour de la limite de décision (seuil de classification). Ainsi, en exploitant la région de faible confiance d’un classificateur pour la réduction de la discrimination et en rejetant ses prédictions, nous pouvons réduire le biais dans les prédictions du modèle.
Par exemple, avec un seuil de classification de 0,5, si la prédiction du modèle est de 0,81 ou 0,1, nous considérerions le modèle certain de sa prédiction mais pour 0,51 ou 0,49, le modèle n’est pas certain de la catégorie choisie. Dans ROC, pour les prédictions du modèle avec l’incertitude la plus élevée autour de la frontière de décision, lorsque le résultat favorable est donné au groupe privilégié ou le résultat défavorable est donné au groupe défavorisé, nous les modifions.
L’avantage de cette méthode est que vous intervenez directement à la dernière étape du workflow de modélisation. Cela peut être utile dans les situations où au moment de la prédiction (ou dans l’environnement de déploiement), les attributs protégés ou sensibles peuvent ne pas être disponibles. De plus, cette approche, et en général, les techniques de post-traitement offrent la possibilité d’atténuer sans modifier l’étape d’apprentissage et ne sont donc pas limitées par un algorithme d’apprentissage spécifique. De plus, cette approche est également applicable à différentes définitions d’équité.
Comme auparavant, pour montrer comment cette technique peut être utilisée pour réduire le biais, j’ai utilisé l’ensemble de données pour adultes [4]. L’objectif binaire dans cet ensemble de données est de savoir si un individu a un revenu supérieur ou inférieur à 50 000 $. Il contient plusieurs fonctionnalités protégées par la loi aux États-Unis, mais pour plus de simplicité dans ce post, je me concentrerai sur le sexe. Comme le montre le tableau ci-dessous, le sexe masculin est le groupe privilégié avec une probabilité de 30% d’avoir un résultat positif (> 50 000 $) par rapport à une probabilité de 11% d’avoir un résultat positif pour le groupe féminin.
La métrique d’impact disparate (DI), comme décrit dans le blog précédent, est une mesure de discrimination dans les données. Un score de 1 indique que l’ensemble de données est exempt de discrimination. Lorsqu’il est calculé sur l’ensemble de données adultes pour hommes contre femmes, le score est de 0,36.
Pour évaluer l’effet, j’ai appliqué l’implémentation disponible de la technique ROC dans le IBM toolkit [5] sur les prédictions du modèle sur les données de test. Pour cet exemple, j’ai utilisé la différence de parité statistique (cette métrique est la même que DI mais plutôt qu’un rapport, prend la différence entre les deux probabilités). Pour simplifier la comparaison de cette analyse avec mon blog précédent, en plus de DI, j’ai également examiné la différence de cotes moyennes comme une autre mesure pour analyser davantage le biais dans les prédictions de ces modèles. Comme mentionné ici, la différence de cotes moyennes calcule la différence de moyenne des taux de faux positifs et de vrais positifs pour les prédictions sur les groupes défavorisés et privilégiés.
Les résultats de l’expérience indiquent l’utilité de la méthode de repesage pour réduire la discrimination, comme le montre le tableau ci-dessous:
Comme nous pouvons le voir, la précision du modèle a chuté de 0,07, mais cette technique a permis d’améliorer considérablement le score DI et de réduire la différence de cotes moyennes presque à zéro. Pour parvenir à cette réduction du biais, les décideurs devraient considérer le compromis entre l’exactitude et l’équité.
Par rapport aux méthodes en cours de traitement comme le débiasing contradictoire, les expériences montrent que les techniques en cours de traitement sont plus efficaces pour réduire le biais que les techniques de post-traitement telles que le ROC. Cependant, si nous appliquions la technique ROC à un algorithme d’embauche et terminions avec le même score DI que dans notre expérience, 1.0, cela satisferait la règle des 4 / 5ème spécifiée par la loi américaine sur l’emploi (score DI d’au moins 0,8).
[1] Pleiss, G., Raghavan, M., Wu, F., Kleinberg, J., et Weinberger, K. Q. (2017). Sur l’équité et l’étalonnage. Dans Advances in Neural Information Processing Systems, pages 5680–5689.
[2] Moritz Hardt, Eric Price et Nati Srebro. Égalité des chances dans l’apprentissage supervisé. Dans Advances in Neural Information Processing Systems, 2016.
[3] Kamiran, F., Karim, A., Zhang, X. 2012. Théorie de la décision pour une classification sensible à la discrimination. Dans Actes de la Conférence internationale de l’IEEE sur l’exploration de données (ICDM 2012), Zaki M. J., Siebes A., Yu J. X., Goethals B., Webb G. I. & Wu X. (éd.). Société informatique de l’IEEE, 924–929
[4] « Adulte – Apprentissage automatique UCI. » 1er mai. 1996, http://archive.ics.uci.edu/ml/datasets/Adult.
[5] R. K. E. Bellamy et al., «AI Fairness 360: une boîte à outils extensible pour détecter et atténuer les biais algorithmiques», dans IBM Journal of Research and Development, vol. 63, non. 4/5, pp. 4: 1–4: 15, 1er juillet-sept. 2019.