Intelligence artificielle

Une violation de la confidentialité chez Microsoft expose de gros problèmes pour l'IA

Une violation de la confidentialité chez Microsoft expose de gros problèmes pour l'IA


Les ensembles de données les plus importants sont en proie au sexisme et au racisme

Crédit: Andrej Karpathy / Stanford

1*x3MLNrKVby4 GZ1VCCYktA - Une violation de la confidentialité chez Microsoft expose de gros problèmes pour l'IATLes résultats que vous obtenez lorsque vous recherchez une image sur Google ont quelque chose en commun avec la capacité de Siri d’écouter vos commandes. Et chacun partage son ADN avec les projets de reconnaissance faciale déployés dans les aéroports du monde et au-delà.

Toutes ces fonctionnalités sont alimentées par d'énormes piles de données. Ces jeux de données peuvent contenir des milliers d'images de visages ou de giga-octets de journaux audio de discours humain. C’est la matière première utilisée par presque tous ceux qui souhaitent travailler avec l’IA, et ils ne coûtent pas cher. Il faut de l'expertise et des investissements pour les construire. C’est pourquoi les entreprises et les établissements universitaires construisent leurs propres ensembles de données et ne les partagent que parfois avec le monde, créant ainsi des ensembles de données ouverts.

Mais ouvrir ne signifie pas automatiquement bon ou éthique. La semaine dernière, Microsoft a retiré son jeu de données de reconnaissance faciale MS Celeb à la suite d'un rapport de MegaPixels, un projet de surveillance visant à découvrir comment les jeux de données ouverts sont utilisés pour créer une infrastructure de surveillance à travers le monde. MegaPixels a montré que les données de Microsoft incluaient des photographies non seulement de personnalités publiques comme des célébrités, mais également de particuliers et de journalistes, téléchargées par des chercheurs privés américains et d’opérations de surveillance soutenues par l’État en Chine.

"Il existe clairement un décalage important entre ce que les chercheurs et le grand public jugent acceptable", déclare Adam Harvey, le créateur de MegaPixels. OneZero.

MS Celeb a été créé pour un concours en 2016. Les chercheurs d'Amnesty International ont utilisé l'ensemble de données, qui comprenait 10 millions d'images de célébrités collectées sur Internet, pour former leurs algorithmes de reconnaissance faciale, puis pour obtenir la plus grande précision possible sur un ensemble normalisé d'images faciales. . À la suite du concours, MS Celeb a été mis à la disposition de tous en téléchargement gratuit et peut être utilisé en ligne pour former ses propres algorithmes de reconnaissance faciale. Mais personne ne s'est rendu compte que l'ensemble de données incluait des images de personnes privées - aucun d'entre eux ne savait qu'elles étaient incluses dans les données - jusqu'à ce que MegaPixels le précise.

Ce n’est pas seulement le problème de Microsoft, cependant. Alors que MS Celeb fait actuellement l'objet d'un examen approfondi, d'autres jeux de données volumineux sont également prêts à être utilisés à mauvais escient. Par exemple, un algorithme de recrutement formé sur des données associant des hommes à des postes de direction, car il dispose de davantage de données sur les hommes occupant des postes de responsabilité, renforcera ce biais sociétal inconscient. Un algorithme de reconnaissance faciale formé sur des visages dont la peau est claire sera beaucoup moins efficace pour identifier les visages dont la peau est plus foncée, ce qui en fait un outil peu fiable et même dangereux pour les forces de l'ordre et la sécurité.

Microsoft Celeb n’est même pas le jeu de données le plus important du marché. Le jeu de données de reconnaissance d'images le plus utilisé est peut-être ImageNet, créé par Fei-Fei Li, professeur à Stanford et ancien scientifique en chef de Google Cloud. En 2007, lorsque le projet ImageNet a été lancé, la théorie prédominante chez les informaticiens était la suivante: il existait un algorithme non découvert qui permettrait à l'IA d'apprendre comme un humain. Li avait une stratégie différente. Plutôt que d'essayer de perfectionner un algorithme principal, Li s'est concentré sur les données, donnant aux algorithmes davantage d'exemples à partir desquels extraire des motifs. Elle a créé ImageNet pour intégrer des millions d'images dans les programmes de vision par ordinateur, puis a lancé un concours visant à amener les chercheurs à faire concurrence pour la précision de la reconnaissance d'images. En 2012, une équipe de Toronto dirigée par le célèbre informaticien Geoffrey Hinton a balayé ses rivaux en utilisant une idée marginale sur laquelle il travaillait depuis des décennies: un réseau de neurones artificiels, qui démontrait qu'avec suffisamment de données, l'IA pourrait apprendre à identifier les schémas complexes de pixels que nous utilisons pour représenter des objets dans des images.

D'autres jeux de données sont adaptés à des cas d'utilisation spécifiques. Dans la reconnaissance faciale, l’ensemble de données le plus utilisé s'appelle Labeled Faces in the Wild, créé par l’Université du Massachusetts pour améliorer la capacité de la reconnaissance faciale à identifier les personnes sous différents angles et dans différentes situations d’éclairage. Tout comme le Microsoft Celeb, il est principalement constitué de photographies d’acteurs, de célébrités et d’autres personnalités publiques.

La raison pour laquelle ces ensembles de données existent en premier lieu en public est un vestige des origines de l’IA dans les universités et une étrangeté dans le développement de plus en plus difficile de l’IA réalisé par de grandes entreprises de technologie du secteur privé. La recherche sur l'IA - malgré les milliards d'investissements de sociétés telles que Google, Facebook, Microsoft et Amazon - est toujours enracinée dans les universités. Les universitaires du domaine tentent depuis longtemps de rendre l’informatique et les données qui l’alimentent plus accessibles, l’an dernier en boycottant une revue à accès fermé créée par La nature parce que cela met la recherche derrière un paywall. En conséquence, tout chercheur en IA dispose d’un certain nombre de jeux de données gratuits et accessibles au public.

Mais malgré leur ouverture bienvenue dans un domaine de plus en plus fermé, ces jeux de données sont problématiques, tout comme MS Celeb. ImageNet lui-même est construit sur un jeu de données de langage appelé WordNet, créé par un groupe dirigé par le psychologue George Miller à la fin des années 1980 dans le but d’organiser les mots et les idées en les hiérarchisant. Par exemple, le mot «chaise» est classé dans le mot «mobilier», qui est classé dans la catégorie «artefact».

“Beaucoup de gens ont téléchargé WordNet et l'ont fait eux-mêmes. Nous ne pouvons pas contrôler ce qu'ils en font »

ImageNet utilise ces classifications pour décrire les images contenues dans son jeu de données. Mais WordNet, et donc ImageNet également, héberge un langage racial et des stéréotypes obsolètes. La catégorie réservée aux Noirs d'origine africaine, qui contient 1 404 images, contient des mots tels que «Noir, Noir, blackamoor, Negro, Negroid». Certains mots à l'intérieur du jeu de données sont des insultes purement raciales. Un langage similaire se retrouve dans presque toutes les catégories raciales ou sexuelles.

«WordNet a été créé il y a environ 30 ans et je crains que cette entrée ne soit insérée dans la base de données et n’ait jamais été modifiée», déclare Christiane Fellbaum, professeure d’informatique à Princeton, qui gère maintenant WordNet dans un courrier électronique. «Je dois ajouter que beaucoup de personnes ont téléchargé WordNet et l'ont fait sien. Nous ne pouvons pas contrôler ce qu’ils en font, alors cette entrée malheureuse pourrait subsister dans d’autres dictionnaires (même si j’espère que ce n’est pas le cas). "

Suivant OneZeroFellbaum a déclaré qu’elle mettrait à jour le jeu de données pour supprimer ces mots. Elle a ajouté que WordNet avait été assemblé par plusieurs personnes et reposait sur de nombreux dictionnaires, même si l'un d'entre eux était l'American Heritage Dictionary. Les recherches dans le dictionnaire américain du patrimoine en ligne montrent que de nombreux mots dans WordNet, tels que «jezebel» ou «négroïde», existent bel et bien dans le dictionnaire.

Vous pouvez réellement voir dans quelle catégorie d'ImageNet un algorithme de vision par ordinateur vous placerait en utilisant un outil en ligne appelé Roulette d'ImageNet qui fait correspondre un portrait ou une autre image à l'image la plus proche du jeu de données ImageNet. C’est moins que parfait. Sarah Myers West, chercheuse postdoctorale à l'AI Now Institute, a déclaré que, lorsqu'elle a soumis sa photo bio Twitter à la roulette ImageNet, l'image renvoyée était «coquine» et «jezebel».

(Mes images sont restituées «barbe», décrite ici comme une femme camouflant la sexualité d'un homme homosexuel, et «embrassant», décrite comme quelqu'un qui, oui, embrasse. Mon rédacteur a été classé dans la catégorie «soeur», décrit comme nonne. )

En examinant la dernière version de Labeled Faces in the Wild sous un angle similaire, le jeu de données se révèle extrêmement blanc et masculin. Une étude de 2014 qui tentait d'automatiser la catégorisation des visages dans un binaire de genre pour tester un algorithme de reconnaissance de genre a révélé 11 590 hommes et 4 109 femmes dans l'ensemble de données. La répartition de la race en trois catégories arbitraires - «blanc», «peau plus sombre» et «asiatique» - était encore plus frappante, avec 12 373 images de visages blancs, 1 145 images de visages avec une peau plus sombre et 2 166 images de visages asiatiques. Les auteurs de l’ensemble de données n’ont pas expliqué comment les images spécifiques avaient été choisies, mais ils ont précisé que ces images étaient extraites d’articles de presse.

Dans un rapport publié par l'Institut AI Now, Myers a toutefois noté que la composition du jeu de données Labeled Faces in the Wild reflétait des valeurs sociales souvent elles-mêmes biaisées. «Les médias à l'époque présentaient principalement des hommes blancs dans des positions de célébrité et de pouvoir», a-t-elle écrit. «Tirant de cette source, [Labeled Faces in the Wild’s] La représentation des «visages humains» peut être comprise comme le reflet de la hiérarchie sociale du début des années 2000, telle qu’elle est reproduite à travers les médias

Show More

SupportIvy

SupportIvy.com : Un lieu pour partager le savoir et mieux comprendre le monde. Meilleure plate-forme de support gratuit pour vous, Documentation &Tutoriels par les experts.

Related Articles

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Close
Close