Les réseaux neuronaux oublient-ils jamais?
Comment l’apprentissage automatique jette une clé dans le «droit à l’oubli»
À mesure que l’utilisation des données évolue, il en va de même de sa réglementation. Plus rapide et plus rapide, le monde numérique s’intègre dans nos vies pour éliminer les frictions. La technologie supprime les frictions en nous apprenant sur nous et sur notre comportement collectif, en anticipant et en réagissant en conséquence. Pensez à Starbucks qui vous envoie une notification push chaque fois que vous vous approchez de l’un de leurs magasins – une annonce pour un café au lait s’il fait froid, une pour un café glacé s’il fait chaud. Cela a fait des entreprises comme Facebook, Amazon, Apple, Netflix et Google parmi les plus précieuses (le plus précieux, aucun, si vous considérez le nombre d’employés qu’ils ont) dans l’histoire, ce qui leur donne une influence hors norme sur nos vies. Il est donc important de demander: à qui ces entreprises doivent-elles rendre des comptes? Ou plus important encore, quelles sont les forces du marché qui affectent la façon dont nous, leurs utilisateurs, sommes traités? Utilisation abusive des données par Facebook avec Cambridge Analytica et ingénieur voyou qui a adapté une flotte de voitures Street View pour siphonner des données souvent sensibles provenant de réseaux WiFi privés, ont suscité des inquiétudes raisonnables quant à la quantité de réglementation nécessaire en technologie. Malheureusement, lorsqu’il s’agit de protéger nos données, la législation sur la confidentialité ne prend pas en compte l’intelligence artificielle (IA). Au lieu de cela, la législation, comme le règlement général de l’UE sur la protection des données (RGPD), se concentre sur la collecte et le transfert explicites d’informations personnelles. Cela ignore ce qui rend les données utiles aux entreprises technologiques, comment elles peuvent être généralisées et modélisées pour marchandiser le comportement quotidien. De cette façon, le machine learning (ML) sape la législation traditionnelle sur la confidentialité à deux reprises: il complique notre droit d’accès et d’appel à la façon dont les organisations utilisent nos informations personnelles, et il ignore la manière dont ML utilise implicitement les données personnelles.
Cet argument est un peu plus nuancé que de souligner les conséquences d’un monde où les données de formation peuvent être rétroconçues, mais c’est également une préoccupation. Au lieu de cela, je veux me concentrer sur ce que le législateur de la confidentialité tente de protéger: notre capacité à savoir comment les entreprises utilisent nos données et notre capacité à garder le contrôle de nos données. Ce faisant, nous verrons que ML rend plus difficile l’interrogation sur la façon dont les entreprises utilisent nos données. Nous verrons également qu’il est beaucoup plus difficile de corriger l’utilisation de nos données dans ces systèmes que de corriger les données protégées dans le RGPD. Enfin, je ferai valoir que si notre objectif est de donner un meilleur contrôle sur la façon dont nos données sont utilisées, le droit à l’oubli doit également s’appliquer au ML. Sinon, nous ignorerons ce que Shoshana Zuboff appelle la nouvelle «logique d’accumulation» de la technologie. ² Si vous n’êtes pas un fan de Zuboff, ou que le terme «logique d’accumulation» est étranger ou rebutant, attendez – c’est là que nous » Je vais commencer. Pour terminer, je vais mettre en lumière certaines des dernières recherches qui visent à résoudre ces problèmes.
Avant de comprendre comment le RGPD ne parvient pas à protéger l’utilisation de nos données, nous avons besoin de mieux comprendre le lien entre les entreprises technologiques et notre vie privée. L’augmentation rapide de la connectivité et la prolifération des utilisations d’Internet ont provoqué ce que Shoshana Zuboff considère comme une nouvelle logique technologique d’accumulation, où les mégadonnées «organisent la perception et façonnent l’expression des opportunités technologiques à leurs racines.» ² façon de dire que les mégadonnées ont changé notre façon de voir le monde – et, par conséquent, la façon dont les entreprises, comme Google, fonctionnent est fondamentalement différente des entreprises non axées sur les données. Les organisations privées sont en mesure d’acquérir une connaissance approfondie de nos interactions en ligne «par le haut», en surveillant anonymement les comportements quotidiens pour modéliser et exploiter toutes les informations qu’elles peuvent révéler. Grâce à l’exploration et à l’analyse de données en continu, les Google et Facebook de notre monde sont capables de comprendre comment nous nous comportons à un niveau extrêmement granulaire⁸. Les miettes de pain numériques que nous laissons derrière sont collectées, stockées, puis agrégées et modélisées pour mieux cibler, personnaliser et appliquer. C’est ce que les chercheurs appellent «la marchandisation du comportement quotidien». ² Les Tech agissent comme des observateurs indifférents qui diffusent leurs produits «gratuits» le plus largement possible, pour modéliser notre comportement au profit des annonceurs, des assureurs, etc. Ce processus axé sur le numérique et les données a produit des entreprises relativement petites, avec moins de coûts fixes, qui génèrent d’énormes quantités de richesse. Et grâce aux structures d’entreprise uniques de Facebook et Google, la capacité de tirer parti de ces actifs est souvent dirigée par une ou deux personnes.
Il incombe aux décideurs politiques de veiller à ce que les progrès technologiques soient réalisés de manière équitable. Une politique de confidentialité globale est nécessaire; la législation doit permettre la collecte équitable et transparente des données, ainsi que garantir que les données sont traitées et utilisées de manière équitable. Alors que les entreprises technologiques nécessitent une surveillance quasi omniprésente pour produire les lacs de données dont elles se nourrissent, leur véritable valeur provient de la capacité de traiter et de rendre les données utiles. Étant donné l’énormité des données, cela n’est possible que grâce au ML. Les avancées théoriques et pratiques en ML permettent aux entreprises technologiques de rechercher, trier, regrouper et prendre des décisions en fonction des modèles souterrains des données. Par conséquent, la collecte et l’utilisation sont inextricablement liées. Cependant, ce n’est pas ainsi que notre législation sur la confidentialité a considéré la collecte de données. Au lieu de cela, les décideurs se sont généralement concentrés sur les premiers, sans reconnaître comment les données collectées sont exploitées implicitement dans leur utilisation.
Les entreprises privées – s’appuyant sur des ensembles de données largement publics – ont fondamentalement modifié le référendum du Royaume-Uni pour quitter l’UE et l’élection américaine de Donald Trump³ en 2016. À mon avis, ces événements majeurs sont à l’origine de questions sur la façon dont nos données sont utilisées dans la conscience publique. Entre le début de la semaine du 10 avril 2016 et le 10 avril 2019, l’intérêt pour la recherche Google a connu des augmentations de 119% 1,5, 1,566% ⁵ et 81% ⁶ pour les termes de recherche: confidentialité des données, éthique de l’IA et logiciels de confidentialité respectivement. Au cours de cette même période, l’intérêt de Google pour la recherche autour de l’intelligence artificielle et de l’apprentissage automatique a également connu une forte augmentation, avec des augmentations correspondantes de 43% et 200%. Il n’est donc pas surprenant que le plus grand texte législatif sur la protection des renseignements personnels né dans ce paysage politique, le RGPD de l’UE de 2016, ait fait l’objet d’un débat et d’un examen populaires. Le RGPD réglemente le traitement et la libre circulation des données et offre aux individus la «protection des [their] données personnelles »à travers trois sections principales: le droit au consentement éclairé, le droit d’accéder aux données personnelles, et le droit de rectification et d’effacement⁸. Le RGPD offre une protection accrue aux individus, vous permettant de faire appel des décisions prises par des systèmes autonomes. Malheureusement, en se concentrant sur la collecte et le mouvement explicites de données, il est la proie de défauts similaires dans des législatures antérieures comme la LPRPDE du Canada. Ces défauts, sur lesquels nous approfondirons, sont qu’il peut être très difficile d’accéder à nos données après qu’elles ont été traitées pour former un réseau neuronal ainsi que d’attirer ses utilisations étant donné la nature souvent opaque du ML. De plus, le droit de rectification et d’effacement ne tient pas compte du ML est structuré par les données sur lesquelles il est formé. Cela permet aux entreprises de profiter de nos données longtemps après que nous ayons demandé leur suppression.
Comment combattez-vous un algorithme?
Le RGPD (article 16 spécifiquement😉) nous donne le droit de faire appel à la collecte ou à l’utilisation inexacte de nos données personnelles. Mais alors que les «finalités du traitement» doivent être prises en compte lors de la rectification des utilisations inexactes des données, le GDPR ne parvient pas à établir un test décisif pour déterminer ce qui constitue une utilisation inexacte ». Savoir ce qui doit être corrigé est beaucoup plus facile lorsque les données en question se rapportent à une caractéristique concrète. Il est facile de fixer le nom ou l’anniversaire d’une personne dans une base de données. Cependant, dans les cas où un système de BC prend une décision à notre sujet – comme inférer notre orientation politique, notre sexualité ou risque de récidive– comment faire appel à un réseau de neurones? Ceci est essentiel car les données sur lesquelles le BA est formé sont produites dans un monde injuste, et il y a souvent peu de raisons de croire que de tels modèles ne feront que reproduire les inégalités préexistantes¹⁰. C’est ce que les chercheurs appellent souvent le biais algorithmique (qui est différent du biais statistique). Ce fut le cas lorsque des chercheurs de Microsoft et de l’Université de Boston ont démontré que les intégrations de mots peuvent présenter des stéréotypes de genre à des degrés inquiétants¹⁰. Cependant, même si le ML supervisé est laissé à lui-même pour trouver la meilleure façon d’approcher une fonction de régression / classification, il est moins simple de prétendre que vous avez été victime de discrimination¹¹. En imposant aux individus le fardeau de satisfaire à cette norme vague quant à ce que peut signifier une utilisation inexacte, le RGPD ignore les biais structurels qui sont facilement reproduits et amplifiés en ML¹¹.
Les réseaux neuronaux oublient-ils jamais?
Le RGPD s’écarte des tentatives précédentes de législature sur la protection de la vie privée en accordant aux individus le «droit à l’oubli». Cela signifie que si vous faites une demande à une entreprise qui détient vos données, elles sont obligées de les effacer. Cependant, cela ne s’étend pas au ML sur lequel vos données ont été formées. En effet, le GDPR considère fondamentalement les données comme une entrée vers une machine qui prend une décision, alors qu’en réalité, les données façonnent le système de prise de décision lui-même. Pour moi, en permettant aux entreprises de profiter en continu de nos données indépendamment des préférences individuelles, cela représente une faille fondamentale qui ignore la logique d’accumulation de la technologie.
Le RGPD (articles 17 à 20 maintenant💃) ne reconnaît pas que si vos données ont été utilisées pour former un réseau de neurones, vous y serez à jamais imprimé¹². Même si vous soumettez une demande d’effacement et que vos informations n’apparaissent dans aucune des bases de données de Facebook, vos informations sont toujours implicitement traitées lorsque Facebook décide quelle annonce afficher à quelqu’un. C’est ce qui nous ramène à notre image d’en-tête. Des chercheurs de Cornell, UCL et de l’Institut Alan Turing ont récemment démontré que les modèles d’apprentissage collaboratif peuvent «fuir involontaire des informations sur les données de formation des participants », permettant aux acteurs malveillants de« déduire la présence de points de données exacts – par exemple, des emplacements spécifiques [… as well as] Propriétés qui ne valent que pour un sous-ensemble des données de formation et sont indépendantes des propriétés que le modèle commun vise à capturer. »¹ Cela, nous l’espérons, fait ressortir le fait que le ML n’est pas séparé de nous, et il y a un corpus croissant de littérature qui soutient que nos données façonnent la structure fondamentale de ces modèles. Dans certains cas, cela signifie littéralement ajouter / supprimer des nœuds des couches d’un ANN¹³. En encadrant l’effacement en des termes aussi concrets, le RGPD ne remédie pas aux caractéristiques les plus exploitables de la technologie et refuse de reconnaître la véritable utilité des données: qu’elles «enregistrent, modifient et marchandisent l’expérience quotidienne». ²
Le RGPD nous donne le droit de contester les entreprises lorsqu’elles utilisent le BC pour prendre des décisions à notre sujet (quel prix donner, s’il faut assurer, risque de récidive). C’est un énorme pas en avant. Malheureusement, la qualité de ML est de disparaître à l’arrière-plan et de s’intégrer dans notre monde numérique. Autrement dit, il y a rarement un grand panneau disant: «Attention! Un réseau de neurones décide si vous êtes trop risqué pour vous assurer! » Étant donné la nature intrinsèque du BC, sa mise en œuvre peut façonner subtilement le monde en ligne d’une manière dont, bien que techniquement consensuelle, les individus ne soient pas pleinement conscients. Cela incite alors les individus à analyser leur monde en ligne pour des systèmes inexacts ou biaisés d’une manière qui pourrait être loin d’être faisable. Cela garantit également que seuls ceux qui ont les moyens de se renseigner sur le fonctionnement de la technologie / ML pourront avoir un contrôle total sur leurs données. Au cours des seize dernières années, il y a eu étonnamment peu de choses pour aborder pleinement la question du consentement clair et éclairé.
L’aspect le plus négligé de la législature sur la protection des renseignements personnels est qu’il n’y a aucune protection pour permettre aux individus de se retirer des modèles qui déduisent des données des utilisateurs¹⁴. Le RGPD ne traite pas des conséquences de permettre à la technologie de profiter des modèles, formés sur nos données, après que nous ayons invoqué notre «droit à l’oubli». Cela nécessite un changement conceptuel dans la façon dont la vie privée est perçue. Le cœur des entreprises technologiques est leur capacité à capturer à moindre coût les données, la matière première et à les modéliser à des fins diverses. La législation sur la confidentialité ne peut pas s’arrêter à la collecte de données et interpréter ensuite le réseau neuronal à partir duquel elles ont été construites comme quelque chose de complètement différent. La législation sur la confidentialité devrait également s’étendre au ML. Pour l’instant, ce problème n’est traité que superficiellement dans le RGPD. Heureusement, des chercheurs de l’Université de Cambridge et de l’Université Queen Mary de Londres, entre autres, proposent des solutions techniques à ces problèmes. Shintre et al. ont proposé une nouvelle solution qui permet de supprimer des points de données individuels des réseaux de neurones artificiels dans leur article de 2019, Oublier l’apprentissage automatique¹⁵. Cela démontre qu’il existe peu d’obstacles techniques à la réalisation complète de systèmes où nous pouvons vraiment avoir le droit d’être oubliés. Cependant, il faut d’abord comprendre comment nos données peuvent être utilisées et mal utilisées, et la volonté politique de tenir la technologie responsable.
La technologie et le ML ont sans aucun doute amélioré nos vies. Cependant, cela ne signifie pas que nous ne devrions pas être critiques lorsque les entreprises technologiques empiètent inutilement sur nos droits. Bezos serait toujours riche si nous abordions ces questions. Au cours des 20 dernières années, l’industrie technologique a accumulé d’énormes quantités de données sur les utilisateurs avec lesquelles les législatures ont dû par la suite se débattre. Le ML sape les formes existantes de législature sur la protection de la vie privée de deux manières. Cela sape les motifs pour lesquels nous pouvons faire appel à des utilisations inexactes ou biaisées de nos informations personnelles. De plus, des problèmes surviennent lorsque les utilisateurs ont le droit d’effacer sans reconnaître la nature intégrée des données dans ML. Par conséquent, nous avons besoin d’un changement conceptuel dans la façon dont nous considérons la confidentialité.
Nos données ne sont pas utiles en elles-mêmes. Compte tenu de ce fait, nous devons nous concentrer moins sur la collecte et le transfert explicites de données, et plutôt nous concentrer davantage sur la façon dont nos données sont utilisées. Nos données laissent des empreintes digitales sur les réseaux de neurones sur lesquels ils sont formés. Il est important de se rappeler que ces empreintes digitales sont aussi les nôtres et que, par conséquent, le droit à l’oubli devrait s’étendre au BC.