Les réseaux neuronaux oublient-ils jamais?

Table des matières

Les réseaux neuronaux oublient-ils jamais?

Comment l’apprentissage automatique jette une clé dans le «droit à l’oubli»

Cameron Raymond

À mesure que l’utilisation des données évolue, il en va de même de sa réglementation. Plus rapide et plus rapide, le monde numérique s’intègre dans nos vies pour éliminer les frictions. La technologie supprime les frictions en nous apprenant sur nous et sur notre comportement collectif, en anticipant et en réagissant en conséquence. Pensez à Starbucks qui vous envoie une notification push chaque fois que vous vous approchez de l’un de leurs magasins – une annonce pour un café au lait s’il fait froid, une pour un café glacé s’il fait chaud. Cela a fait des entreprises comme Facebook, Amazon, Apple, Netflix et Google parmi les plus précieuses (le plus précieux, aucun, si vous considérez le nombre d’employés qu’ils ont) dans l’histoire, ce qui leur donne une influence hors norme sur nos vies. Il est donc important de demander: à qui ces entreprises doivent-elles rendre des comptes? Ou plus important encore, quelles sont les forces du marché qui affectent la façon dont nous, leurs utilisateurs, sommes traités? Utilisation abusive des données par Facebook avec Cambridge Analytica et ingénieur voyou qui a adapté une flotte de voitures Street View pour siphonner des données souvent sensibles provenant de réseaux WiFi privés, ont suscité des inquiétudes raisonnables quant à la quantité de réglementation nécessaire en technologie. Malheureusement, lorsqu’il s’agit de protéger nos données, la législation sur la confidentialité ne prend pas en compte l’intelligence artificielle (IA). Au lieu de cela, la législation, comme le règlement général de l’UE sur la protection des données (RGPD), se concentre sur la collecte et le transfert explicites d’informations personnelles. Cela ignore ce qui rend les données utiles aux entreprises technologiques, comment elles peuvent être généralisées et modélisées pour marchandiser le comportement quotidien. De cette façon, le machine learning (ML) sape la législation traditionnelle sur la confidentialité à deux reprises: il complique notre droit d’accès et d’appel à la façon dont les organisations utilisent nos informations personnelles, et il ignore la manière dont ML utilise implicitement les données personnelles.

Cet argument est un peu plus nuancé que de souligner les conséquences d’un monde où les données de formation peuvent être rétroconçues, mais c’est également une préoccupation. Au lieu de cela, je veux me concentrer sur ce que le législateur de la confidentialité tente de protéger: notre capacité à savoir comment les entreprises utilisent nos données et notre capacité à garder le contrôle de nos données. Ce faisant, nous verrons que ML rend plus difficile l’interrogation sur la façon dont les entreprises utilisent nos données. Nous verrons également qu’il est beaucoup plus difficile de corriger l’utilisation de nos données dans ces systèmes que de corriger les données protégées dans le RGPD. Enfin, je ferai valoir que si notre objectif est de donner un meilleur contrôle sur la façon dont nos données sont utilisées, le droit à l’oubli doit également s’appliquer au ML. Sinon, nous ignorerons ce que Shoshana Zuboff appelle la nouvelle «logique d’accumulation» de la technologie. ² Si vous n’êtes pas un fan de Zuboff, ou que le terme «logique d’accumulation» est étranger ou rebutant, attendez – c’est là que nous » Je vais commencer. Pour terminer, je vais mettre en lumière certaines des dernières recherches qui visent à résoudre ces problèmes.

Il incombe aux décideurs politiques de veiller à ce que les progrès technologiques soient réalisés de manière équitable. Une politique de confidentialité globale est nécessaire; la législation doit permettre la collecte équitable et transparente des données, ainsi que garantir que les données sont traitées et utilisées de manière équitable. Alors que les entreprises technologiques nécessitent une surveillance quasi omniprésente pour produire les lacs de données dont elles se nourrissent, leur véritable valeur provient de la capacité de traiter et de rendre les données utiles. Étant donné l’énormité des données, cela n’est possible que grâce au ML. Les avancées théoriques et pratiques en ML permettent aux entreprises technologiques de rechercher, trier, regrouper et prendre des décisions en fonction des modèles souterrains des données. Par conséquent, la collecte et l’utilisation sont inextricablement liées. Cependant, ce n’est pas ainsi que notre législation sur la confidentialité a considéré la collecte de données. Au lieu de cela, les décideurs se sont généralement concentrés sur les premiers, sans reconnaître comment les données collectées sont exploitées implicitement dans leur utilisation.

Comment combattez-vous un algorithme?

Les réseaux neuronaux oublient-ils jamais?

Le RGPD (articles 17 à 20 maintenant💃) ne reconnaît pas que si vos données ont été utilisées pour former un réseau de neurones, vous y serez à jamais imprimé¹². Même si vous soumettez une demande d’effacement et que vos informations n’apparaissent dans aucune des bases de données de Facebook, vos informations sont toujours implicitement traitées lorsque Facebook décide quelle annonce afficher à quelqu’un. C’est ce qui nous ramène à notre image d’en-tête. Des chercheurs de Cornell, UCL et de l’Institut Alan Turing ont récemment démontré que les modèles d’apprentissage collaboratif peuvent «fuir involontaire des informations sur les données de formation des participants », permettant aux acteurs malveillants de« déduire la présence de points de données exacts – par exemple, des emplacements spécifiques [… as well as] Propriétés qui ne valent que pour un sous-ensemble des données de formation et sont indépendantes des propriétés que le modèle commun vise à capturer. »¹ Cela, nous l’espérons, fait ressortir le fait que le ML n’est pas séparé de nous, et il y a un corpus croissant de littérature qui soutient que nos données façonnent la structure fondamentale de ces modèles. Dans certains cas, cela signifie littéralement ajouter / supprimer des nœuds des couches d’un ANN¹³. En encadrant l’effacement en des termes aussi concrets, le RGPD ne remédie pas aux caractéristiques les plus exploitables de la technologie et refuse de reconnaître la véritable utilité des données: qu’elles «enregistrent, modifient et marchandisent l’expérience quotidienne». ²

L’aspect le plus négligé de la législature sur la protection des renseignements personnels est qu’il n’y a aucune protection pour permettre aux individus de se retirer des modèles qui déduisent des données des utilisateurs¹⁴. Le RGPD ne traite pas des conséquences de permettre à la technologie de profiter des modèles, formés sur nos données, après que nous ayons invoqué notre «droit à l’oubli». Cela nécessite un changement conceptuel dans la façon dont la vie privée est perçue. Le cœur des entreprises technologiques est leur capacité à capturer à moindre coût les données, la matière première et à les modéliser à des fins diverses. La législation sur la confidentialité ne peut pas s’arrêter à la collecte de données et interpréter ensuite le réseau neuronal à partir duquel elles ont été construites comme quelque chose de complètement différent. La législation sur la confidentialité devrait également s’étendre au ML. Pour l’instant, ce problème n’est traité que superficiellement dans le RGPD. Heureusement, des chercheurs de l’Université de Cambridge et de l’Université Queen Mary de Londres, entre autres, proposent des solutions techniques à ces problèmes. Shintre et al. ont proposé une nouvelle solution qui permet de supprimer des points de données individuels des réseaux de neurones artificiels dans leur article de 2019, Oublier l’apprentissage automatique¹⁵. Cela démontre qu’il existe peu d’obstacles techniques à la réalisation complète de systèmes où nous pouvons vraiment avoir le droit d’être oubliés. Cependant, il faut d’abord comprendre comment nos données peuvent être utilisées et mal utilisées, et la volonté politique de tenir la technologie responsable.

Nos données ne sont pas utiles en elles-mêmes. Compte tenu de ce fait, nous devons nous concentrer moins sur la collecte et le transfert explicites de données, et plutôt nous concentrer davantage sur la façon dont nos données sont utilisées. Nos données laissent des empreintes digitales sur les réseaux de neurones sur lesquels ils sont formés. Il est important de se rappeler que ces empreintes digitales sont aussi les nôtres et que, par conséquent, le droit à l’oubli devrait s’étendre au BC.