Intelligence artificielle

Le problème le plus dangereux de la science des données dont nous ne parlons pas

Le problème le plus dangereux de la science des données dont nous ne parlons pas


Quelles étaient vos responsabilités principales chez Microsoft Research?

Le laboratoire de recherche de l’entreprise comportait deux fonctions principales.

  1. J'étais responsable des laboratoires de recherche fondamentale. Il s'agissait de faire progresser l'état de l'art dans toutes les formes de recherche. À ce moment-là, Microsoft Research (MR) couvrait plus que la science informatique (CS). Nous avons eu des biologistes, des spécialistes des sciences sociales, des économistes, etc.
  2. Je parlais du cœur de métier de Microsoft et veillais à ce que les meilleures unités technologiques développées par les chercheurs en MR soient disponibles pour les unités fonctionnelles et à ce que celles-ci aient toujours une longueur d’avance en termes de technologies et d’anticipation pour l’avenir.

J'étais responsable de ces deux responsabilités dans tous nos laboratoires de recherche à travers le monde, notamment à Redmond, à New York, à Cambridge (Angleterre), à ​​Bangalore (Inde) et à Beijing (Chine).

Avez-vous participé aux investissements de Microsoft dans des projets d’IA? Si oui, quels ont été certains défis auxquels vous avez été confrontés?

J'ai participé à des investissements dans la recherche liée à l'apprentissage automatique, à l'IA et à la science des données, plus généralement en termes de personnes embauchées et de projets soutenus, ainsi que dans nos engagements avec les unités fonctionnelles. J'étais dans une unité opérationnelle appelée «IA et recherche». La partie IA de cette unité commerciale a travaillé avec d'autres unités commerciales pour s'assurer que celles-ci étaient au courant des dernières techniques de ML et d'IA et de la manière de tirer parti des idées de recherche émanant de la branche de recherche de la société.

Qu'est-ce que la "pensée numérique", l'idée que vous avez créée et popularisée?

La pensée informatique (CT) est le processus de pensée pour formuler un problème et exprimer ses solutions de manière à ce qu'un ordinateur, qu'il soit humain ou machine, le réalise efficacement. C'est une définition chargée et chacun des mots est très important. Mais pour mieux comprendre intuitivement ce qu'est la tomodensitométrie, elle pense comme un informaticien.

Il existe certaines techniques et méthodes de résolution de problèmes que les informaticiens utilisent quotidiennement. Certains sont:

  1. Comment concevoir un algorithme pour résoudre ce problème particulier
  2. Comment puis-je décomposer ce problème particulier en morceaux plus petits
  3. Comment définir des couches d'abstraction
  4. Comment définir des interfaces entre composants

Cet ensemble de techniques de résolution de problèmes et un ensemble de méthodes permettant d’approcher un grand système ou un gros problème - c’est ce que j’entends par pensée informatique.

Le point de l'article de 2006 où j'ai écrit sur la pensée informatique était double:

  1. Vers 2004-2005, nous sortions de l'effondrement de la bulle Internet. Tout le monde fuyait l'informatique. De nombreux établissements de premier cycle ont constaté une baisse des inscriptions autour de la CS. Les gens se demandaient s'ils devaient fermer leurs départements de CS. L’une des raisons pour lesquelles j’ai écrit l’article était de nous dire en tant qu’informaticiens que nous n’avions rien à craindre. Ces choses vont par cycles. De plus, nous avons une façon de penser qui profite à tout le monde, que vous soyez en informatique ou non. L'un des objectifs de cet article était de dire que l'informatique s'adressait à tous. Je ne veux pas dire que tout le monde doit faire face à une CS majeure. Je veux dire que tout le monde peut bénéficier de certains concepts proposés par CS. Les concepts de pensée C’est pourquoi j’utilise le terme Pensée computationnelle.
  2. À l’époque, les cours d’introduction à la CS étaient quasiment «Introduction à Java / C ++ / votre langage de programmation préféré». Cela a découragé de nombreux étudiants qui voulaient goûter à l'informatique et comprenaient ce que ce domaine pouvait offrir. Dans la communauté CS, l’article disait donc: «Nous avons tellement plus à offrir en termes d’enseignement de la CS que de programmation».
Youtube

En fait, la programmation est simplement une compétence que vous apprenez à devenir informaticien. Ce qui est plus important que de savoir programmer, ce sont les compétences en résolution de problèmes que CS enseigne à ses étudiants. Ces compétences sont encore plus importantes que de savoir programmer si vous n’êtes pas un informaticien.

Depuis 2006, non seulement l’interface des deux côtés a changé, mais il ya également eu beaucoup plus de discussions sur la manière d’intégrer la CS à l’éducation de la maternelle à la 12e année dans le monde.

Qu'est-ce que le Data Science Institute (DSI)?

DSI est un institut universitaire et de niveau universitaire. Il fonctionne avec toutes les écoles du campus et tous les autres instituts / centres du campus. Cela montre bien que les données sont omniprésentes et que tout le monde peut tirer profit de l'analyse des données dont nous disposons. Nous travaillons avec des professeurs d'histoire / anglais, des professeurs, des facultés de médecine (génomique, santé publique), des facultés de droit, des étudiants en commerce, etc.

DSI a un énoncé de mission en trois parties qui, j’espère, traduit mon ambition.

  1. Faire progresser la science des données à la pointe de la technologie. Il s’agit vraiment de pousser la recherche fondamentale. Pour la science des données, il s’agit de définir le domaine. C’est un nouveau domaine émergent. La communauté universitaire essaie toujours de comprendre ce qu’est cette histoire de science des données. J'aimerais que Columbia prenne l'initiative de définir ce qu'est la science des données.
  2. Transformez tous les domaines, professions et secteurs grâce à l'application de la science des données.
  3. Assurer l'utilisation responsable des données au profit de la société. Il s’agit de relever les grands défis de la société en matière d’énergie, de justice sociale, de lutte contre le changement climatique et de soins de santé. L'utilisation responsable des données répond aux préoccupations en matière d'éthique et de respect de la vie privée lors de la collecte et de l'analyse de données, en particulier de données relatives aux personnes. Je pense qu’il est important que la science des données, en tant que nouveau domaine émergent, insiste sur les préoccupations éthiques relatives aux données (quelque chose sur lequel CS a manqué la vedette).

Ces trois composantes peuvent être résumées comme suit: données valables, données utiles, responsabilité des données.

Pouvez-vous parler de certaines des recherches innovantes en science des données de l’Institut?

Il y a des exemples de recherche spécifiques que je peux citer:

  1. Dans le raisonnement causal, nous avons un résultat qui dit que l'on peut faire un raisonnement causal multiple d'une manière qui repose sur des hypothèses plus faibles que le raisonnement causal unique, mais il est plus répandu dans le monde réel que le raisonnement causal unique.
  2. Application à la recherche montrant comment la science des données peut être appliquée à n’importe quel domaine. Des personnes travaillent dans les domaines de la biologie, de l'histoire, de l'astronomie, des sciences des matériaux, de la médecine, etc. En ce qui concerne plus particulièrement la médecine, nous disposons d'un ensemble de données très intéressant appelé OHDSI, que nous coordonnons en Colombie, qui compte 500 millions de dossiers de patients uniques.
Youtube

Pouvez-vous nous en dire plus sur l’éthique dans l’IA, un sujet qui n’est pas aussi souvent abordé, mais qui est fondamental pour tous les scientifiques de données?

Ce que nous apprenons, c’est que les gens sont très enthousiastes à propos de l’intelligence artificielle et de l’apprentissage automatique appliqués à presque tout: recommandations sur les livres à acheter et les films à regarder, systèmes de vision par ordinateur dans nos voitures autonomes, prédictions / classifications des traitements médicaux.

Lorsque vous parlez de recommandations de livres, vous pouvez probablement vous tromper - nous n’allons pas déranger l’utilisateur final. Mais quand on parle de voitures autonomes ou de diagnostics médicaux, nous devons nous assurer que les systèmes sont corrects, fiables, sûrs, sécurisés, ainsi que éthiques et équitables.

Un autre domaine d’application dans lequel AI est déjà utilisé est celui de décider si une personne doit être libérée sous caution ou non. Nous prenons la décision de vous embaucher ou non. Vous voulez que toutes ces décisions soient justes. Mais si les modèles sont formés sur des données biaisées, ils le seront alors, et ce n’est pas juste.

Donc, tout à coup, ces modèles ML sont utilisés dans des situations critiques pour la sécurité, la vie, pour la prise de décisions concernant des personnes, et ces décisions vont nous affecter à vie. Nous voulons nous assurer que ces modèles sont justes, qu’ils peuvent faire confiance aux résultats. À l’heure actuelle, il n’ya aucune raison de faire confiance à quoi que ce soit. Je fais donc la promotion de toute une zone appelée «IA digne de confiance», qui se penche sur la sécurité, la fiabilité, l’équité, la robustesse, ainsi que sur toutes sortes de propriétés de ce modèle particulier en contexte, par tâche et par domaine.

Afficher plus

SupportIvy

SupportIvy.com : Un lieu pour partager le savoir et mieux comprendre le monde. Meilleure plate-forme de support gratuit pour vous, Documentation &Tutoriels par les experts.

Articles similaires

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Bouton retour en haut de la page
Fermer