Intelligence artificielle

Les récents progrès des réseaux de neurones prédisent-ils l'intelligence générale artificielle?

Les récents progrès des réseaux de neurones prédisent-ils l'intelligence générale artificielle?


Photo de Michael Brandt

J'ai quelques réflexions sur cet exposé de Greg Brockman, CTO d'OpenAI:

C’est une bonne conversation, mais il s’agit plus que d’autre chose des progrès de l’IA dans les 6 dernières années. Malgré le titre, il n’ya pas vraiment d’argument de fond pour démontrer que l’intelligence générale artificielle à court terme est plausible. Brockman mentionne très brièvement qu'il existe des catégories de tâches cognitives (comme le raisonnement) que l'IA actuelle ne peut pas faire, mais que les chercheurs en intelligence artificielle ont des idées sur la manière de les accomplir toutes. J'aurais aimé que le discours ait été deux fois plus long et que la seconde partie du discours se soit concentrée sur ces idées.

Brockman souligne l’augmentation astronomique de la puissance de calcul utilisée pour entraîner les réseaux de neurones, ce qui laisse présager des améliorations astronomiques de l’IA. Mais cela me semble en arrière. Il est également possible que des augmentations astronomiques de la puissance de calcul utilisée pour former des réseaux de neurones ne conduisent qu'à des augmentations de performances modestes. L’augmentation astronomique des entrées ne signifie pas nécessairement l’augmentation astronomique des sorties.

Avec les données d’entraînement pour les classificateurs d’image, nous en avons un exemple (mais seulement, comme je vais l’expliquer). Facebook a formé un réseau de neurones sur 1 milliard d'images provenant d'Instagram et atteint un taux d'erreur de 14,6% dans le top 1 selon le test de référence d'ImageNet. («Top-1» désigne le type d’objet de l’image dans le réseau de neurones.) C’est une augmentation de 1 000 fois du million d’images du jeu de données de formation ImageNet, mais seulement une amélioration de 1,26x par rapport au 18,5% correspondant au top 1 taux d'erreur précédemment atteint par un réseau de neurones n'utilisant que ces 1 million d'images d'apprentissage. (Pour des raisons de simplicité, je n’exclus pas le réseau NASNet de Google.) Les données de formation ont augmenté de 1 000 fois, mais les performances n’ont augmenté que de 1,26. Peut-être un modèle similaire est-il valable pour l'informatique.

D'autre part, le réseau de neurones Facebook est un mauvais exemple. Les photos ImageNet sont soigneusement étiquetées à la main. Facebook appelle cette approche «un apprentissage faiblement supervisé» (par opposition à un apprentissage supervisé classique) car les images provenant d’Instagram ne sont que faiblement étiquetées par des hashtags. Je viens de chercher le hashtag #car, et sur les 30 premières images, 13 n'étaient pas des images de voitures. Les 17 autres images comprenaient des images ambiguës et non idéales. Lorsque ces nombreux exemples d'apprentissage sont mal étiquetés, le signal d'apprentissage pour un réseau de neurones est très faible.

Ce n’est pas seulement le volume de données de formation qui compte, mais aussi la qualité des données et la qualité de l’étiquetage. Peut-être qu'avec des images soigneusement sélectionnées et étiquetées à la main, nous verrions un rapport beaucoup plus proche d'un ratio 1: 1 entre l'augmentation des données d'entraînement et celle des performances. Mais je ne fais que spéculer, car je ne suis au courant d’aucun résultat expérimental sur cette question.

Nous ne connaissons pas encore le degré de corrélation entre les intrants et les extrants. Avec les voitures autonomes, par exemple, il semble être une question ouverte de savoir si 10 fois plus de calcul intégré, 10 fois plus de réseaux neuronaux, 10 fois plus de données d'entraînement et 10 fois plus de calculs d'arrière-plan pour la formation conduiraient à une amélioration 10 fois supérieure des performances du réseau neuronal, ou juste une amélioration progressive.

Les améliorations progressives valent encore la peine d'être poursuivies. Si les humains ont un taux d'erreur de 1 sur 128 sur une tâche de perception comme la reconnaissance des panneaux de signalisation et que les réseaux de neurones ont un taux d'erreur de 1 sur 105, augmenter les performances de 1,26 fois à 1 sur 132 pourrait être révolutionnaire sur le plan pratique et économique. implications. De manière plus réaliste, si vous commencez avec un réseau de neurones avec un taux d’erreur de 1 sur 14 et que vous augmentez la précision du réseau de neurones de 1,26 fois dix fois de suite, vous obtiendrez un taux d’erreur de 1 sur 141.

Même si chaque étape incrémentielle nécessite une augmentation d'un ordre de grandeur en calcul intégré, en taille de réseau neuronal, en volume de données de formation, en qualité d'étiquetage, en calcul d'arrière-plan ou en architecture d'architecture neuronale, cela en vaut toujours la peine. Augmenter de manière exponentielle le nombre d'entrées dans les réseaux de neurones pour obtenir des performances améliorées constitue un bon compromis si les performances dépassent le seuil critique pour une application robotique en pleine mutation.

La même idée s’applique au travail d’OpenAI sur l’apprentissage par renforcement. Jetez des quantités folles de calculs sur un réseau de neurones pour qu'il puisse jouer 600 ans de Dota 2 chaque jour et grâce à une sélection et à une sélection hautement aléatoires du darwinien, il finira par apprendre à faire une chose très, très bien. Mais ce talent ne sera pas transféré à d'autres tâches. Le réseau de neurones n'aura pas de nouvelles capacités cognitives ou intellectuelles fondamentales. Il vient d'apprendre par "force brute" comment jouer à un jeu vidéo.

L’approche «force brute» peut être extrêmement pratique et économiquement utile. Apprenez aux robots d'entrepôt et d'usine à faire des choses qui nécessitent une motricité fine et qui pourraient constituer une nouvelle révolution industrielle. Cela vaut la peine de dépenser des quantités de calcul de la banane pour forcer une tâche à exécuter, car nous payons actuellement des êtres humains pour la faire à plusieurs reprises. Mais la force brute ne me semble pas être un moyen de développer des capacités cognitives plus généralisables. (À moins que vous n'essayiez d'imiter l'évolution biologique darwinienne dans une simulation informatique. C'est une idée préconisée par le chercheur en intelligence artificielle, Andrej Karpathy.)

Il y a deux idées bien différentes qui se fondent dans cette conversation:

1. Les entrées du paradigme de réseau de neurones actuel, par ex. données de formation et de calcul, augmentent de façon exponentielle.

2 La recherche sur des idées et des paradigmes fondamentalement nouveaux qui apporteront des capacités fondamentalement nouvelles à l'IA progresse de manière exponentielle.

(1) est hors de doute, mais (2) est spéculatif. Il serait vraiment intéressant d'entendre quelqu'un comme Brockman faire une argumentation technique approfondie et détaillée pour (2). Mais jusqu’à présent, je ne l’ai pas entendu.

Des gens comme Elon Musk (un co-fondateur de OpenAI) semblent croire au récit «exponentiel whoosh» où l'IA est comme un train qui prend de la vitesse, et tout aussi sûrement que nous avons résolu Go, nous allons résoudre le langage, le raisonnement et tout le reste . Un autre récit est que nous avons simplement choisi certains des fruits les plus faciles de l’intelligence biologique évoluée. Nous sommes à moitié copiés, à moitié convergés vers des méthodes de force brute similaires à celles utilisées par les cerveaux. Nous exploitons la puissance de configurations simples de neurones connectés.

Je ne vois pas comment vous pouvez prédire le taux de convergence des chercheurs et des ingénieurs en intelligence artificielle sur le reste des fonctions évoluées du cerveau. Je ne sais pas si vous pouvez dire que ce sera un «whoosh exponentiel», ou une lente et pénible route de bricolage. Les progrès en matière d’IA pourraient consister en une courbe en S lisse ou en un équilibre ponctué; des progrès pourraient se produire par à-coups. Brockman reconnaît qu'avant 2012, AI était loin de faire des progrès exponentiels.

Une approche parallèle pour converger vers des techniques similaires à celles utilisées par les cerveaux par le biais de l'ingénierie consiste à simplement copier les cerveaux. C'est la différence entre la recherche en IA pure et les neurosciences et les sciences cognitives. En théorie, cette approche devrait être plus rapide. N’est-il pas plus rapide de copier quelque chose que de recommencer à zéro?

Les progrès dans la copie des cerveaux sont en partie dus aux progrès des technologies utilisées pour collecter des données à partir des cerveaux. Si nous pouvions collecter toutes les données importantes sur le plan biologique d'un cerveau, nous devrions pouvoir les simuler ou les imiter exactement. C’est la forme de copie la plus directe. Mais pour pouvoir construire sur un cerveau numérique et le rendre surhumain, nous aurions probablement besoin d’avancées théoriques en neurosciences et en sciences cognitives.

Avant que nous ayons la technologie pour émuler le cerveau, les progrès théoriques en neurosciences et cognitifs peuvent, en théorie, alimenter la recherche sur l'IA. Vicarious tente de le démontrer. DeepMind défend également cette idée. Numenta décrit sa mission comme une «ingénierie inverse du néocortex» visant à «comprendre les principes de l'intelligence et à construire des machines qui fonctionnent sur les mêmes principes». Hormis AGI, l'ingénierie inverse des cerveaux peut nous aider à développer des applications robotiques en constante évolution.

Dans la mesure où les progrès en matière d'AGI dépendent des progrès théoriques - en neurosciences et sciences cognitives ou en recherche sur l'IA pure -, il semble difficile de les prévoir, car les progrès théoriques sont difficiles à prévoir. Peut-être que ce sera rapide et en douceur, peut-être que ce sera lent et irrégulier. Comment savons nous? Y a-t-il un moyen de prédire ces choses?

Si nous nous inquiétons de l’AGI, et si nous voulons maximiser la probabilité d’un bon résultat pour l’humanité, il me semble que le meilleur moyen de le faire est d’accélérer l’approche basée sur la copie du cerveau afin d’augmenter les chances qu’elle atteigne l’AGI. avant l’approche de recherche en IA pure. Un cerveau humain imité est un être humain, et un cerveau imité amélioré sur le plan cognitif est un être humain amélioré sur le plan cognitif. Si l’AGI est réalisé en améliorant l’être humain, les motivations et les valeurs morales de l’AGI suscitent moins d’incertitude que si l’AGI était entièrement conçue par des ingénieurs informaticiens.

C’est pourquoi je suis heureux de voir qu’Elon Musk poursuit ses activités avec Neuralink, une entreprise dont le but est d’améliorer l’intelligence humaine en implantant de manière chirurgicale des interfaces cerveau-ordinateur à large bande passante. L’approche Neuralink pourrait être un raccourci vers l’AGI humaine (ou hominine AGI), ou une voie vers l’émulation du cerveau. En tant que tel, il aide à prévenir les problèmes de création d’AGI à partir de rien.

Show More

SupportIvy

SupportIvy.com : Un lieu pour partager le savoir et mieux comprendre le monde. Meilleure plate-forme de support gratuit pour vous, Documentation &Tutoriels par les experts.

Related Articles

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Close
Close