Intelligence artificielle

L'IA générative: une clé de l'intelligence machine? – Le paradis de Cantor

L'IA générative: une clé de l'intelligence machine? - Le paradis de Cantor


Nous vivons l’ère de la prochaine révolution industrielle: les trois premières années ont libéré la plupart des humains des travaux forcés. Celui-ci vise à nous emmener sur le dernier domaine de la domination humaine sur cette planète: notre intelligence. Dans cet article, nous allons mettre de côté les effets éthiques, politiques et sociaux d’une telle révolution et nous concentrer davantage sur son aspect technique. Ce que nous voyons aujourd'hui dans les médias est un peu différent de la domination réelle des machines sur les humains… ou pas?

Les domaines de l'intelligence artificielle qui ont connu la croissance la plus rapide au cours des dernières années ont été la vision par ordinateur, le traitement du langage naturel, le traitement de la parole et, bien sûr, différentes applications d'analyse client telles que les systèmes de recommandation (vous pourriez ne pas l'apprécier, mais les publicités ciblées sont suffisamment précises pour augmenter les revenus des entreprises). Qu'est-ce qui est censé être une démonstration de la performance de pointe dans chacun de ces domaines? Presque dans tous ces domaines, nous sommes surpris par des choses telles que les vidéos DeepFakes, des images de visages générées de manière réaliste, des enregistrements de voix artificielles qui sonnent comme de vrais et, bien sûr, de fausses nouvelles générant Transformers de OpenAI.

Statistiques ICLR 2019: modélisation générative dans les 3 principaux sujets, https://ailab.criteo.com/iclr-2019-stats-trends-and-best-papers/

Une question très raisonnable que vous pourriez poser est

Mais qu'est-ce que tous ces faux en profondeur et cette génération de texte ont à voir avec l'intelligence? Est-ce que c'est de la créativité?

Non, c’est juste des statistiques compliquées non linéaires.

Peut-il remplacer des artistes, des écrivains ou des analystes?

Pas vraiment, ils ne sont même pas vraiment très utiles pour le moment.

N’avons-nous pas de problèmes plus importants que de générer des chats en haute résolution, de "déshabiller" des personnes sur des photos et de faire dire à Mark Zuckerberg des choses ridicules? Pourquoi alors consacre-t-il tant de temps et d’argent aux plus brillants esprits et aux entreprises les plus puissantes? Pour répondre à cette série de questions, nous devons approfondir les bases de l’apprentissage automatique, en particulier ce qui se passe à l’intérieur de ces modèles, tels que les réseaux de neurones, lorsqu’ils s’entraînent à résoudre des problèmes que nous leur apprenons à faire. Si le sujet vous intéresse, je vous recommande également de lire mon article sur d’autres cas d’utilisation alternatifs de modèles génératifs. Et… une citation de motivation pour aujourd'hui:

Si je ne peux pas créer quelque chose, je ne le comprends pas - Richard Feynman

Voyons ce que les algorithmes d’apprentissage automatique modernes peuvent faire en dehors de la génération de choses. La plupart des applications IA ressemblent à ceci:

En termes mathématiques, nous avons une fonction avec beaucoup de degrés de liberté (récemment, ces fonctions sont des réseaux de neurones profonds) qui, avec correctement trouvé ces degrés de liberté (ou des poids, ou des paramètres) sont capables de carte complexe des données d'entrée (images, texte, sons, statistiques) à certains sorties définies, cela peut être des ensembles de catégories, des valeurs réelles, ou même des sorties structurées vraiment complexes comme des graphiques.

f - une fonction qui mappe les entrées x sur les sorties y avec un ensemble de paramètres w

Comment trouver les paramètres corrects? Habituellement, nous définissons certains critères de bonté à maximiser (par exemple, l'exactitude de la classification), son mère porteuse mathématique (comme l'entropie croisée, également appelée fonction de perte) et ayant une fonction de modélisation de données différenciable et une fonction de perte différenciable, nous pouvons exécuter optimisation numérique processus, qui maximise la performance d'un modèle sur des observations empiriques en ce qui concerne les degrés de liberté.

Une fonction d'entropie croisée qui doit être optimisée par rapport aux paramètres du modèle
Y ^ {p} _ {n} est la sortie du modèle par rapport à l'entrée x_ {n}, normale y_ {n} - correspond à l'étiquette vraie de l'ensemble de données.
Règle de mise à jour de descente de gradient pour la fonction de perte susmentionnée, elle entraîne le modèle lui-même

À la fin du processus d’optimisation, si vous avez suffisamment de jeux de données d’entrées et de sorties correctes correspondantes et que vous avez choisi une fonction de modélisation des données appropriée, les paramètres trouvés seront en mesure de mapper les images des images de rayons X des poumons avec les images correspondantes. catégories d'état de santé. Souvent même mieux que les humains. Le résultat clé de tout le processus de formation est bien sûr l'ensemble des paramètres qui est censé être optimal pour un problème particulier sur certaines données particulières. Mais est-ce optimal en général?

Nous savons déjà que les modèles supervisés peuvent très bien s’acquitter de nombreuses tâches, mais la précision exceptionnelle a son propre prix. Néanmoins, les chercheurs en intelligence artificielle réussissent très bien à créer des modèles mathématiques de plus en plus puissants. Ceux qui les alimentent les utilisent souvent à mauvais escient ou ceux-ci ne sont même pas censés répondre aux attentes.

Surajustement

https://medium.com/greyatom/what-is-underfitting-and-overfitting-in-machine-learning-and-how-to-deal-with-it-6803a989c76

Les suradaptés ont de nombreux visages, principalement dans la pratique, nous envisageons 3 situations possibles:

  • Un modèle faiblement régularisé se souvient seulement des données de formation et ne pas généraliser aux données en direct
  • On a pas assez d'échantillons étiquetés pour la formation du modèle, encore une fois, nous ne pas généraliser aux données en direct
  • Des échantillons étiquetés des données de formation et de validation sont totalement différent des données de test, c’est pourquoi, encore une fois, les performances sur les données réelles diminuent

Mathématiquement, cela signifie que nos paramètres w ne sont pas capables de décrire les modèles dans les données en dehors du jeu d'apprentissage.

Préjugé humain

https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing

Avec l’adoption totale de modèles d’apprentissage automatique par de nombreuses entreprises, de nombreux préjugés humains dans la prise de décision liés à sexisme, racisme, chauvinisme et d’autres tendances négatives qui ont littéralement ruiné et peuvent ruiner la vie d’autres personnes, comme le montre le lien en dessous de l’image ci-dessus. Eh bien, que pouvons-nous attendre des algorithmes apprendre de notre passé?

Mathématiquement, cela signifie que les paramètres w sont affectés non pas par la nature des données et des propriétés réelles, mais par le retour y Tout d'abord, ce qui pourrait être biaisé.

Biais de modèle

Les CNN formés par ImageNet sont orientés vers la texture; l'augmentation du biais de forme améliore la précision et la robustesse, https://openreview.net/forum?id=Bygh9j09KX

Les algorithmes qui fonctionnent bien en phase de recherche peuvent échouer sur des problèmes totalement inattendus. Par exemple, il s'est avéré que les réseaux de neurones à convolution (CNN) largement utilisés aujourd'hui souffrent d'attaques contradictoires et ont tendance à apprendre non pas la forme des objets visuels, mais plutôt leur texture (image et lien ci-dessus). le problème, probablement, réside dans la opération mathématique de base choisi pour le modèle - convolutions, qui ne sont pas assez robustes car ils semblent.

https://worldmodels.github.io/

Un autre exemple peut être l’apprentissage par renforcement des agents, qui sont supposés bien fonctionner dans des environnements différents avec les mêmes buts et objectifs, mais ils échouent lorsque vous remplacez, disons, la balle orange que vous devez manger avec un carré bleu. On peut considérer qu’il est trop compliqué, mais le cœur de la problème est dans le conception de l'algorithme ainsi que.

Mathématiquement, cela signifie que ce vecteur w est construit pas correctement à partir de la structure du réseau tout d'abord.

Comme on peut le constater, la plupart des problèmes sont diagnostiqués par certains problèmes liés aux paramètres du modèle, à leurs valeurs et à leur structure. Dans la plupart des cas, Règle «ajouter plus de données (correctes)» et une formation sur des données plus étiquetées avec des situations problématiques (comme pour le pilote automatique Tesla) fonctionne, mais dernièrement, certaines approches quasi-génératives sont également populaires, telles que la mise au point de modèles pré-formés sur d’autres jeux de données plus volumineux, mais probablement des tâches différentes. En réalité, c'est juste un correctif. Pourquoi? Parce qu'avec chaque nouveau sous-dossier non visualisé, vous devez rééduquer votre algorithme, ce qui n'est pas exactement comment nous nous attendons à ce que l'intelligence machine fonctionne. Si nous avons une application hypothétique qui distingue les chats des chiens sur les images, nous ne voulons pas la rééduquer à chaque nouvelle race d’animal invisible, mais plutôt déduire la décision de celle d’autres races de chiens ou de chats déjà vues.

Pour une image complète, voyons comment l’apprentissage automatique est défini dans certains livres ML assez classiques, tels que «Reconnaissance des formes et apprentissage automatique» de Christopher Bishop. L'auteur présente le pipeline de modélisation sous forme de trois options de haut niveau en réduisant la complexité:

  • Tout d’abord, apprenez le modèle générateur de données conditionnel et après avoir appliqué le théorème de Bayes pour modéliser les probabilités de classe postérieure;
  • Apprendre les probabilités de classe postérieures directement et après la théorie de la décision en code strict pour la classification;
  • Trouvez une fonction discriminante f (x) qui sort directement les classes de x.
Cadre bayésien de classification: premier modèle densités conditionnelles classe p (x | C_ {k}) pour chaque classe C_ {k} séparément et après application du théorème bayésien

Comme nous pouvons le constater, tout apprentissage en profondeur moderne concerne la dernière option, la plus simple et la plus superficielle. Mais le problème principal de l’approche entièrement bayésienne est qu’elle ne peut pas être appliquée directement aux données complexes de grande dimension.

https://towardsdatascience.com/what-a-disentangled-net-we-weave-representation-learning-in-vaes-pt-1-9e5dbc205bd1

Puisque nous sommes d’accord sur le fait que l’apprentissage supervisé direct n’est peut-être pas le paradigme le plus optimal pour apprendre des représentations efficaces et généralisées et que nous avons vérifié l’approche bayésienne qui est en quelque sorte liée à la modélisation générative à sa première étape, examinons aujourd’hui les principaux algorithmes de modélisation générative. Expliquez-leur pourquoi ce sont des outils beaucoup plus puissants dans l'arsenal des scientifiques. Nous examinerons les réseaux générateurs accusatoires (GAN) et les autoencodeurs variationnels (VAE) comme étant les plus populaires et présentant les résultats les plus importants récemment.

Réseaux accusatoires génératifs

Les GAN sont des architectures basées sur un réseau de neurones, composées de deux modèles: l'un s'appelle générateur G (ou parfois, artiste) et deuxième discriminateur D(ou critique). Comme vous pouvez le deviner, le générateur est une partie responsable de la génération des objets et le discriminateur est le modèle qui indique si le dernier échantillon généré est réel ou non. Les deux réseaux sont en cours de formation conjointement ensemble, où le générateur est pénalisé par le discriminateur pour avoir créé des échantillons insuffisamment réalistes. Les résultats pratiques sont en effet étonnants, mais il n’est pas aussi simple de creuser dans la représentation pour une réutilisation ultérieure: nous le verrons dans le chapitre suivant.

La fonction de perte pour les GAN qui vise à maximiser la précision du réseau discriminateur et à minimiser l’erreur des échantillons générés à partir du réseau du générateur. Il est également dit que la formation de GAN est un problème de jeu min-max en raison de la «compétition» entre D et G. Ici x_ {i} est un échantillon réel de données, z_ {i} - un bruit aléatoire entré dans le réseau du générateur. , w_ {d} - poids de D, w_ {g} - poids de G.

Autoencodeurs variationnels

Les VAE sont des modèles relativement plus faciles, même s'ils se composent également de deux réseaux de neurones. Le premier (encodeur) est formé pour coder l’entrée en un code compressé et le second (décodeur) - reconstruit l'entrée initiale à partir de ce code. L’idée est que cette représentation comprimée, si elle est choisie et formée correctement, peut contenir toutes les informations nécessaires de l'entrée tout en ayant une dimension beaucoup plus basse. Nous sommes sûrs que ce code est suffisant si l’entrée peut être reconstruite à partir de celui-ci via le réseau de neurones du décodeur. En outre, si nous échantillonnons ce code d’une distribution, nous pouvons produire nouveaux échantillons réalistes de données avec un décodeur de la code aléatoire. Il existe également des approches relatives à la manière de contrôler ce code et des propriétés particulières associées à un élément du code.

Dans les GAN et les VAE, nous pouvons obtenir une représentation de données (ou un code) pouvant être utilisée pour générer des objets réalistes basés sur un ensemble de données en utilisant un modèle de décodeur ou de générateur. Mais comment l’utilisons-nous pour la classification, la régression et d’autres tâches en aval qui nous intéressent réellement?

Combinaison de modélisation discriminante et générative

Utiliser des VAE pour des tâches d'inférence est relativement simple - en avoir un, formé de manière non supervisée sur beaucoup de données, nous pouvons utiliser le encodeur pour extraire les fonctionnalités (un code d'un objet) et sur ce code entraînent un autre algorithme d'une régression linéaire à un autre réseau de neurones. Dans cet article sur la classification de texte semi-supervisée, vous pouvez voir comment les VAE se comportent mieux tout en disposant de beaucoup moins de données étiquetées pour la formation:

http://www.cil.pku.edu.cn/docs/20190415142646025640.pdf

Les GAN sont un peu plus difficiles à utiliser car ils ne génèrent pas de représentation explicite en tant que VAE. Habituellement, le discriminateur est mis à profit non seulement pour distinguer les faux échantillons des vrais, mais aussi pour résoudre des tâches en aval. En «voyant» de nombreux exemples réels et faux, il sera automatiquement plus robuste qu'un modèle supervisé lui-même. L'un des grands résultats a été obtenu dans la classification des images par télédétection:

https://arxiv.org/pdf/1612.08879.pdf

avec des recherches de suivi avec encore plus de précision mais avec toujours beaucoup moins de complexité et de données nécessaires. La partie la plus intéressante est que, dans les deux cas, vous pouvez former la génération et la classification conjointement plutôt que individuellement, ce qui améliore même les performances.

Fixer l'apprentissage supervisé

Tout cela est bien, mais comment pouvons-nous savoir que ces modèles peuvent apprendre des représentations et extraire des caractéristiques qui résolvent réellement les problèmes rencontrés dans les environnements d’apprentissage supervisé classiques et nous offrent de nouvelles possibilités et de nouvelles méthodes de généralisation?

  1. Surapprentissage: Les modèles génératifs ont généralement moins de paramètres, il est donc difficile de sur-adapter. Ils ont également «vu» plus de données en raison du processus de formation basé sur un échantillonnage à partir de l’espace latent, ce qui les rend plus robustes aux occlusions.
  2. Biais humain: Dans le cas de la modélisation générative, nous n’apprenons pas du tout les étiquettes humaines, mais les propriétés de données elles-mêmes, ce qui permet d’éviter les corrélations parasites.
  3. Biais de modèle: moins de paramètres et la capacité de générer des objets feront disparaître ces problèmes de «forme contre texture», car les modèles génératifs ne généreront jamais d'échantillons non similaires à ceux des données d'apprentissage.
  4. Représentation interprétable: Avec des techniques telles que l'apprentissage de la représentation démêlée, nous pouvons rendre la représentation de l'espace latent claire et interprétable.
  5. Meilleure prise de décision: l'échantillonnage au cœur des modèles permet une modélisation de l'incertitude qui peut donc permettre l'option de rejet et, partant, une utilisation plus précise des modèles.

Peut-être que maintenant les modèles génératifs commencent à vous sembler être une extension agréable et plus complète du cadre d’apprentissage statistique standard, censé acquérir des connaissances plus générales sur les données sous-jacentes. Alors pourquoi personne ne fait ça? Pourquoi la plupart des cours universitaires, des MOOC et des travaux dirigés regorgent d’apprentissage supervisé et la modélisation générative non supervisée n’apparaît que sur les blogs de certains doctorants. étudiants et publications académiques? En fin de compte, il existe déjà des dizaines de cas et je voudrais en partager quelques-uns pour commencer. Vous pouvez ensuite en rechercher beaucoup plus sur Google.

  • Transformers: les réseaux de neurones, formés pour générer des textes à partir d'énormes jeux de données; cela leur permet de comprendre la langue en premier, et seulement après avoir appris certaines tâches de classification. Actuellement à la pointe de la technologie en PNL.
  • Identification biométrique du visage: La reconnaissance des visages et l'identification à l'état sauvage sont difficiles en raison de différentes caméras, conditions de luminosité, angles du visage, âges, couleur de la peau et de nombreux autres facteurs. La modélisation générative des images de visage permet de surmonter certains de ces problèmes.
  • Conduite autonome: «… La direction par le grand public ne semble pas aussi attrayante que la conduite automatisée» ©, jetez un œil aux diapositives de cet atelier pour voir comment l'apprentissage auto-supervisé de la vidéo contribue à la construction de meilleurs véhicules autonomes.
  • Reconnaissance de la parole: La pré-formation générative de modèles de reconnaissance vocale contribue également à la performance, par analogie avec l'analyse de texte.
  • Contrôle robotique: Il est difficile d’apprendre les robots dans la vie réelle, c’est pourquoi la plupart des algorithmes sont développés et testés en simulation… mais ils échouent dans la vie réelle. La modélisation générative mettant l'accent sur l'adaptation de domaine permet aux algorithmes d'apprentissage par renforcement d'avoir de meilleurs modèles qui comprennent des concepts plus abstraits à la fois dans la simulation et dans le monde réel.
  • Désenchevêtrement et interprétation: Enfin, la modélisation générative nous permet d’ouvrir des réseaux de neurones «à boîte noire», d’enquêter sur les représentations internes et de les contrôler.

Je ne m'attends pas à ce que ce court essai vous convaince déjà d'arrêter de faire des apprentissages supervisés et à vous fier uniquement aux auto-encodeurs pour l'extraction de fonctionnalités pour tous les problèmes que vous rencontrerez. Le véritable objectif était d’élargir un peu l’esprit des données informatiques, de vous rappeler les principes fondamentaux de l’apprentissage statistique et de montrer pourquoi la communauté des chercheurs en intelligence artificielle est en partie obsédée par la modélisation générative et ce n’est pas juste pour l’amusement.

De plus, je vous recommande de lire mon article sur d’autres cas d’utilisation alternatifs de modèles génératifs dans lesquels je montre des cas d’utilisation autres que l’apprentissage supervisé.

Je suppose que vous voudrez peut-être essayer la modélisation générative par vous-même. Je pense que la meilleure façon de commencer est de prendre votre pipeline d’apprentissage supervisé favori, de former le modèle pour générer des échantillons réalistes de vos données (VAE convolutionnelles si images, transformateurs autorégressifs si le texte par exemple) et après avoir peaufiné la tâche supervisée sur un sous-ensemble plus petit que vous. l'habitude de travailler avec. Les résultats seront surprenants, j'en suis sûr :)

Pour la motivation finale, voici des exemples de modèles générateurs non supervisés / auto-supervisés qui tentent de résoudre certains problèmes non seulement au niveau humain, mais au-delà, et qui sont presque impossibles ou insensés dans le paradigme de l’apprentissage supervisé!

Restez à l'écoute!

Show More

SupportIvy

SupportIvy.com : Un lieu pour partager le savoir et mieux comprendre le monde. Meilleure plate-forme de support gratuit pour vous, Documentation &Tutoriels par les experts.

Related Articles

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Close
Close