Intelligence artificielle

Apprentissage multi-tâches pour une PNL à la pointe de la technologie – dair.ai – Medium

Apprentissage multi-tâches pour une PNL à la pointe de la technologie - dair.ai - Medium


Ce travail vise à utiliser des hiérarchies linguistiques et un apprentissage multitâche pour améliorer les tâches de la PNL sémantique.

Sanh et al. (2018) proposent une nouvelle méthode basée sur apprentissage multitâche, formés de manière hiérarchique, pour obtenir des résultats de pointe sur diverses tâches de la PNL telles que la reconnaissance d’entités nommées (NER), la détection des mentions d’entités (EMD) et l’extraction de relations (RE). (Voir les brèves définitions de ces tâches à la fin de cet article si vous ne les connaissez pas bien.)

La présente question vise principalement à déterminer si les hiérarchies linguistiques et l’apprentissage multi-tâches peuvent être exploités pour améliorer les résultats des tâches liées à la sémantique susmentionnées.

Auparavant, les cadres multitâches n’étaient pas formés pour tirer parti des atouts de transfert inductif pour atteindre des capacités plus généralisées. Aspects complémentaires d'une phrase (par exemple, syntaxe et ordre des mots) peuvent être combinés pour produire des inclusions de phrases généralisées. Cet article propose un modèle unifié qui forme et combine quatre tâches de PNL sémantiques sur la base du partage inter-dépendances avec l'un l'autre. Par exemple, dans l’exemple fourni dans le tableau ci-dessous (surligné en bleu), vous pouvez constater que, en résolvant que “Dell ” et "l'entreprise" se référer à la même entité du monde réel, il est également susceptible de représenter une organisation par opposition à une personne. Cette connaissance pourrait être bénéfique et être transférée à d'autres tâches telles que EMD et NER.

Source de l'image

Le modèle proposé (présenté dans la figure ci-dessous) consiste en une hiérarchie entre les tâches des niveaux inférieurs et en encourageant des interactions complexes à des couches plus profondes. Cela implique que de simples tâches supervisées seront placées dans les couches inférieures et des tâches plus complexes dans les couches supérieures. Cela se fait de bout en bout et sans utiliser de fonctionnalités conçues à la main. Une nouvelle stratégie d’échantillonnage pour un apprentissage multitâche, appelée échantillonnage proportionnel, est également proposé (plus sur cela plus tard).

Framework HMTL— Source de l'image

Modèle hiérarchique

le contribution du modèle consiste en la concaténation de trois types d’intégrations de mots: des incorporations GloVe ajustées, des incorporations ELMo et des incorporations au niveau du personnage.

Le premier groupe de couches du modèle est supervisé par des étiquettes NER où les entrées sont les imbrications concaténées et la sortie représente les états cachés produits par les biLSTM. Une couche de marquage CRF représente la dernière couche de ce groupe, comme le montre la figure ci-dessus.

Le deuxième groupe de couches est supervisé par des étiquettes EMD, où l’entrée est la concaténation de la sortie des couches inférieures et des incorporations d’entrée, et la sortie représente l’incorporation de séquences. Semblable au NER, le CRF est utilisé pour prendre des décisions de marquage. Notez que l’entrée contient des informations provenant des couches inférieures, établissant la architecture hiérarchique.

Le niveau le plus élevé du modèle est supervisé par une tâche de résolution Coreference (CR) dans laquelle les entrées sont les imbrications concaténées combinées avec les sorties des couches inférieures et les sorties sont acheminées vers le mentionnez le marqueur de la paire. Dans ce même niveau de l'architecture, le modèle est également supervisé par la tâche RE. La tâche RE implique l’identification des mentions et la classification de leurs relations; elle tente donc également de relier des mentions similaires à la tâche CR (reportez-vous au document pour plus de détails).

Expériences

Globalement, deux jeux de données sont utilisés pour les expériences. Pour le TNS, la partie anglaise de OntoNotes 5.0 (Pradhan et al. 2013) est utilisée. Pour le CR, le EMD et le RE, le corpus ACE05 (Doddington et al. 2004) est utilisé. Reportez-vous au document pour plus de détails sur ces jeux de données et leur utilisation. Les statistiques de données peuvent être trouvées dans le tableau ci-dessous:

Source de l'image

Éviter oubli catastrophique (un problème courant lors de la formation de modèles multi-tâches), une méthode de formation simple mais efficace est utilisée. En particulier, après chaque mise à jour de paramètre, une tâche du pipeline est sélectionnée de manière aléatoire et les lots liés à cette tâche sont également échantillonnés de manière aléatoire. L'échantillonnage d'une tâche est réalisé à l'aide de échantillonnage proportionnel qui est une fonction de la taille relative d'un jeu de données par rapport à la taille cumulée de tous les jeux de données.

Résultats

En résumé, le cadre d’apprentissage hiérarchique et multitâche proposé, baptisé HMTL, a permis d’obtenir des résultats à la pointe de la technologie (SOTA) pour trois tâches, à savoir NER (+0,52), EMD (+3,8) et RE (+6,8). ). Les résultats sont résumés dans le tableau ci-dessous:

Le modèle complet (A-GM) (surligné en bleu) produit des résultats SOTA pour EMD et RE. Ces résultats suggèrent qu'avoir différents types d'informations sur différentes phrases produit des informations plus riches et précieuses. B, C, D, E et E-GM sont tous des configurations à tâche unique (surlignées en rose) qui sont surperformées par le modèle complet (A) à l'exception de la tâche EMD. Cependant, A-GM surpasse la configuration à tâche unique de EMD, en gardant à l'esprit que ce modèle utilise des mentions d'or. Pour le reste des configurations (par exemple, F, G, etc.), diverses combinaisons de tâches sont utilisées pendant l’entraînement (surlignées en vert). Ces résultats montrent à quel point une tâche ou des tâches peuvent contribuer à l’autre / aux autres. Notez que les auteurs ont également expérimenté l'ordre des tâches telles que (F vs. K) et comment cette décision a influencé les résultats.

Le tableau ci-dessous présente l'étude d'ablation réalisée sur les imbrications d'entrée:

Source de l'image

Vous pouvez observer la force des intégrations ELMo contextualisées grâce aux différences montrées dans les métriques. En outre, les auteurs discutent également de ce que les codeurs et les imbriqués de l’architecture hiérarchique multi-tâches apprennent à travers diverses tâches de vérification (voir les détails complets dans le document).

Dans le tableau ci-dessous, vous pouvez également observer les différences de temps de formation (définies par les mises à jour de paramètres) entre un cadre multitâche et un cadre à tâche unique. Plus les valeurs de la colonne heure sont basses et plus les performances sont élevées, meilleurs sont les résultats.

Source de l'image

Références

Papier: Une approche multi-tâches hiérarchique pour l’apprentissage d’intégrations à partir de tâches sémantiques - (Victor Sanh, Thomas Wolf et Sebastian Ruder)

Code: Repo GitHub

Show More

SupportIvy

SupportIvy.com : Un lieu pour partager le savoir et mieux comprendre le monde. Meilleure plate-forme de support gratuit pour vous, Documentation &Tutoriels par les experts.

Related Articles

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Close
Close