Classification de texte BERT dans une autre langue

Classification de texte BERT dans une autre langue

Ensuite, nous utilisons certains pandas magique pour créer une trame de données.

Comme nous n’avons pas de jeu de données de test, nous avons divisé notre jeu de données – train_df et test_df. Nous utilisons 90% des données pour la formation ( train_df) et 10% pour les tests ( test_df).

  • l’architecture (dans notre cas "bert")
  • le modèle pré-formé ("distilbert-base-german-cased")
  • le nombre d’étiquettes de classe (4)
  • et notre hyperparamètre de formation (train_args).

Vous pouvez configurer l’hyperparamètre dans un large éventail de possibilités. Pour une description détaillée de chaque attribut, veuillez vous référer au Documentation.

Nous avons atteint un f1_score de 0.6895. Au départ, cela semble plutôt faible, mais gardez à l’esprit: la soumission la plus élevée à Germeval 2019 était 0.7361. Nous aurions atteint le top 20 sans régler l’hyperparamètre. C’est assez impressionnant!

Dans un futur billet, je vais vous montrer comment atteindre un niveau supérieur f1_score en réglant les hyperparamètres.

Pour charger un modèle enregistré, il suffit de fournir le path à nos fichiers enregistrés et l’initialiser de la même manière que nous l’avons fait dans l’étape de formation. Remarque: vous devrez spécifier les arguments corrects (généralement les mêmes que ceux utilisés lors de la formation) lors du chargement du modèle.

Après l’initialisation, nous pouvons utiliser le model.predict() pour classer une sortie avec une entrée donnée. Dans cet exemple, nous prenons deux tweets de l’ensemble de données Germeval 2018.

Notre modèle a prédit la bonne classe OTHER et INSULT.

Notre exemple faisait référence à la langue allemande mais peut facilement être transféré dans une autre langue. HuggingFace propose de nombreux modèles pré-formés pour des langues comme le français, l’espagnol, l’italien, le russe, le chinois,…