Technologie

Décoder «Un jeu de trônes» au moyen de la science des données

Décoder «Un jeu de trônes» au moyen de la science des données


Partie 1 - Exploration numérique de «Un chant de glace et de feu»

"Une chanson de glace et de feu" est une série de romans fantastiques écrits par George R.R. Martin

Avec la dernière saison de la série télévisée 'Jeu des trônes' sur nous, c’est une bonne occasion d’examiner de plus près les livres sur lesquels la série est basée. Nous découvrirons comment un traitement numérique des livres peut nous aider à révéler des modèles cachés dans 'Une chanson de glace et de feu'.

Comment commence-t-on à mesurer objectivement un livre? Ne s'agit-il pas uniquement de l'expérience subjective dans l'esprit du lecteur? En effet, les critiques littéraires ont tenté de saisir et de communiquer l'essence et la mesure de la valeur d'un livre de nombreuses façons. Un livre, ainsi que d'autres formes d'art, est souvent apprécié dans la mesure où il peut nous donner un aperçu nouveau et nuancé de notre propre expérience humaine. Une série de romans fantastiques tels que «Une chanson de glace et de feu» situe l’histoire dans un paysage plus illimité, ce qui laisse encore plus de liberté pour explorer les espoirs et les peurs qui sont en chacun de nous.

Cependant, cet article n’est pas une revue de critique littéraire, mais plutôt un science des données exploration. Cette exploration numérique constituera un tremplin vers un article de suivi où nous verrons Comment apprentissage automatique peut construire différentes représentations non déterministes des livres. Existe-t-il des tendances permettant de prédire les événements futurs dans les livres et les séries télévisées? Les romanciers et les scénaristes du futur peuvent-ils utiliser l’intelligence artificielle pour générer de nouveaux documents, permettant ainsi à un livre d’être écrit en plusieurs semaines? Le dernier roman publié par Martin, "Une danse avec des dragons", a pris six ans pour écrire, la série télévisée de HBO devançant déjà les livres d’ici la sixième saison. Mais maintenant, nous courons devant nous! Cet article couvre les concepts de traitement du langage naturel. Le traitement du langage naturel est un domaine interdisciplinaire qui vise à traiter de grandes quantités de données en langage naturel à l'aide de la programmation informatique.

Notez que les livres publiés à ce jour correspondent approximativement aux saisons 1 à 6 de la série télévisée, mais avec une chronologie légèrement différente. Si vous êtes sur le point de regarder la dernière saison de la série télévisée ou si vous avez lu Les cinq livres publiés à ce jour, vous pouvez aller de l'avant et lire cet article sans plus d'avertissement spoiler. Le reste: vous avez été prévenu!

Wordcloud visualise la fréquence des mots sur les cinq livres. Saviez-vous que les corbeaux ont des capacités numériques étonnamment fortes? Des découvertes récentes suggèrent que ces vertébrés liés de manière lointaine ont développé de manière indépendante des lobes terminaux avec des solutions neuronales similaires pour traiter la quantité comme les humains l’ont fait:

Vue d'ensemble de ce qui sera couvert

Cet article couvrira trois approches différentes de l’exploration numérique de 'Une chanson de glace et de feu' de manière ludique et éducative (espérons-le):

  1. Mesurer le diversité lexicale évaluer la richesse lexicale
  2. Empreintes de caractère et analyse de la fréquence des mots de l'histoire
  3. Calculer l'importance des personnages en utilisant théorie du réseau

Les textes ont été explorés et traités avec Python avec NLTK pour le traitement du langage naturel, Seaborn pour la visualisation et Networkx pour calculer les métriques et les graphiques du réseau. Je souhaite également remercier Francesco Cauteruccio pour ses articles très inspirants sur l'analyse de texte.

1. Mesurer la diversité lexicale

Pour commencer l'analyse, examinons de plus près la richesse lexicale et la diversité du texte. Semblable à la biodiversité dans un écosystème, nous examinons des mesures telles que: le volume, variabilité et densité pour dire quelque chose de la richesse perçue en termes numériques:

  • Volume: longueur du texte en nombre de mots
  • Variabilité: rapport du nombre de mots uniques au nombre total de mots
  • Densité: mesure estimée de la densité de l'information

'Une chanson de glace et de feu' a un énorme le volume près de 1,8 million de mots, alors que l’œuvre complète de William Shakespeare compte environ 800 000 mots. Martin a utilisé 22 000 mots différents pour raconter son histoire (jusqu'à présent), ce qui a conduit à une variabilité d'environ 1%. La variabilité est dans ce cas calculée en divisant le nombre de mots distincts par le nombre total de mots dans le texte, également appelé rapport type-texte (TTR). C'est l'une des nombreuses mesures différentes de la complexité du texte, de la richesse du vocabulaire et de la mesure dans laquelle les répétitions sont évitées. Nous utilisons une technique appelée lemmatisation pour éviter de compter plus d'une fois le même mot sous différentes formes. Par exemple, les verbes run et run ne doivent être comptés que comme un mot distinct, et ici la lemmatisation nous aide à réduire les mots à leur mot racine. Shakespeare aurait l’un des vocabulaires les plus riches en impression, avec 'Hamlet's 30 000 mots écrits en utilisant 4 200 mots distincts, ce qui nous donne une variabilité impressionnante de 13%! Cependant, comparer des textes avec une si grande différence de volume donne lieu à une comparaison injuste, car on pourrait s’attendre à ce qu’il devienne plus difficile de ne pas réutiliser des mots car le texte est de plus en plus long. En examinant l’ensemble des travaux de Shakespeare, nous aboutissons à une variabilité d’environ 3%. Pour aller encore plus loin, nous pouvons prendre la moyenne mobile de la variabilité (en regardant une fenêtre de 1000 mots à la fois) et nous aboutissons à un score TTR de 43% pour Martin par rapport à 41% pour Shakespeare. Il convient de noter que M. Martin a introduit une multitude de noms inventés pour tous les personnages, artefacts et lieux fantastiques, constituant une très grande partie de la variabilité.

Comparaison de la variabilité entre «Un chant de glace et de feu» (ASOIF), «Le seigneur des anneaux» (LOTR) de J.R.R Tolkien et des œuvres de Shakespeare’s Hamlet et Complete respectivement. La moyenne mobile de la variabilité semble égaliser la métrique, bien que les trois auteurs introduisent des mots nouveaux dans leurs travaux à des degrés divers.

Nous calculons densité en prenant le nombre de mots lexicaux divisé par le nombre total de mots. Les mots lexicaux sont les noms, les adjectifs, les verbes et les adverbes. Ces types de mots sont considérés comme les principaux porteurs d'informations et donnent à un texte sa signification. Les autres mots, appelés mots de fonction comprend les articles (un, le), Prépositions (sur au Dans) et des conjonctions (et, ou, mais). Les mots de fonction sont importants pour la structure grammaticale du texte, mais ne contiennent que peu d’informations sur la signification du texte. La densité est donc un effort pour dire à quel point le texte est informatif sur toute sa longueur. En moyenne, le texte écrit est beaucoup plus dense que dans notre discours. Afin de calculer la densité, nous devons effectuer marquage partiel (POS), également connu sous le nom de marquage grammatical, qui nous aide à identifier toutes les formes grammaticales des mots. Il existe plusieurs techniques différentes pour effectuer le marquage POS et constitue une partie non triviale du traitement du langage naturel. Par exemple, l’algorithme du point de vente doit pouvoir exprimer des formes de mots ambigus, un mot tel que «canard» pouvant être un nom ou un verbe, en fonction du contexte. En effet, la lemmatisation effectuée ci-dessus repose sur un POS-tagging pour fonctionner correctement. Des algorithmes tels que Modèles de Markov cachés représente une approche éprouvée pour identifier la forme correcte en tenant compte des mots voisins. Nous arrivons à une densité lexicale de 58% pour M. Martin contre 61% pour Shakespeare. Cela correspond à l'estimation selon laquelle la majorité des textes écrits en anglais dépassent 40%, alors que la parole est en moyenne inférieure à 40%. Considérant que les pièces de Shakespeare sont dominées par le dialogue, cela témoigne de la densité et de la richesse de ses œuvres.

Hamlet réalisé et interprété par Lawrence Olivier dans la production de 1948

L’expression «être ou ne pas être» est en fait calculée pour avoir une densité de seulement 17%, où «être» est considéré comme un verbe auxiliaire et ne fait pas partie des mots lexicaux. Cependant, la plupart des gens conviendraient que c'est une citation mémorable. La principale leçon tirée de notre exploration de la richesse lexicale semble être que l’interprétation des différentes métriques doit être faite avec prudence et que nous ne pouvons en déduire aucune caractéristique de différenciation sans approfondir les textes.

2. Empreintes de caractère et analyse de la fréquence des mots

Les sous-composantes principales du livre sont les différents chapitres. Les chapitres de 'Une chanson de glace et de feu' sont présentés à travers différents points de vue (POV) déterminant à travers quelle perspective l'histoire est racontée. En choisissant trois des principaux personnages de POV, nous pouvons tracer un diagramme de dispersion de mots où nous avons une idée de la présence des différents noms dans les romans:

Nous pouvons clairement voir que les empreintes de caractères (chaque point représente l'occurrence du nom à un certain point du texte) sont en effet concentrées selon différents points focaux. Nous pouvons également observer que la présence de Daenerys augmente et s’intensifie dans le dernier livre, "Une danse avec des dragons". Il y a un vide évident pour les trois personnages du livre numéro quatre 'Un festin pour les corbeaux'. En regardant l’index de ce livre, nous pouvons confirmer que nos trois personnages n’ont pas de chapitres POV, mais plutôt une présence significative des personnages Cersei et Jaime. Cependant, même à travers ces chapitres, Jon et Tyrion laissent des traces.

À partir d’une fréquence de mots, nous pouvons confirmer qu’on parle beaucoup de «mort» (1690) et de «sang» (1629). Plus bas dans la liste des fréquences, nous trouvons le mot «amour» à 703 mentions. Mais certains épisodes sont-ils plus passionnés ou plus sanglants que les autres? Examinons de plus près certains mots choisis et décrivons le Estimation de la densité du noyau (KDE) d’eux comme ils apparaissent dans les romans. Le KDE est une méthode permettant d'estimer et de tracer la distribution sous-jacente à partir d'un ensemble d'observations. Cela nous aide à obtenir une version lisse de l'histogramme correspondant et est adapté aux tendances plutôt que d'illustrer les observations individuellement:

Où est l'amour?

Le taux de mortalité semble particulièrement élevé dans la seconde moitié de 'Un choc de rois' et est bien corrélée à la quantité de sang déversée dans les deux premiers livres. L’effusion de sang commence alors à diminuer, avec un minimum de 'Un festin pour les corbeaux'. Fait intéressant, la marée basse pour le sang chevauche le sommet de l’amour. Comme nous l’avons noté dans l’analyse de l’empreinte des personnages, le quatrième livre est consacré aux Lannister compatissants qui nous donnent la plus grande intensité d’amour au cours de la série. Le flux de sang reprend une fois de plus et atteint son apogée au cours du cinquième livre. La mort semble également omniprésente. Il n’est peut-être pas surprenant que le livre mette l'accent sur Daenerys, surnommé «le sang du dragon». En regardant les nuages ​​de mots pour chaque livre individuellement, nous voyons que la parenté joue un rôle majeur. C’est particulièrement vrai du côté du père avec 2823 mentions, ce qui correspond approximativement au nombre de mots de cet article!

Jon et Eddard (alias Ned) donnent le ton dans ‘A Game of Thrones’
‘Un choc des rois’ voit Tyrion occuper une place centrale avec un taux élevé de morts
Qui est ton papa et que fait-il dans ‘Une tempête d’épées’
«Un festin pour les corbeaux» présente un changement de point de vue, avec Jaime et Cersei en tête
Une reine se lève et le sang coule dans ‘Une danse avec des dragons’

3. Calculer l'importance des personnages en utilisant la théorie des réseaux

Plus de deux mille personnages nommés apparaissent dans les cinq livres. Leur vie (et leur mort), ainsi que leurs interactions les unes avec les autres, font avancer l’histoire. Mais comment pouvons-nous décrire numériquement ces relations et pouvons-nous en tirer des conclusions quant à l’importance relative des personnages dans l’histoire? Nous avons examiné précédemment la présence totale de personnages sélectionnés sur une base individuelle, mais nous allons maintenant essayer de les analyser via les connexions qui les unissent. Nous nous tournons vers théorie du réseau, C'est un domaine relativement nouveau des mathématiques qui a été largement utilisé pour tout analyser, des réseaux de télécommunications aux moteurs de recherche. Pour commencer, nous avons besoin de mesurer l’importance d’une seule connexion entre deux caractères (nœuds). Nous allons commencer par un algorithme simple basé sur la co-occurrence de la mention de deux caractères. Regardez la phrase suivante:

Décoder «Un jeu de trônes» au moyen de la science des données - Décoder «Un jeu de trônes» au moyen de la science des données

Eddard (alias Ned) est quatre mots en plus de "Jon" et est donc simpliste dit "proche" les uns des autres à ce stade de l’histoire. Plus les deux noms sont proches et fréquents, plus nous présumons qu’ils sont étroitement liés dans l’histoire et peuvent être utilisés comme un indicateur numérique de la proximité de la relation. En utilisant une fenêtre de 25 mots et en comptant toutes les co-occurrences entre toutes les paires de noms de cette fenêtre, nous obtenons une valeur que nous utiliserons comme "poids" de cette relation. Par exemple. le nom "Jon" apparaît 51 fois dans 25 mots du caractère "Eddard". La visualisation de toutes ces paires de noms pondérées donne le graphique présenté ci-dessous, l'épaisseur des lignes étant proportionnelle au nombre de co-occurrences entre ces paires de noms:

Le réseau de proximité des caractères tels qu'ils apparaissent dans les livres, tracés à l'aide de Python et Networkx

Cela ressemble à une œuvre d'art, mais d'un point de vue analytique accablant et donc peu informatif. Voyons si nous pouvons obtenir une visualisation un peu plus distincte et informative en nous tournant vers la théorie des réseaux. La théorie des réseaux nous aidera à calculer les personnages les plus importants en évaluant leur position centrale dans l’ensemble du réseau de caractères connectés. Plus précisément, nous allons essayer de calculer l’importance d’un caractère unique (nœud) par rapport à tous les autres caractères (nœuds) à l’aide de quatre clés. mesures de centralité en théorie des réseaux:

  • Degré de centralité: la proportion de nœuds directement connectés au nœud en question par rapport au nombre total de nœuds
  • Centralité de proximité: mesure le degré de séparation, c’est-à-dire combien de pas est le noeud en moyenne pour atteindre tous les autres noeuds
  • Entre centralité: quantifie le nombre de fois où un nœud agit comme un pont sur le chemin le plus court entre deux autres nœuds
  • Centralité de prestige (aka Eigencentrality): ne se concentre pas sur le nombre des connexions à un certain noeud, mais plutôt sur la importance des nœuds de connexion. Les nœuds très connectés sont considérés plus importants que les nœuds moins connectés. Cette mesure de centralité est souvent utilisée dans les algorithmes de recherche sur le Web.

En calculant les mesures ci-dessus pour tous les personnages dans ‘Une chanson de glace et de feu’, nous nous retrouvons avec les personnages les mieux classés suivants:

Calcul des différents degrés de centralité pour les personnages

De cela, nous pouvons lire que Jon, Tyrion et Jaime sont les personnages les plus importants du point de vue de leur relation centrale avec tous les autres personnages. Par contre, Daenerys n’est pas très bien connectée, elle n’a fait son apparition qu’à la 24ème place en termes de centralité entre les deux, ce qui reflète sa dispersion géographique par rapport aux personnages de Westeros. Alors, laquelle de ces métriques est la plus appropriée pour utiliser comme proxy d'importance? Étant donné la tendance des auteurs à tuer régulièrement les personnages clés, la centralité entre les deux sexes semble particulièrement intéressante (voir le graphique 3 ci-dessus). La centralité de Betweenness nous donne une idée de la difficulté de remplacer ce nœud individuel, c’est-à-dire de tuer un personnage, sans impact significatif sur le reste de la connectivité du réseau.

Avec ces partitions en tête, nous allons examiner de près les personnages principaux. Les personnages principaux ont été identifiés comme des personnages ayant plus de cinq chapitres avec une perspective «point de vue» (nœuds rouges). De plus, nous ajoutons des caractères qui ont une centralité significative entre eux, mais ne sont pas définis en tant que caractères POV (nœuds gris). La centralité de l'intervalle sera également reflétée dans la taille du cercle de caractères dans le diagramme. Comme auparavant, la largeur des lignes est proportionnelle au nombre de co-occurrences entre les caractères:

Relier les personnages principaux de ‘Une chanson de glace et de feu’ en utilisant la centralité denessness - visualisation circulaire
Mêmes données utilisant une disposition graphique alternative - qui survivra et contrôlera le Trône de Fer?

Le graphique nous aide à comprendre intuitivement l’importance relative de nos personnages principaux. Dans l'ensemble, il est très clair que, du point de vue de la théorie des réseaux, Jon est le personnage le plus important et qu'il serait difficile de le tuer pour maintenir une histoire cohérente et connectée. Jon et Sam ont la plus forte connexion par paires avec pas moins de 262 co-occurrences. Mais entre eux, il existe une grande différence en termes de centralité dans les connexions, Sam étant davantage un nœud de périphérie que son ami super-connecté. Les autres frères et soeurs Stark ont ​​tendance à fréquenter beaucoup, mais principalement entre frère à frère (Bran et Robb) et soeur à soeur (Sansa et Arya). Il est également clair que Tyrion est une partie très importante de l’histoire reliant la Maison de Stark aux Lannister (et plus tard, comme nous le verrons également, à l’hébergement de Targaryen). Les cinq livres laissent vraiment Daenerys sur le bord et l’éloignent de toutes les connexions les plus centrales, s’appuyant sur des caractères supplémentaires «pont» pour la connecter à Westeros. Je suppose que si vous avez des dragons, vous n’avez pas besoin de tant d’amis humains.

Conclusions

  • Grâce au grand nombre de mots et de noms inventés, Martin affiche une richesse lexicale similaire à celle de Shakespeare. Cependant, les études comparatives doivent prendre en compte le contexte plus large et idéalement comparer un texte similaire en termes de volume, de genre et de morphologie de la langue. Les outils de traitement du langage naturel, tels que le marquage partiel et la lemmatisation, permettent des calculs plus valides et plus précis.
  • La visualisation et l'analyse des fréquences de mots à travers le texte nous permettent de mieux comprendre la structure du récit. Nous avons vu comment la mort, le sang et l’amour se développent à travers l’histoire et concluent qu’une grande partie de cette histoire repose sur qui est lié à qui. Pas étonnant, étant donné que M. Martin serait grandement inspiré par les guerres des roses, une lutte dynastique pour le contrôle du trône d’Angleterre au 15ème siècle.
  • La théorie du réseau identifie clairement Jon Snow comme la personnage le plus important, suivi par Tyrion et Jaime. Du point de vue de la théorie des réseaux, Daenerys vit sur le bord. Le concept clé consiste à calculer la centralité des personnages en fonction de leur rôle dans l'ensemble du réseau de caractères. La mesure de la «centralité de l’entre-deux» nous guide vers celui qui serait le plus difficile à tuer sans perturber un trop grand nombre d’interrelations.
  • Nous avons pu quantifier de nombreux aspects des livres. Cela pourrait nous rassurer un peu plus sur le développement futur de l'histoire. Mais c’est peut-être précisément cette certitude que l’auteur veut nous attirer, le seul fait de pouvoir surprendre, c’est encore plus. Ceci est probablement d'autant plus vrai que nous approchons de la fin de la saga. Vive Tyrion!
De meilleures chances que ce que vous voyez à l'œil?

Quelle partie avez-vous trouvée la plus intéressante dans cette exploration numérique? Pensez-vous qu'il est possible de calculer la possibilité pour certains événements de fiction compte tenu d'un ensemble de données suffisant? Laissez un commentaire ci-dessous pour vos réflexions! Pour le prochain article, nous nous tournerons vers l'intelligence artificielle et les systèmes d'autoapprentissage pour voir comment nous pouvons parvenir à une compréhension automatique des textes écrits par des humains. Sera-t-il possible à l'avenir de disposer de modèles d'apprentissage automatique générant un texte impossible à distinguer de l'homme? Restez à l'écoute pour plus!

Show More

SupportIvy

SupportIvy.com : Un lieu pour partager le savoir et mieux comprendre le monde. Meilleure plate-forme de support gratuit pour vous, Documentation &Tutoriels par les experts.

Related Articles

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Close
Close