Technologie

Prédire l'amitié – Vers la science des données

Prédire l'amitié - Vers la science des données


Qui est le plus susceptible de votre prochain ami?

Source: https://gph.is/16bpHh9

introduction

L'amitié est extrêmement importante. Avoir des amis en tant qu'enfant peut augmenter vos chances de bonheur en tant qu'adulte (Holder et Coleman, 2009). En même temps, nous n’avons pas beaucoup appris sur l’amitié. Les amitiés se forment en raison des circonstances et du hasard et se développent intuitivement. Mais le font-ils vraiment? Est-ce que vous rencontrez vraiment des gens par hasard? De toute évidence, de nombreuses choses doivent être remplies pour qu'une amitié se forme, comme pratiquer le même sport ou avoir le même musicien préféré. Cependant, bien avant que tous ces facteurs puissent entrer en jeu, il existe une condition essentielle à remplir: vous devez rencontrer cette personne. En 2019, il existe des moyens apparemment infinis de rencontrer des gens. Néanmoins, au moins dans le cas des amitiés, la plupart de ces façons impliquent une sorte de réseau social. Vous pouvez trouver leur profil sur Facebook ou Instagram. Ou vous pourriez les rencontrer lors d'une fête d'anniversaire. De toute façon, vous ne les avez pas rencontrés au hasard.

Analyse de réseau social

L'analyse de réseau social est une «stratégie d'investigation des structures sociales» (Otte et Rousseau, 2002). L'analyse de réseau social est d'une grande valeur pour de nombreuses entreprises. Contrairement à ce que l’on pourrait penser du nom, l’analyse des réseaux sociaux est utile non seulement pour les réseaux sociaux comme Facebook, mais aussi pour l’analyse des réseaux de mobilité tels que les itinéraires de vols ou les réseaux financiers. Laissez-moi vous montrer un exemple pour vous montrer de quoi je parle.

Imaginons un petit réseau d'amis. Certaines de ces personnes se connaissent et d’autres pas. En utilisant Python, un réseau social peut être visualisé en utilisant un package appelé NetworkX:

Imaginez que ce réseau soit un réseau de vous et de vos amis. Les points rouges s'appellent des nœuds et les lignes entre eux qui symbolisent deux personnes se connaissant s'appellent des arêtes. Les réseaux sociaux réels sont plus vastes et complexes, mais à des fins de démonstration, ce réseau est un peu plus petit. Quand on regarde un réseau social, il y a quelques chiffres de base à regarder. Par exemple, ce réseau comprend onze personnes et quatorze connexions, tandis que chaque personne est connectée à environ 2,5 autres personnes en moyenne.

Maintenant, étant donné ce réseau, quelles nouvelles connexions sont les plus susceptibles de se former? Plus précisément, à partir de deux individus, quelle est la mesure décrivant leur probabilité de créer un lien? Examinons cinq manières possibles de répondre à ces questions.

Mesure 1: voisins communs

La mesure la plus intuitive et la plus simple consiste à compter le nombre d'individus auxquels l'individu A et l'individu B sont connectés. Combien de voisins communs ont Jack et Liz?

La réponse est deux: Mike et Cindy. Il ne reste plus qu’à compter le nombre de voisins communs pour toutes les connexions inexistantes et à les trier du plus élevé au plus faible.

Mesure 2: coefficient de Jaccard

Le coefficient de Jaccard est très similaire au nombre de voisins communs avec la différence que le nombre récupéré dans la première mesure est normalisé. Pour ce faire, on prend le nombre de voisins communs et on le divise par le nombre total de voisins. En d’autres termes, on divise l’intersection de A et B par leur union:

Dans le cas de Liz et Jack, nous avons déjà déterminé que le nombre de voisins communs est de deux. Combien de voisins Liz et Jack ont-ils au total?

Liz et Jack ont ​​cinq voisins au total. En conséquence, leur coefficient de Jaccard est deux divisé par cinq ou 0,4. Quant à la mesure 1, il faudrait maintenant calculer le coefficient de Jaccard pour toutes les connexions inexistantes et les comparer.

Mesure 3: Indice d'allocation de ressources

Ne vous trompez pas avec le nom. Cette mesure est similaire au coefficient de Jaccard en ce sens qu'elle normalise en utilisant le nombre total de voisins. Cependant, cette fois-ci, nous examinons les voisins communs des individus qui nous intéressent. Mathématiquement, l’allocation des ressources ressemble à ceci:

Cela signifie simplement que nous voulons calculer la somme d'un sur le nombre total de voisins pour chaque voisin commun de nos personnes d'intérêt. Calculons l’indice d’allocation de ressources pour Elle et Ronald.

Elle et Ronald ont un voisin commun, Steve. Steve lui-même a trois connexions. Ainsi, appliquer la formule ci-dessus nous donne 1/3. Comme Elle et Ronald n’ont qu’un seul voisin, nous n’avons pas besoin de faire autre chose. S'ils avaient un autre voisin, nous ferions la même chose que nous avons faite pour Steve et ajoutons ces deux chiffres.

Mesure 4: Indice Adamic-Adar

L'indice Adamic-Adar est à peu près équivalent à l'indice d'allocation de ressources, sauf que, au lieu de diviser par le nombre total de voisins, on divise par le journal du nombre total de voisins. Mathématiquement exprimée:

Mesure 5: Score d'attachement préférentiel

Le modèle de pièce jointe préférentielle est une tentative pour créer un plan détaillé de la structure essentielle de nombreux réseaux sociaux. Cela suppose que les individus (nœuds) ayant de nombreuses connexions (un degré élevé) obtiennent plus de nouvelles connexions (voisins) que les individus ayant moins de connexions. En d'autres termes, si vous avez déjà beaucoup d'amis, vous allez rencontrer plus de nouvelles personnes que quelqu'un avec moins d'amis.

Pour calculer le score d'attachement préférentiel, il suffit de multiplier le nombre de liens que les personnes d'intérêt ont entre eux. Ce calcul s’explique mieux visuellement. Tu te souviens de Liz et Jack? Sinon, voici un petit rappel:

Comme vous pouvez le constater, Liz et Jack ont ​​trois voisins. Ainsi, leur score d'attachement préférentiel est 3 * 3 = 9.

Qui est le plus susceptible de votre prochain ami?

Maintenant que nous avons rassemblé toutes les mesures nécessaires, nous pouvons enfin répondre à notre question initiale. Une option consiste à choisir l'une de ces mesures, à calculer les scores, puis à comparer les résultats. Cependant, comme je voulais éviter d'introduire un quelconque biais dans ce projet, j'ai décidé de calculer les scores de toutes les mesures, de les normaliser et de prendre le score moyen. De cette façon, j'évite de choisir entre les mesures et je reçois également un score résultant compris entre zéro et un.

Supposons que nous voulions savoir avec qui Jack est le plus susceptible de se connecter. Pouvez-vous deviner de qui il s'agit? Sans surprise, à ce stade, c’est Liz avec un score de 0,96. Faisons-en une autre: avec qui Mark est-il le plus susceptible de se connecter? La réponse est Liz. Maintenant, en regardant la structure de notre réseau social, y a-t-il quelque chose de remarquable qui remettrait en cause ce résultat?

En examinant de nouveau ce réseau social, il semble que deux communautés ont des liens plus forts qu’elles ne le sont avec l’autre communauté. Le fait de ne pas prêter attention aux structures de la communauté lors du calcul des probabilités de savoir avec qui une personne est le plus susceptible d'entrer en contact peut entraîner des résultats biaisés. Les membres d'une communauté plus soudée devraient être plus susceptibles de rencontrer des membres de leur propre communauté que des membres de communautés différentes.

Pour prendre en compte le facteur des structures communautaires au sein d’un réseau social, je vais introduire deux nouvelles mesures qui sont des extensions des mesures évoquées précédemment et présentées par Soundarajan et Hopcroft (2012).

Voisins communs adaptés

Au lieu de simplement compter le nombre de voisins communs de deux individus, cette mesure de voisins communs adaptée compte d'abord le nombre de voisins communs, puis le nombre de voisins communs appartenant à la même communauté que les individus A et B. Enfin, ces deux chiffres sont résumés.

Dans notre cas, regardons Ronald et Elle:

Ronald et Elle ont un voisin commun, Steve. Steve fait partie de la même communauté que Elle et Ronald. Ainsi, le score des voisins communs adapté est 1 + 1 = 2.

Allocation de ressources adaptée

Là encore, celle-ci est très similaire à la mesure présentée ci-dessus. La seule différence est que le score d'allocation de ressources proposé par Soundarajan et Hopcroft (2012) ne prend en compte que les individus appartenant au même réseau que les deux individus d'intérêt.

Comme expliqué ci-dessus, f (u) = 0 lorsque l'individu ne fait pas partie du même réseau que X et Y et f (u) = 1 quand ils sont dans le même réseau. La formule rend la mesure plus complexe qu’elle ne l’est réellement. Quel est le score de répartition des ressources adapté pour Steve et Pete?

Ils ont un voisin commun, Elle. Cependant, comme ils sont tous deux dans des communautés différentes, f (u) = 0. Par conséquent, comme il n’ya pas d’autres voisins communs à prendre en compte, leur score d’allocation de ressources adapté est également nul.

Essayons de retrouver la prochaine connexion la plus probable de Mark. En utilisant les mesures que je viens d’introduire, nous constatons que la prochaine collection la plus probable de Mark est en réalité Elle! Ce résultat semble plus logique étant donné que nous avons classé les deux groupes dans la même communauté.

Conclusion

L'analyse des réseaux sociaux est un sujet fascinant à explorer. En plus d’évaluer simplement les arêtes entre les nœuds, on pourrait également, à partir d’un ensemble d’étiquettes, utiliser ces mesures comme caractéristiques elles-mêmes de l’apprentissage automatique supervisé. De plus, la modélisation qui finira par devenir de bons amis peut également être plus précise si davantage de données sont disponibles pour chaque nœud, telles que leurs intérêts, leur âge, leur sexe, etc.

Si le code utilisé pour effectuer cette analyse vous intéresse, vous pouvez trouver le cahier complet sur mon GitHub.

Show More

SupportIvy

SupportIvy.com : Un lieu pour partager le savoir et mieux comprendre le monde. Meilleure plate-forme de support gratuit pour vous, Documentation &Tutoriels par les experts.

Related Articles

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Close
Close