Cryptomonnaie

Regroupement d'adresses Ethereum – Vers la science des données

Regroupement d'adresses Ethereum - Vers la science des données


Catégorisation d'adresses en utilisant des modèles dans l'activité de transaction

introduction

Les utilisateurs d'Ethereum peuvent être anonymes, mais leurs adresses sont des identifiants uniques qui laissent une trace visible publiquement sur la blockchain.

J'ai construit un algorithme de clustering basé sur l'activité de transaction qui divise les utilisateurs Ethereum en sous-groupes comportementaux distincts. Il peut prédire si une adresse appartient à un portefeuille d'échange, de mineur ou à un portefeuille ICO.

La base de données a été construite à l'aide de SQL et le modèle a été codé en Python. Le code source est disponible sur GitHub.

Représentation 3D de l'espace d'entités d'adresses Ethereum à l'aide de T-SNE

Contexte

La blockchain Ethereum est une plate-forme pour applications décentralisées appelée contrats intelligents. Ces contrats sont souvent utilisés pour représenter d'autres actifs. Ces actifs peuvent représenter des objets physiques dans le monde réel (tels que des titres immobiliers) ou être des objets purement numériques (tels que des jetons utilitaires).

Les calculs nécessaires à l’exécution des contrats intelligents sont payés en éther, la monnaie d'origine de l'écosystème.

Ether est stocké dans des comptes sécurisés par cryptographie appelés adresses.

Motivation

Beaucoup de gens croient que les crypto-monnaies offrent un anonymat numérique, et cette croyance est quelque peu véridique. En fait, l'anonymat est la mission principale de Monero et de ZCash.

Ethereum, cependant, est plus largement utilisé et sa grande flexibilité donne lieu à un riche ensemble de données publiques sur le comportement transactionnel. Les adresses Ethereum étant des identifiants uniques dont la propriété ne change pas, leur activité peut être suivie, agrégée et analysée.

Ici, je tente de créer archétypes utilisateur en regroupant efficacement l'espace d'adressage Ethereum. Ces archétypes pourraient être utilisés pour prédire le propriétaire d'une adresse inconnue.

Cela ouvre un large éventail d'applications:

  • comprendre l'activité du réseau
  • améliorer les stratégies commerciales
  • améliorer les activités de LBC

Résultats

Les participants à l'écosystème Ethereum peuvent être séparés par des modèles d'activité de transaction. Les adresses connues pour appartenir à des échanges, des mineurs et des ICO montrent qualitativement que les résultats de la mise en cluster sont exacts.

Détails techniques

N'hésitez pas à passer à Interpréter les résultats au dessous de.

Ingénierie des fonctionnalités

Le jeu de données de transaction Ethereum est hébergé sur Google BigQuery. En utilisant les 40 000 adresses avec les balances Ether les plus élevées, j'ai créé 25 fonctionnalités pour caractériser les différences de comportement des utilisateurs.

Caractéristiques dérivées pour chaque adresse

Choisir le nombre approprié de grappes

À l'aide de l'analyse de la silhouette, j'ai déterminé que le nombre optimal de grappes était d'environ 8.

Ce choix minimise le nombre d'échantillons avec des scores de silhouette négatifs, ce qui indique qu'un échantillon peut être affecté au mauvais cluster.

Mais comment savoir si cela fonctionne?

En récupérant les données de l’explorateur de blocs Etherscan.io, j’ai rassemblé des étiquettes externalisées pour 125 adresses dans mon jeu de données.

La majorité des étiquettes appartenaient à trois catégories:

échanges, des mines et des portefeuilles ICO.

Le clustering est une technique d'apprentissage automatique non supervisée. Je ne pouvais donc pas utiliser d'étiquettes pour former mon modèle. Au lieu de cela, je les ai utilisés pour assigner archétypes utilisateur grappes, en fonction de la densité de libellé la plus élevée pour chaque grappe. Les résultats peuvent être trouvés ici.

Visualisation 2D du clustering initial. Adresses connues à gauche.

Re-clustering

Échange et mineur les adresses ont été mélangées ensemble dans le même cluster au début. Pour les séparer, j'ai effectué un deuxième cycle de mise en cluster, en utilisant uniquement les adresses de ce cluster.

En modifiant la mesure de dissimilarité de Distance euclidienne à la distance cosinus, J'ai considérablement amélioré la séparation entre les échanges et les mineurs.

Séparation améliorée des échanges et des mineurs. Adresses connues à gauche.

En substituant les résultats du regroupement dans l'analyse initiale, nous aboutissons à 9 groupes.

Visualisation 2D des résultats de classification finaux. Adresses connues à gauche.

Interpréter les résultats

Nous pouvons tirer des conclusions sur le comportement des utilisateurs en fonction des centroïdes de cluster correspondants.

Tracé radar - Fonctions d'adresse de centroïde de cluster

des échanges

  • Équilibre élevé en éther
  • Volume élevé de transactions entrantes et sortantes
  • Temps très irrégulier entre les transactions

Les échanges sont les banques de l’espace crypto. Ces résultats sont intuitifs.

Les mineurs

  • Balance faible en éther
  • Petite taille moyenne des transactions
  • Temps plus régulier entre les transactions

Les mineurs sécurisent la blockchain en dépensant de la puissance de calcul et sont récompensés par de l'éther. Des groupes de mineurs mettent souvent leurs ressources en commun afin de réduire les écarts de paiement, en fractionnant le produit en fonction des ressources fournies.

Portefeuilles ICO

  • Équilibre élevé en éther
  • Petit nombre de grosses transactions
  • Temps le plus régulier entre les transactions

Les ICO (Initial Coin Offerings) sont une méthode de collecte de fonds courante pour les startups cryptographiques. Il est logique que ces startups aient de grands coffres de guerre et vendent périodiquement des sommes importantes pour couvrir leurs dépenses commerciales habituelles.

Autres catégories

  • le Échange et Exploitation minière Les grappes sont très similaires, car elles ont été créées lors de la deuxième série de grappes.
  • Les adresses du groupe 7 ont une grande quantité d’activités liées aux contrats intelligents.
  • Les groupes 2 et 5 sont très distincts.

Pouvez-vous identifier l'un de ces groupes d'utilisateurs?

Show More

SupportIvy

SupportIvy.com : Un lieu pour partager le savoir et mieux comprendre le monde. Meilleure plate-forme de support gratuit pour vous, Documentation &Tutoriels par les experts.

Related Articles

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Close
Close