MapReduce | Vers la science des données
Mettre tout cela ensemble avec un exemple simple
Imaginez que vous êtes Elon Musk, le PDG de Tesla Motors. Vous disposez des données suivantes sur les ventes mondiales actuelles de voitures Tesla (en millions) au cours de l’année. Naturellement, vous êtes heureux, vous en avez fumé et vous êtes immédiatement allé sur Twitter:
Tesla le prix des actions est trop élevé imo
D’accord, c’était une erreur. Alors tu pleures ou pas. Quoi qu’il en soit, je m’égare.
Ces données sont maintenant divisées en HDFS en plusieurs blocs répartis uniformément (selon RF) dans deux nœuds de données. Voici à quoi ressemblent les deux blocs (B1 et B3):
Sorties du mappeur:
Country,Sales(M)
USA,1
Russia,1
UK,1
France,1
China,1
Russia,1
UK,1
France,1
China,1
USA,1Country,Sales(M)
UK,1
USA,1
China,1
UK,1
USA,1
China,1
UK,1
USA,1
China,1
UK,1
Sortie vers HDFS – 2 fichiers générés
Réducteur:
Country,Sales(M): Partition
USA,1
USA,1
Russia,1
Russia,1
UK,1
UK,1
France,1
France,1
China,1
China,1Country,Sales(M): Partition
UK,1
UK,1
UK,1
UK,1
USA,1
USA,1
USA,1
China,1
China,1
China,1Country,Sales(M): Shuffle
Russia,1
Russia,1
France,1
France,1Country,Sales(M): Shuffle
USA,1
USA,1
USA,1
USA,1
USA,1
UK,1
UK,1
UK,1
UK,1
UK,1
UK,1
China,1
China,1
China,1
China,1
China,1Country,Sales(M): Sort
France,1
France,1
Russia,1
Russia,1Country,Sales(M): Sort
China,1
China,1
China,1
China,1
China,1
USA,1
USA,1
USA,1
USA,1
USA,1
UK,1
UK,1
UK,1
UK,1
UK,1
UK,1Country,Sales(M): Reduce
France,2
Russia,2Country,Sales(M): Reduce
China,5
USA,5
UK,6
Sortie vers HDFS – 2 fichiers générés. C’est à peu près ça. Vous avez des questions? N’hésitez pas à demander.