Pourquoi la création d’une solution de science des données est complexe, mais pas de la manière que vous pensez
Ce n’est pas qu’une question de technologie et d’algorithmes
Quel problème résolvons-nous?
À quelle fréquence nous arrêtons-nous et nous posons-nous cette question? Malheureusement pas assez souvent. Je suis sûr que nous avons tous eu beaucoup d’expérience d’apprentissage dans le passé, où nous avons passé beaucoup trop de temps à élaborer une solution qui n’a pas résolu le problème que nous avions l’intention de résoudre. Ce n’est pas que nous ne savons pas comment construire la bonne solution, mais nous sommes mal à garder une vue d’ensemble lorsque nous nous concentrons sur le problème technique. Nous passons souvent beaucoup trop de temps à discuter si une solution est techniquement bien conçue et pas assez de temps pour valider si la solution résout le problème que nous essayons de résoudre.
Faites-vous des données ou des sciences?
L’explosion de la popularité de la science des données est déclenchée par la capacité à capturer, traiter et analyser une grande quantité de données et la prémisse fondamentale de l’apprentissage automatique est que l’utilisation d’une grande quantité de données et d’un algorithme simple donnera de meilleurs résultats qu’un modèle complexe avec une petite quantité de données. Même si ce sont des croyances largement acceptées dans l’industrie, nous voyons toujours que les entreprises se concentrent beaucoup plus sur la science et pas assez sur les données. Les scientifiques des données sont généreusement payés pour tester différents algorithmes et modifier les hyperparamètres, mais la réalité est que l’algorithme n’est pas la partie compliquée de la solution. D’autre part, les tâches de nettoyage des données, de compréhension des nuances et des implications de la façon dont les données sont capturées et de la façon dont elles devraient être utilisées, et de dériver des caractéristiques significatives des données en désordre sont mal vues par l’industrie comme si elles se trouvaient en quelque sorte en dessous. ce qu’un scientifique des données devrait faire. La complexité de la science des données réside dans les données et pourtant nous n’y consacrons pas assez de temps et d’énergie. Bien que nous obtenions des avantages marginaux en améliorant la science, nous obtenons des améliorations beaucoup plus importantes si nous utilisons de meilleures données.
Construisez-vous les bonnes choses?
La construction d’une solution de science des données n’est pas différente de la construction d’une solution logicielle dans le sens où ce qui compte, c’est que la solution doit résoudre le problème. Nous n’utilisons pas Netflix parce qu’ils ont une excellente architecture de microservices, nous n’utilisons pas LinkedIn parce qu’ils ont une plate-forme de diffusion en continu et nous n’utilisons certainement pas Google parce qu’ils ont un système d’orchestration de conteneurs robuste. Les technologies sont cool et en tant que nerd, je comprends l’attrait et même l’envie de jouer avec elles, mais ce ne sont que des outils et avoir plus d’outils ne vous aide pas à fournir la bonne solution.
Qu’allez-vous faire à ce sujet?
La complexité finale réside dans ce que nous faisons avec la solution après l’avoir construite. La science des données nous aurait peut-être donné de meilleurs outils, mais en fin de compte, elle ne fournit rien de plus qu’un tas de chiffres. Ces chiffres peuvent nous fournir des informations précieuses, telles que le taux de désabonnement de nos clients, les produits qu’ils souhaitent acheter ou la meilleure façon de communiquer avec eux. Mais ce ne sont que des chiffres, sauf si nous les utilisons pour quelque chose et nous devons mettre la solution en pratique pour tirer parti de nos données. Une solution moyenne déployée et utilisée a bien plus de valeur qu’une excellente solution qui ne voit jamais le jour.