Personne n’a besoin de vos données
Mon téléphone portable me suit et partage ma position avec Google. Ils collectent environ 220 000 observations de ma position chaque année, que je leur donne en échange de services de cartographie et de publicité (ils me donnent également accès à mes données sur timeline.google.com – vérifiez si vous ne l’avez pas encore fait, il est fascinant).
Certes, ces données sont précieuses. Les données de localisation sont riches en informations. Google les utilise pour faire de la publicité. Mais quelle valeur ont-ils à l’état brut? Rapports TechCrunch qu’une donnée de localisation à elle seule vaut environ 0,0007 $ par le biais de courtiers et d’échanges de données, ce qui signifie que je pourrais vendre mes données pour environ 150 $ par an. Ce n’est pas rien mais, pour moi, vendre les données ne vaut probablement pas la peine.
Intensifions cela un peu. Lyft, une entreprise de covoiturage, a effectué 620 millions de trajets en 2018. En supposant que l’estimation des prix ci-dessus est valide, les données de destination du voyage de Lyft valraient environ 434 000 $ en 2018 – également précieuses, mais minuscules par rapport à leurs 2,2 milliards de dollars de revenus en 2018.
Malgré les revenus supplémentaires potentiels, les sociétés de covoiturage notoirement réticents à offrir leurs données à d’autres. Pourquoi? En plus de la valeur monétaire immédiate de leurs données brutes, Lyft a également des plans plus importants à l’esprit pour les données qu’ils collectent. Lyft affine ses données de localisation brutes pour obtenir des résultats qui soutiendront leur propre plateforme, de l’amélioration des estimations d’arrivée aux tests de véhicules autonomes.
Les données de localisation brutes sont précieuses, mais elles n’apportent aucune valeur ajoutée par elles-mêmes. En effet, l’objectif final n’est jamais d’obtenir des données. L’objectif final est de faire un travail. Par conséquent, la valeur que les gens obtiennent n’est pas inhérente aux données, mais dépend de la façon dont elle permet d’obtenir des résultats par rapport aux alternatives.
La valeur de mes données de localisation personnelles augmente si elles sont accompagnées d’informations dérivées supplémentaires sur qui je suis en tant que personne et ce que j’aime. Ce que ces données supplémentaires ajoutent, ce sont des informations plus exploitables. Pour une agence de publicité, le fait que Je n’ai visité mon café local que sept fois au cours de la dernière année (bien qu’il soit à moins de 100 mètres de lui 114 fois) est moins instructif que de savoir que je m’identifie également en tant qu’homme âgé de 24 à 39 ans (un dépense moins mais consomme plus de café que les autres et est plus susceptible de boire du café à la maison qu’à un café).
Fidèle à ma démographie, j’achète beaucoup de café torréfié localement à l’épicerie pour le brasser à la maison. Une entreprise de café trouverait plus utile de connaître la probabilité que je sois un buveur de café que de simplement savoir combien de fois je visite d’autres cafés, sans parler de mon âge et de mon sexe ou d’obtenir un tas de données sur les endroits que j’ai visités.
De même, même si les sociétés de pétrole brut et les sociétés de mobilité utilisent le pétrole comme intrant, elles offrent une production totalement différente à des clients totalement différents. La plupart des gens ne raffinent pas leur propre pétrole brut pour alimenter leurs voitures, ni même comment ou où il a été raffiné. Quand je fais le plein d’essence, j’achète un produit dérivé pour pouvoir me déplacer. Si j’utilisais un service de covoiturage ou achetais une voiture électrique, je n’aurais même pas besoin de ce produit raffiné pour répondre à mon besoin principal: se déplacer.
La valeur des données change considérablement en fonction de la façon dont elles sont produites. Comme indiqué ci-dessus, les données brutes ont généralement moins de valeur qu’un formulaire plus traité, car il est plus difficile de travailler avec elles. Les sorties de niveau supérieur – par exemple la construction d’algorithmes pour soutenir ou même automatiser les décisions – impliquent plus de complexité mais permettent des résultats différents.
Ceci est bien visualisé dans une pyramide de types de produits de données:
J’aime ce concept car il clarifie les résultats. À la base, votre produit de données n’est qu’une information brute. Au milieu, votre produit de données est constitué de calculs basés sur certaines entrées. Et, en haut, votre produit de données est des décisions.
Cette pyramide s’intègre parfaitement avec exigences et besoins croissants du produit. Les données brutes sont à la base car elles sont les moins raffinées, et chaque niveau successif s’appuie sur le précédent dans une hiérarchie de besoins pour vos scientifiques et ingénieurs de données (les niveaux supérieurs nécessitent généralement plus de développement technique). Ainsi, il correspond également étroitement à ce que vous demanderez à vos utilisateurs. Des niveaux inférieurs sur la pyramide nécessiteront nécessairement des utilisateurs plus techniques.
le pyramide des produits de données est un outil permettant de déterminer quels résultats vos données permettent et pour qui. L’implication est que les produits de données et les entreprises qui les produisent ne sont pas tous identiques. Ils sont assez divers. Cassie Kozyrkov, scientifique en chef des décisions chez Google, explique les conséquences pour l’entreprise avec du pain:
Si vous ouvrez une boulangerie, c’est une bonne idée d’embaucher un boulanger expérimenté connaissant les nuances de la fabrication de délicieux pain et pâtisserie. Vous voudriez aussi un four. Bien que ce soit un outil essentiel, je parie que vous ne chargeriez pas votre chef pâtissier de la tâche de savoir comment construire ce four; alors pourquoi votre entreprise se concentre-t-elle sur l’équivalent pour l’apprentissage automatique?
Êtes-vous en train de faire du pain? Ou faire des fours?
Imaginez que je veuille vendre mes données de localisation à un constructeur de véhicules autonomes (et obtenir mes 150 $!). Pourquoi voudraient-ils mes données? Un problème de marché auquel sont confrontés les constructeurs de véhicules autonomes est amener les consommateurs en toute sécurité du point A au point B. L’acquisition de nouvelles données pourrait aider ces entreprises à mieux faire ce travail en entraînant leurs véhicules sur les endroits où je conduis rapidement ou lentement.
La valeur de mes données augmente à mesure qu’elles sont affinées pour un résultat spécifique. Par exemple, est-ce que je propose les positions de mon véhicule (données brutes) ou la dérivée d’où j’ai accéléré et ralenti (données dérivées)? En utilisant la pyramide des produits de données, il y a une valeur ajoutée (et des efforts dépensés) en passant des données brutes de position du véhicule, aux données dérivées de vitesse, à un algorithme qui suggère une vitesse basée sur le trafic, à un système de prise de décision automatisé qui avertit un passager que le véhicule va ralentir pour laisser un piéton traverser la rue.
Mais la façon dont un véhicule autonome est formé n’a pas d’importance pour le consommateur, tant qu’il est formé. (La formation est le problème ultime du fabricant.) Pour la première étape ci-dessus, un fabricant pourrait être en mesure de faire le saut avec mes données, mais il pourrait également simplement exécuter des tests en direct sur une piste. Pour le deuxième ou le troisième, ils pouvaient acheter des données de trafic agrégées auprès d’un autre fournisseur. Et si la dernière étape est leur objectif principal, ils pourrait même ne pas avoir besoin de données de localisation réelles. Ce sont toutes des alternatives (concurrentes) à mes données et, au bout du compte, mes données pourraient ne pas vraiment répondre à leurs besoins sans un travail supplémentaire.
Je pense que c’est probablement pourquoi, au lieu d’acheter simplement un tas de données de localisation, des entreprises comme Ford * ont décidé d’acheter des sociétés de simulation pour soutenir le développement de véhicules autonomes. Elles sont acheter la capacité d’obtenir des résultats d’ordre supérieur plus tôt que ce qui serait possible en collectant des données réelles.
* Divulgation: je travaille pour une entreprise qui est une filiale en propriété exclusive de Ford.
Garantir la valeur d’un produit de données est comme tout autre produit: cela nécessite de prendre en compte le problème du client, la solution du produit et les alternatives. Mais, les produits de données ont des contraintes uniques pour chaque étape.
Identifiez les besoins du client.
Les problèmes que les produits de données résolvent ne sont pas nécessairement nouveaux, même si la méthode ou la sortie est nouvelle. Aussi, vos clients ne sont probablement pas techniques. En fait, il est parfois plus facile d’identifier les problèmes que les données peuvent résoudre en découvrant les inefficacités existantes avec les clients qui ont des problèmes bien cadrés autour d’autres solutions. Par exemple, sabermétrie évolué comme une approche quantitative pour les équipes de baseball pour obtenir un avantage concurrentiel dans la stratégie. Votre problème doit-il être validé? Peut-être pas si vous êtes au début du processus, mais rappelez-vous qu’un produit sans problème est une hypothèse. (Sabermetrics a mis environ 20 ans à se développer car les clients n’en ont pas reconnu la valeur.)
L’identification des besoins des clients est presque comme toute autre découverte de produit. Mais si vous lisez ceci, vous supposez probablement qu’un produit de données est un bon moyen de résoudre un problème. Compte tenu de cela, un défi majeur avec les produits de données consiste à supprimer la solution de la conversation pour éviter biais de confirmation. Les produits de données, l’apprentissage automatique et l’intelligence artificielle sont super chargé de buzz, ce qui peut vous donner de faux positifs si vous ne faites pas attention. [In a future version I’ll expound with some cautionary tales!]
Clarifiez les résultats de vos données.
En commençant par le problème avant de passer à la pyramide des produits de données, vous pouvez vous protéger contre un critique commune des produits de données qui ne répondent pas aux résultats souhaités. Comment la connaissance du problème du client est-elle d’abord utile? Parce que la façon dont vous positionnez votre solution (et le type de solution que vous proposez) dépendra de l’utilisateur et de ses besoins. Par exemple, aidez-vous d’autres éditeurs de logiciels à comprendre l’utilisation de leurs produits? Si vos utilisateurs sont des chefs de produit (par exemple, Pendo), vous devrez peut-être fournir des sorties dérivées dans de jolis graphiques. Si vos utilisateurs sont des ingénieurs logiciels et des spécialistes des données (par exemple, Segment), vous aurez peut-être besoin d’une API de données brutes.
Comprendre où vous en êtes sur le pyramide des produits de données vous aidera à clarifier les résultats que vous pouvez fournir au client. En règle générale, les résultats plus élevés sur la pyramide sont plus complexes et peuvent attirer plus de valeur, mais ce n’est pas toujours le cas, comme nous le verrons dans les semaines à venir lorsque je parlerai de complexe contre compliqué et les humains dans la boucle. Il est donc important de bien dimensionner votre solution au problème pour maximiser la valeur. Si vous ne pouvez pas identifier la manière dont votre produit de données contribue à résoudre le problème, vous devrez peut-être procéder à une validation supplémentaire pour vous assurer que votre problème doit être résolu.
Expliquez les différences par rapport aux alternatives.
Tous les produits ont des concurrents. Pour les produits de données, ceux-ci peuvent également inclure des alternatives qui ne dépendent pas de votre type de données. Vous pouvez démontrer la valeur en différenciant votre produit des alternatives. Comment les gens pourraient-ils faire la même chose sans votre produit? Peut-être que quelqu’un enregistre des informations à la main ou a besoin de faire beaucoup de réorganisation manuelle des informations. Ils ont peut-être besoin de faire leurs propres calculs. Peut-être que quelqu’un prend des décisions qui reposent sur l’intuition… peut-être que quelqu’un doit prendre une décision! Se concentrer sur ces différenciateurs vous aidera également à clarifier les résultats que vous pouvez offrir.
Un argument courant pour les produits de données est qu’ils sont «plus rapide, plus précis, plus cohérent et plus transparent. » Ils sont parfois plus chers aussi bien en argent qu’en effort. Pour cette raison, il est avantageux de rester sceptique et de demander de manière critique pourquoi votre offre est vraiment plus valable qu’une alternative. Par exemple, pourquoi une entreprise dépenserait-elle plus d’argent pour un nouveau système qui est précis à 90% alors qu’elle pourrait demander à un humain de le faire pour moins d’argent avec une précision de 80%? Quelqu’un peut-il obtenir un résultat similaire dans une feuille de calcul? Les 10% supplémentaires offrent-ils suffisamment de valeur supplémentaire? Si vous ne pouvez pas différencier vos résultats, vous devrez peut-être revenir à la pyramide des produits de données et réévaluer ce que vous proposez.
Personne n’a besoin de vos données, mais cela pourrait les aider à mieux faire leur travail. La valeur ajoutée de vos données dépend des types de résultats que vous pouvez prendre en charge.
S’assurer que vous ajoutez de la valeur pour les clients dépend de la découverte d’un besoin, de la clarification de la façon dont vous pouvez le résoudre et de l’explication de la raison pour laquelle votre approche est meilleure que les alternatives. Pour les produits de données, rester neutre sur le battage médiatique, se concentrer sur des résultats tangibles et rester sceptique sur les raisons pour lesquelles votre produit est différent peut réduire le risque de ne pas ajouter de valeur.