Technologie

Les analystes et statisticiens peuvent-ils s'entendre?

Les analystes et statisticiens peuvent-ils s'entendre?


À l'intérieur de la guerre subtile entre les professions de la science des données

Introduction à l39intelligence décisionnelle Vers la science des données - Les analystes et statisticiens peuvent-ils s'entendre?
Image: SOURCE.

Dans un article précédent, j'ai expliqué que les programmes de formation typiques en statistique et en analyse dotent les diplômés de compétences différentes.

Lorsque vous faites face à l'incertitude, les analystes vous aident à poser de meilleures questions, tandis que les statisticiens fournissent des réponses plus rigoureuses. On dirait l'étoffe d'un rêve de collaboration, mais ces professions se retrouvent en quelque sorte à la gorge. Voyons si nous pouvons donner un sens à l'étrange guerre entre l'analyse et les statistiques (et suggérer un traité de paix).

Analystes et statisticiens: espèces incompatibles dans le terrarium? Image: SOURCE.

Étant donné que les titres de poste en science des données peuvent être un reflet inexact de ce que les gens font réellement, permettez-moi de définir mes termes:

  • Ceux que je recherche dans les données pour les résumer et en extraire l'inspiration sont ce que j'appelle analystes.
  • Ceux que je souhaite appeler des hypothèses rigoureuses pour la prise de décision basée sur les données sont ce que j'appelle statisticiens.
  • Ceux qui savent faire les deux… sont tous les deux. Cet article laisse de côté les hybrides analyste-statisticien, mais vous pouvez attraper mes pensées à leur sujet ici.
  • Ceux qui passent par les mouvements des deux tout en méconnaissant au moins un sont charlatans de données. Nous les traiterons dans un autre article.
  • Ceux qui savent faire les deux et aussi avoir une expertise ML / AI que j'appelle scientifiques des données. Ce type de polyvalent est en effet rare. Vous pouvez les lire dans mes autres écrits: [1], [2], [3], [4], [5]. Notez que différentes organisations ont des normes différentes pour définir le rôle de la science des données, il est donc préférable de vérifier que tout le monde parle de la même chose avant de supposer.

Analytics vous aide à formuler des hypothèses, tandis que les statistiques vous permettent de les tester.

Alors que les analystes se spécialisent dans l'exploration rapide de votre gâchis emmêlé d'un ensemble de données, les statisticiens se concentrent davantage sur la déduction de ce qui se trouve au-delà.

Gênés par l'effort de collecte de données et le coût de leur stockage sur de minuscules disques durs du XXe siècle, les ensembles de données du siècle dernier avaient tendance à être petits. Il était difficile de rassembler suffisamment de données pour un seul ensemble de données respectable, ce qui signifiait que le fractionnement des données était rarement une option. Cela a obligé les professionnels à choisir entre deux mentalités radicalement différentes.

L'antagonisme entre les professions des données est l'un des effets persistants de la famine des données.

Image: SOURCE.

(Pour comprendre certaines des nuances de cet article, vous devez comprendre qu'un point de données peut être utilisé pour générer de l'inspiration ou tester une théorie, mais jamais les deux. Avec le fractionnement des données, vous pouvez avoir votre gâteau et le manger aussi. Si vous voulez une explication plus approfondie de la raison pour laquelle cela est vrai, lisez cette.)

Quel que soit le camp dans lequel vous vous trouvez, vous pourriez penser que l’autre camp essaie de faire votre travail… et qu'ils sont étonnamment mauvais dans ce domaine.

Si vous avez reçu votre formation en science des données pendant les âges sombres de la famine des données, vous pourriez avoir un stéréotype désagréable qui découle d'une incapacité à comprendre que les analystes et les statisticiens jouent des rôles différents. Quel que soit le camp dans lequel vous vous trouvez, vous pourriez penser que l’autre camp essaie de faire votre travail… et qu'ils sont étonnamment mauvais dans ce domaine.

Image: SOURCE.

Comment un analyste apparaît à un statisticien

En un mot: négligé. Contrairement aux statisticiens, la plupart des analystes ne sont pas formés pour réfléchir rigoureusement aux conclusions qui sont valides en cas d'incertitude, mais ça va… tant qu'ils n'essaient pas de tirer des conclusions au-delà de leurs données. Au lieu de cela, la vertu la plus élevée d'un analyste est la rapidité - découvrir le plus rapidement possible ce qui se trouve dans son ensemble de données.

L'idée d'un carcan indiscipliné dans les données frotte de nombreux statisticiens dans le mauvais sens. Récemment, j'ai eu connaissance d'une conversation dans laquelle un statisticien (pas moi!) S'est opposé au développement d'outils d'analyse plus rapides parce que «cela inviterait à une mauvaise utilisation». Yup. Façon de piétiner la validité de toute la carrière analytique avec une grosse botte boueuse.

Image: SOURCE.

Voici la chose: il avait raison que de tels outils seraient mauvais pour statisticiens. Les emplois sont cependant différents. Malheureusement, la plupart des gens - y compris lui - ne comprennent pas cette différence.

Si vous n'êtes pas en mesure de diviser vos données et que vous les examinez toutes avant de déterminer les questions à poser, vous effectuez des analyses, pas des statistiques. Ce n'est pas nécessairement une mauvaise chose; l’analytique est importante et utile - c’est ainsi que nous créons de l’inspiration pour déterminer les directions à suivre. Le problème commence lorsque les analystes essaient de vendre l'inspiration comme quelque chose de plus rigoureux.

Suivez la seule règle d'or: appelez vos photos avant de les prendre ou décrivez ce qui est devant vous.

Réel les statisticiens tournent le nez à vos soi-disant «aperçus» si vous n'avez pas suivi la seule règle d'or: appelez vos photos avant de les prendre. Sinon, tenez-vous en à la description de votre jeu de données et n'allez pas au-delà. Ne vous prenez pas trop au sérieux et ne demandez à personne d’autre non plus.

Un manuel sur la façon de répondre aux analyses avec des données non fractionnées.

En fait, nous serions tous plus en sécurité dans notre raisonnement sur les données si nous toutes les personnes comme faisant des analyses descriptives jusqu'à preuve du contraire.

«Insights» à partir de données non divisées? C'est juste, comme, votre opinion, mec.

Jusqu'à ce que tu me montres que ta théorie te permet d'appeler tes coups avant vous les prenez, je suppose que ce que vous me montrez n'existe que là où vous l'avez trouvé. Les gens trouvent des modèles dans toutes sortes de choses - surtout quand ils sont motivés à penser aussi volontiers que possible - alors vous ne m'impressionnerez pas avant de prédire la présence de modèles avant vous les avez vus. À moins que vous ne puissiez garantir (et prouver - les journaux d'accès aux données, n'importe qui?) Que votre hypothèse a précédé vos données, tout ce que vous me dites doit être traité comme "C'est juste, comme, votre opinion, mec."

Les équations ne suffisent pas et elles ne peuvent pas transformer un processus interrompu en une généralisation fiable.

Pour qu'une incursion dans les données soit plus qu'une analyse descriptive, vous devez suivre un processus spécifique. Le fait que votre logiciel crache une valeur p ne signifie pas qu'une véritable inférence statistique a eu lieu. Vous devez définir le contexte et collecter des données de manière à déverrouiller la validité philosophique de ce que vous faites. Les équations ne suffisent pas et elles ne peuvent pas transformer un processus interrompu en une généralisation fiable. Utilisons soigneusement notre langue, appelons tout "inspiration" ou "analytique" jusqu'à preuve du contraire.

Assez de dénigrement d'analystes. Frappons quelques statisticiens!

Comment un statisticien apparaît à un analyste

En un mot: pédant. Contrairement aux analystes, la plupart des statisticiens ne sont pas formés pour effectuer le balayage large et superficiel qui vous aide à savoir quels trous de lapin valent la peine d'être abaissés. Pour un analyste, votre statisticien de variété de jardin peut sembler le gaspilleur de temps royal, surtout s'il s'implique au mauvais stade du projet.

De nombreux statisticiens aiment faire des choses Correctement, même lorsque ces choses ne valent pas toujours la peine d’être faites en premier lieu. Cela fait penser à un enfant de cinq ans sévère qui traite un château de sable comme s'il était sacré et hurle à l'enfant de quatre ans qui veut participer au plaisir de la construction. Il n'est pas surprenant que les analystes voient ces statisticiens comme une sorte de super-colle qui se glisse sur la première chose qui passe. (Et cette attitude plus sainte que toi n’aide pas non plus.) Image: SOURCE.

La dernière chose dont la plupart des décisions ont besoin est la tyrannie statistique.

Beaucoup de décisions de la vie ne valent tout simplement pas beaucoup d'efforts et si nous avons adopté une approche statistique tout, nous ne ferions pas grand-chose. Si vous allez à tapis sur la première chose qui attire votre attention, êtes-vous sûr de ne pas avoir manqué une utilisation beaucoup plus précieuse de votre temps? (Bien sûr, ce ne sont pas des mathématiques prudentes, mais allez, je commande juste le dîner ici.)

Lorsque les statisticiens manifestent bruyamment leur désapprobation lors d'incursions sans fondement dans les données exploratoires, ils semblent ridicules aux gens d'affaires. Image: SOURCE.

Je me suis souvent demandé si le rigueur pour la rigueur phénomène est le produit de prendre des cours de mathématiques où les exemples sont des bêtises triviales avec des calculs de plus en plus ornés. Maternelle "Si Sally a vingt lapins dans un champ ..." persiste tout au long de l'école doctorale, où il faut une triple intégrale pour obtenir l'étoile d'or.

Qui pourrait reprocher à un statisticien d'avoir tout pris trop au sérieux après tant de lapins? Ces cours vous conditionnent pratiquement à fournir des réponses sophistiquées à des questions stupides, alors qu'attendez-vous d'un effectif formé sur une décennie? Embaucher des adeptes des mathématiques / statistiques en masse vous évitera certains problèmes, mais cela vous expose à d'autres, y compris les brutes qui rendent la vie difficile à ceux qui ne construisent pas chaque château de sable avec un soin à 110%.

En mettant de côté mes inférences causales occasionnelles, si vous avez un coéquipier qui va consacrer son cœur et son âme à faire un travail rigoureux, alors j'espère que cette rigueur est vaut ciselure. Si votre coéquipier n'a pas les compétences nécessaires pour savoir quel trou de lapin descendre, il va avoir besoin de quelqu'un pour le diriger dans la bonne direction.

Avec les analystes qui les aident, les statisticiens n'ont plus besoin de tâtonner dans l'obscurité, construisant un univers dans leur tête pour comprendre comment poser leurs questions. Au lieu de cela, ils peuvent laisser les analystes inspirer leurs hypothèses et hypothèses.

Alors, pourquoi les statisticiens ne sont-ils pas ravis que les analystes les aident à identifier ce qui vaut la peine d'être fait et pourquoi ne sont-ils pas ravis de remettre aux statisticiens la part de la vérification de nos conclusions? Pourquoi l'antagonisme et le manque de respect?

Débloquer la collaboration

Dans le mauvais vieux temps, les ensembles de données étaient trop petits pour être divisés, vous devez donc choisir entre les utiliser pour des analyses et des statistiques. Cela signifie que les deux groupes devraient se battre pour chaque ensemble de données.

Dans les organisations ayant une approche moderne de la science des données, une forte collaboration entre les analystes (inspiration / exploration) et les statisticiens (rigueur / test) fait partie de la culture.

Grâce aux améliorations apportées au matériel et aux coûts de stockage réduits, de nombreuses entreprises franchissent aujourd'hui le plafond du jeu de données unique, inaugurant une ère d'abondance de données. *

Divisez vos données en un ensemble de données exploratoires que tout le monde peut trouver pour trouver l'inspiration et un ensemble de données de test qui sera ensuite utilisé par des experts pour une confirmation rigoureuse de toutes les «informations» trouvées pendant la phase exploratoire.

Désormais, les analystes et les statisticiens peuvent recevoir leur propre morceau de l'ensemble de données d'origine, permettant aux spécialistes de l'exploration de travailler en harmonie avec les spécialistes des tests, chaque groupe contribuant à ce qu'il fait de mieux ... en supposant qu'ils peuvent abandonner leur habitude de se battre les uns contre les autres à vue.

Le prix d'une collaboration efficace entre la génération et le test d'hypothèses est la quantité de données.

Les analystes peuvent utiliser leur article comme une méditation guidée pour comprendre ce qui vaut la peine d'être poursuivi et lorsqu'ils ont réduit ce qui compte le plus pour l'entreprise, le reste des articles donne aux statisticiens une chance de vérifier rigoureusement si l'intuition des analystes mérite d'être étudiée.

Les organisations pouvez avoir une symbiose entre les disciplines de données… et ils devraient! Bienvenue dans l'ère moderne de l'abondance des données! *

Image: Source.

* Amortisseur d'exubérance

Bien que les ensembles de données typiques d'aujourd'hui soient beaucoup plus grands (et plus facilement partagés / accessibles) que les données du siècle dernier, il existe des cas d'utilisation qui sont piégés dans l'ère d'un ensemble de données car la collecte de données initiale est très laborieuse ou coûteuse. Un exemple de ma carrière est les données IRMf - même aujourd'hui, il est très coûteux de scanner un seul cerveau humain, donc les ensembles de données neuroscientifiques comprenant quelques dizaines de scans sont toujours considérés comme impressionnants. C’est une raison pour laquelle il est naïf de supposer que tout les données seront des mégadonnées. Les informations sont tout simplement rares dans certains sujets, et ceux qui travaillent sur ces sujets sont confrontés à une réalité d'ensemble de données unique.

Si cela ressemble à votre environnement, essayez de réfléchir au camp qui régit le perchoir et respectueux des gens de l'autre camp - ils fournissent un service fondamentalement différent du vôtre et vous feriez bien de vous rappeler qu'ils sont des experts à part entière, même si votre entreprise a choisi de choisir vos services plutôt que les leurs.

Afficher plus

SupportIvy

SupportIvy.com : Un lieu pour partager le savoir et mieux comprendre le monde. Meilleure plate-forme de support gratuit pour vous, Documentation &Tutoriels par les experts.

Articles similaires

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Bouton retour en haut de la page
Fermer