Support IVY : Encyclopédie #1 et site d'informations, Conseils, Tutorials, Guides et plus
  • Accueil
  • Astuces
  • Magazine
    • Conseil en relations
      • Astuces
    • Rédaction & écriture
    • Web Design
    • Réseaux sociaux
      • Facebook
  • Lifestyle
    • Food
  • Ressources
    • Questions & Réponses
    • Graphique
      • PixelArt
No Result
View All Result
Support IVY : Encyclopédie #1 et site d'informations, Conseils, Tutorials, Guides et plus
  • Accueil
  • Astuces
  • Magazine
    • Conseil en relations
      • Astuces
    • Rédaction & écriture
    • Web Design
    • Réseaux sociaux
      • Facebook
  • Lifestyle
    • Food
  • Ressources
    • Questions & Réponses
    • Graphique
      • PixelArt
Support IVY : Encyclopédie #1 et site d'informations, Conseils, Tutorials, Guides et plus
No Result
View All Result
Home Intelligence artificielle

7 questions à se poser avant de démarrer un projet de science des données

7 juin 2020
in Intelligence artificielle
Reading Time: 29 mins read
7 questions à se poser avant de démarrer un projet de science des données

Table des matières

ArticlesA lire

Normalisation – Vitrine – Programmation

Normalisation – Vitrine – Programmation

Effet du traitement dans l’étude observationnelle

Effet du traitement dans l’étude observationnelle

Quelles sont les techniques pour détecter les anomalies

Quelles sont les techniques pour détecter les anomalies

Réseaux adverses génératifs – Vers la science des données

Réseaux adverses génératifs – Vers la science des données

7 questions à se poser avant de démarrer un projet de science des données

Comment être un gourou des données responsable

Kate Marie Lewis

C’est très bien d’apprendre les compétences techniques dont vous avez besoin pour devenir un data scientist. Je pense qu’il est également extrêmement important d’apprendre à penser comme un data scientist. Cela signifie toujours remettre en question… essentiellement tout.

De toute évidence, chaque problème de science des données vous obligera à remettre en question vos méthodes et les données de différentes manières, mais il y a quelques points que je pense qu’il est important de prendre en compte lorsque vous vous lancez dans un nouveau projet de science des données. Dans cette histoire, je vais passer en revue ces questions et pourquoi je pense qu’elles sont importantes pour être un scientifique responsable des données.

Mes questions pour tout nouveau projet de science des données sont:

  1. Quelle est la question à laquelle vous essayez de répondre?
  2. Savez-vous exactement ce que vous essayez de mesurer?
  3. Avez-vous les bonnes données pour répondre à votre question?
  4. Connaissez-vous suffisamment la façon dont vos données ont été collectées?
  5. Y a-t-il des considérations éthiques?
  6. Qui va lire votre analyse et dans quelle mesure comprennent-ils les statistiques?
  7. Devez-vous pouvoir interroger vos méthodes?

Il est extrêmement important d’avoir au moins une idée de la question à laquelle vous essayez de répondre avant d’interroger un ensemble de données.

Vous ne voulez pas tester plusieurs hypothèses et voir quelles sont celles qui s’avèrent les plus importantes. Si vous faisiez cela, vous rencontriez le problème du test d’hypothèses multiples. Nous y reviendrons plus en détail lorsque nous ferons nos leçons de statistiques, mais en bref, cela se produit lorsque vous considérez plusieurs hypothèses en même temps.

Lorsque nous parlons d’un résultat significatif, en général, nous faisons référence à un résultat dont nous sommes assez confiants qu’il est différent du «contrôle» en raison d’un effet réel plutôt que d’une chance aléatoire. La confiance à 95% est la plus couramment utilisée (p <0,05).

Cela laisse un taux d’erreur de 5%, où nous étiquetons un résultat comme significatif alors qu’il ne l’est vraiment pas. Le problème avec le test simultané de plusieurs hypothèses est que la probabilité de faire ce type d’erreur pour au moins une des hypothèses augmente. Ainsi, en testant sans discrimination plusieurs hypothèses à la fois, vous augmenteriez vos chances de faire une fausse découverte.

Donc, plutôt que de tester au hasard et de voir ce qui reste, il est bien préférable d’utiliser stratégiquement des tests statistiques lorsque vous avez une hypothèse réfléchie et bien étudiée.

Par exemple:

  • Si vous aviez un ensemble de données avec des mesures sur 4 groupes différents et que vous faisiez un test t entre chaque combinaison différente pour voir si l’un d’entre eux s’avérait significatif, alors vous vous heurteriez au problème du test d’hypothèses multiples. Vous auriez une probabilité accrue de tirer une conclusion erronée.
  • Il serait préférable de créer une hypothèse nulle et de la tester à la place.

En plus d’éviter le problème des tests d’hypothèses multiples, avoir une clarté de pensée sur la question à laquelle vous essayez de répondre vous empêchera de passer à côté.

Parfois, il y a tellement de points de vue brillants et intéressants à tirer d’un ensemble de données qu’il peut être facile de tomber dans le mauvais trou de lapin. Vous pouvez finir par faire beaucoup de travail pour résoudre des problèmes intéressants, mais vous n’avez pas de réponses à vos questions d’origine.

Ce n’est peut-être pas si grave si la science des données est un passe-temps pour vous, mais cela peut être beaucoup plus important si vous essayez de respecter une échéance ou de résoudre un problème spécifique pour l’entreprise pour laquelle vous travaillez.

Une fois que vous savez quel problème vous voulez résoudre, vous devez savoir comment vous allez le résoudre. Cela dépend en partie de ce que vous essayez de mesurer.

Il existe souvent plusieurs façons différentes d’aborder la même question. Cependant, si vous choisissez de mesurer le mauvais effet ou la mauvaise variable, vous ne pourrez peut-être pas résoudre efficacement votre problème. Il est donc extrêmement important de réfléchir sérieusement si ce que vous essayez de mesurer est le moyen le plus efficace de répondre à votre question d’intérêt.

Semblable au numéro 1 ci-dessus, si vous choisissez le mauvais effet ou la mauvaise variable à mesurer, vous pouvez passer beaucoup de temps à travailler sur une analyse qui ne répond pas vraiment à vos besoins.

Par exemple:

  • J’ai eu besoin de créer un modèle de prédiction où la variable de résultat était si un individu avait été traité avec une procédure médicale spécifique. Les données que j’utilisais étaient des données sur les réclamations de soins de santé où les procédures étaient indiquées par des codes. Beaucoup de codes étaient extrêmement spécifiques, j’ai donc dû regrouper une sélection de codes pour créer ma variable de résultat binaire.
  • Pendant que j’étudiais ma procédure d’intérêt, je suis tombé sur un sous-ensemble de ces procédures qui a retenu mon attention. Je voulais tellement descendre le terrier du lapin et me concentrer sur ce sous-ensemble de la procédure, mais ce n’est pas ce que la société pour laquelle je travaillais m’avait demandé de faire des recherches. J’ai donc dû déposer cela pour une date ultérieure et rester sur la tâche.

Décider quelle approche adopter peut être l’étape la plus importante de tout projet de science des données.

Cela peut prendre un peu de recherche pour savoir quelle est la bonne variable à mesurer pour votre objectif, mais cela en vaudra la peine. Si vous êtes certain d’avoir correctement choisi quoi mesurer, vous pouvez être beaucoup plus confiant dans les résultats de votre analyse.

De plus, lorsque vous communiquez vos résultats à d’autres, vous pouvez le faire avec l’assurance que vous avez bien réfléchi au problème que vous souhaitez résoudre et comment le mesurer correctement.

Donc, une fois que vous avez un problème à résoudre et que vous savez comment mesurer l’effet qui vous intéresse, vous devez disposer des données pour effectuer cette mesure. Il est inutile d’avoir le problème et la variable les meilleurs et les plus intéressants à étudier si vous n’en avez pas les moyens.

Il est très rare d’avoir l’ensemble de données parfait pour répondre à la question exacte et mesurer l’effet spécifique d’intérêt.

Ne pas avoir les bonnes données peut être une grande frustration en tant que scientifique des données.

Souvent, nous devons nous contenter de ce que nous avons. Ainsi, nous devrons peut-être mesurer quelque chose de légèrement différent de ce que nous avions initialement prévu. C’est peut-être bien, tant que nous modérons ensuite la façon dont nous rapportons nos résultats pour refléter cet ajustement.

Il est parfois possible d’utiliser une variable sur laquelle vous disposez de données pour représenter une autre variable sur laquelle vous ne pouvez pas collecter de données. Pourtant, si vous faites cela, il est impératif que vous rapportiez vos résultats de manière appropriée. Assurez-vous que vous ne prétendez pas vos résultats que vous n’avez pas les données à l’appui.

Par exemple:

  • Si vous voulez savoir quelle race de chien est la plus populaire en Australie, mais que vous ne disposez que des données d’une seule ville, Sydney. Vous pouvez toujours faire une analyse des races de chiens populaires, mais vous devez communiquer dans vos résultats que vos données ne reflètent que la population de Sydney.

Ce n’est pas parce que vous avez les bonnes données pour mesurer votre effet d’intérêt et résoudre le problème que vous avez en tête que vous pouvez vous détendre 😉

Les ensembles de données ne se créent pas seulement, entièrement formés et contenant des données complètes. Il existe de nombreuses façons différentes de collecter des données. Beaucoup d’entre elles impliquent des machines ou des personnes, ce qui signifie que des erreurs peuvent être commises. Essayez de considérer ou au moins de reconnaître autant de sources d’erreur potentielles que possible lorsque vous effectuez une analyse.

Il me serait impossible de décrire toutes les manières possibles dont la collecte de données peut mal tourner. Pourtant, il existe plusieurs enquêtes différentes que vous pouvez faire pour connaître votre ensemble de données. Ils peuvent vous permettre de mieux comprendre quelles peuvent être ses lacunes.

Par exemple:

  • Savez-vous où votre jeu de données a été collecté? De nombreuses variables auront une variation régionale, qui devrait être saisie par l’ensemble de données. Pourtant, cela ne peut pas être fait si les données de localisation n’ont pas été enregistrées.
  • Savez-vous quand votre jeu de données a été collecté? S’il existe des différences quotidiennes, hebdomadaires ou saisonnières dans ce que vous analysez, il est important de savoir de quelle période proviennent vos données.
  • Par qui vos données ont-elles été collectées? la recherche a-t-elle été payée par une entreprise qui pourrait avoir un intérêt direct dans le résultat? la personne qui a réalisé l’étude était-elle impartiale?
  • L’ensemble de données était-il complet au moment de la collecte?
  • Des données ont-elles été inférées ou imputées? Différentes méthodes d’imputation des données doivent être enregistrées avec l’ensemble de données afin que vous puissiez interroger si vous pensez que la méthode utilisée était appropriée pour votre analyse.
  • Des modifications post-collecte ont-elles été apportées à votre ensemble de données avant que vous ne le receviez?
  • Y a-t-il d’autres biais possibles dans la méthodologie de collecte? Si tel est le cas, ils doivent être pris en compte dans votre analyse, ou du moins reconnus dans la présentation de vos résultats.

Il est important de connaître l’historique de votre ensemble de données afin de pouvoir décider si l’une de ces lacunes potentielles vous empêchera de trouver les réponses que vous recherchez. Ou bien s’il s’agit de problèmes de données avec lesquels vous pouvez travailler 😃

Il s’agit d’une question très importante qui est souvent négligée. Votre analyse et les résultats que vous avez obtenus sont-ils éthiques?

Vous vous demandez peut-être comment une analyse peut avoir des considérations éthiques. Certes, les chiffres correctement collectés et mesurés avec une analyse minutieuse ne peuvent pas être contraires à l’éthique? Mais la réalité est que parfois des choses comme le sexisme et le racisme peuvent s’introduire sans que nous ne le voulions du tout. Surtout quand le monde que nous essayons de décrire à l’aide de données a des choses comme les inégalités et les préjugés.

Par exemple:

  • Si vous construisiez un algorithme d’apprentissage automatique pour prédire quelles personnes achèteraient un produit. D’après votre analyse, l’une des caractéristiques qui prédisent fortement votre variable de résultat peut être la race. Cependant, vous devez décider s’il est correct d’inclure la race en tant que fonctionnalité dans votre modèle. La race n’est peut-être pas en fait la cause de la différence dans votre variable de résultat, mais c’est plutôt une autre variable corrélée à cette race qui est causale. Cela peut ou non avoir de l’importance lorsque vous prédisez si les gens achèteront un produit afin qu’une entreprise puisse les commercialiser. En revanche, si c’est quelque chose comme prédire s’ils rembourseront leur prêt hypothécaire pour décider s’ils devraient recevoir un prêt bancaire, alors tout à coup, cela devient beaucoup plus important.
  • L’un des cas les plus célèbres de racisme en science des données a été lorsqu’un algorithme de reconnaissance faciale étiqueté deux hommes afro-américains comme des gorilles. Cela n’a pas été fait de manière malveillante par les personnes qui ont conçu le logiciel, mais cela s’est produit parce qu’il n’y avait pas assez de diversité dans l’ensemble de données de formation.

Il y a beaucoup de gens qui ont écrit sur l’éthique en science des données afin que vous puissiez vous éduquer à prendre des décisions éthiques lors de la conception de vos projets de science des données. Il est important de reconnaître les biais qui existent dans le monde et de décider par vous-même si l’analyse que vous envisagez serait éthique à compléter. Soyez attentif et faites de votre mieux pour effectuer des analyses d’une manière qui rendra le monde meilleur.

En tant que scientifiques des données, nous sommes les gardiens des données. Nous pouvons influencer la façon dont les entreprises font des affaires, les décisions que les gouvernements prennent, les médicaments mis au point, etc. Il est donc extrêmement important de le faire de manière responsable et consciente.

Qui va lire ou être le destinataire de votre analyse? S’agit-il d’un utilisateur d’un site Web ou d’un produit? une équipe de science des données? équipe de marketing? Développement des affaires? équipe de vente? etc. Chacun de ces groupes aura différents niveaux de compréhension statistique. Vous devrez donc peut-être adapter votre analyse à votre public. En particulier, les méthodes que vous choisissez et la façon dont vous communiquez vos résultats et les mises en garde qui leur sont associées.

Il est de votre responsabilité, en tant que scientifique des données, de vous assurer que vous transmettez correctement vos résultats à leur public cible. Vous devez prendre en compte le niveau de connaissances en statistiques de votre audience.

L’une des présentations les plus difficiles que j’ai eu à faire a été celle d’un public extrêmement diversifié dans sa compréhension des statistiques. Il y avait des neuroscientifiques, des neurochirurgiens et aussi des personnes qui avaient subi un traumatisme crânien dans le public. La clé était d’inclure suffisamment de détails pour que les experts soient satisfaits, mais pas pour que les autres se sentent comme si je leur parlais ou les excluais de la conversation. C’est un équilibre sur lequel je continue de travailler pour transmettre mes résultats à différents publics.

Il est également courant que différentes personnes souhaitent utiliser vos données pour les besoins de leurs propres équipes. Vous êtes obligé de vous assurer qu’ils connaissent les limites de votre analyse et s’ils peuvent en toute confiance faire les réclamations qu’ils souhaitent.

Cela peut parfois conduire à des conflits. Différentes parties prenantes peuvent avoir des objectifs différents pour votre analyse, mais il est important de défendre votre position et de vous assurer que tout le monde a une compréhension claire de la signification de vos résultats. De plus, assurez-vous qu’ils savent quelles conclusions peuvent être tirées.

Par exemple:

  • J’ai travaillé une fois dans une entreprise où j’ai fait une analyse pour l’équipe marketing. Ce fut un plaisir de travailler avec cette équipe, car ils m’ont communiqué clairement les déclarations qu’ils souhaitaient faire sur nos données. Il y a eu quelques fois où j’ai dû corriger poliment quelque chose qu’ils voulaient dire que je pensais que nos données ne pouvaient pas soutenir, mais ils ont très bien accepté cette critique constructive.
  • En revanche, ces types de conversations ne se déroulent pas toujours aussi bien. Je travaillais une fois sur un produit de données et l’équipe de vente voulait faire certaines déclarations concernant ses capacités et sa couverture. Je devais être assez ferme pour m’assurer que nous ne sur-battions pas nos capacités. Mais je pense que c’est probablement l’état naturel pour les scientifiques et les vendeurs. Le premier étant naturellement conservateur et le second beaucoup moins 😃

Avant de décider de la méthodologie à utiliser dans votre projet de science des données, il est important de savoir de combien vous aurez besoin pour pouvoir interroger l’analyse ou le modèle que vous produisez.

Parfois, vous devrez peut-être expliquer en détail chaque étape que vous avez franchie. Cela inclut toutes les variables qui ont été prises en compte et pourquoi. D’autres fois, la précision est le nom du jeu. Dans ce cas, peu importe ce qui est entré dans le modèle tant qu’il prédit avec un minimum d’erreurs.

Le savoir vous aidera à décider de votre méthodologie.

Par exemple:

  • Si vous avez un problème de prédiction et que vous souhaitez utiliser un algorithme d’apprentissage automatique supervisé pour prédire une variable de résultat binaire, vous avez plusieurs options différentes. Si vous devez être en mesure d’examiner chaque entité du modèle et de pouvoir l’expliquer clairement à quelqu’un, il peut être préférable d’utiliser un modèle de régression logistique. Pourtant, si cela n’avait pas d’importance si votre modèle est plus une boîte noire, alors un modèle de forêt aléatoire pourrait peut-être mieux vous servir.

Bien que l’explicabilité ne devrait pas être la principale considération du choix d’un modèle d’apprentissage automatique pour l’analyse, cela mérite réflexion. Il peut parfois s’agir d’un compromis entre précision et explicabilité. C’est donc à vous, en tant que data scientist, de décider dans quelle direction aller.

Donc, avant de commencer un projet de science des données, demandez-vous:

  1. Quelle est la question?
  2. Savez-vous ce que vous mesurez?
  3. Avez-vous les bonnes données pour répondre à votre question?
  4. Savez-vous comment vos données ont été collectées?
  5. Y a-t-il des considérations éthiques?
  6. Qui va lire votre analyse et ont-ils une formation en statistiques?
  7. Devez-vous pouvoir interroger vos méthodes?

J’espère que ces 7 questions ont suscité la réflexion. Ils veilleront à ce que, dans toute analyse de la science des données que vous effectuez, vous ne dérapiez pas complètement. Avec un peu de chance, ils vous feront gagner du temps et vous feront voyager dans des trous de lapin inutiles. Au fur et à mesure que vous acquérez de l’expérience en science des données, je suis sûr que vous poserez vos propres questions que vous aimerez toujours vous poser avant de commencer un nouveau projet. N’oubliez pas de toujours être attentif à toutes vos analyses et de transmettre de manière appropriée toutes les réserves à vos résultats.

ShareTweetPin

Related Posts

Normalisation – Vitrine – Programmation
Intelligence artificielle

Normalisation – Vitrine – Programmation

Normalisation - Vitrine - Programmation SCIENCE DES DONNÉES - COVID-19 - VISUALISATION - PROGRAMMATION Combien de personnes infectées vivent encore...

Effet du traitement dans l’étude observationnelle
Intelligence artificielle

Effet du traitement dans l’étude observationnelle

Effet du traitement dans l'étude observationnelle En inférence causale observationnelle à l'aide des dossiers de santé électroniques Inférence causale pour...

Quelles sont les techniques pour détecter les anomalies
Intelligence artificielle

Quelles sont les techniques pour détecter les anomalies

Quelles sont les techniques pour détecter les anomalies photo par Ali Hajian sur UnsplashDétection d'une anomalie est l'identification d'éléments, d'événements...

Réseaux adverses génératifs – Vers la science des données
Intelligence artificielle

Réseaux adverses génératifs – Vers la science des données

Réseaux adverses génératifs - Vers la science des données GAN dans le Deep Learning Une plongée dans le monde magique...

Next Post
Business : VR pousse l’eSport au niveau supérieur

VR pousse l'eSport au niveau supérieur

Comment gérer efficacement de nombreuses applications – Le démarrage interne

Comment gérer efficacement de nombreuses applications - Le démarrage interne

Laisser un commentaire Annuler la réponse

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

  • Accueil
  • Questions & Réponses
  • Science
  • Astuces
  • Business
  • Cryptomonnaie
  • Design
  • Marketing
  • Programmation
  • Politique de confidentialité
  • A propos
  • Contact

© 2018-2020 SupportIVY - Premium Magazine.

No Result
View All Result
  • Accueil
  • Astuces
  • Magazine
    • Conseil en relations
      • Astuces
    • Rédaction & écriture
    • Web Design
    • Réseaux sociaux
      • Facebook
  • Lifestyle
    • Food
  • Ressources
    • Questions & Réponses
    • Graphique
      • PixelArt