Technologie

Science des données – Parfois, les données absentes sont les meilleures données

Science des données - Parfois, les données absentes sont les meilleures données


1*zURQABc4RzlXP TvufdUlg - Science des données - Parfois, les données absentes sont les meilleures données
Photo de Sander Weeteling sur Unsplash

En tant que spécialiste des données, vous recevrez souvent un ensemble de données et une question. Une bonne pensée logique peut vraiment aider à trouver les solutions. Commençons donc par un exemple loufoque pour faire fonctionner vos cellules cérébrales.

Un promoteur immobilier souhaite entrer sur le marché des immeubles de retraite à plusieurs étages. Pour donner un peu de contexte, ils expliquent que les personnes âgées de la région ont tendance à avoir beaucoup de chats et que les personnes âgées peuvent avoir trop chaud et ont tendance à garder leurs fenêtres ouvertes.

Après avoir posé des questions, ils ont constaté que de nombreux problèmes juridiques provoqués par la mort de chats s’étaient écroulés chez les concurrents lorsque ceux-ci tombaient des fenêtres. Cela peut donner une mauvaise réputation, mais le simple fait de sceller toutes les fenêtres n’est pas une solution car cela réduit les loyers qu’ils peuvent facturer, en raison de la piètre qualité perçue, et ils doivent également installer des climatiseurs coûteux pour garder les occupants au frais.

La question qui leur est posée est la suivante: «De combien d’étages avons-nous besoin pour sceller les fenêtres, nous limitons donc le nombre de chats qui meurent des suites d’une chute?

Ne le fais pas Tibbles!

Photo par Tucker Bon sur Unsplash

L'information supplémentaire qui vous a été fournie est que leur seuil de rentabilité est que les chats ont besoin d'au moins 85% de chance de survivre à la chute pour que leur survie financière soit préservée. Ils ne disposent d'aucune information sur les chances de survie avec l'altitude. Vous devez donc consulter les vétérinaires des zones concernées, calculer le nombre de chats issus des chutes et déterminer la proportion de survivants.

Données fictives sur les taux de survie des chats après les chutes.

Voila! Votre réponse se présente. Essayons maintenant un exemple plus réaliste.

Pendant la Seconde Guerre mondiale 2, la nécessité d'accroître la capacité de survie des avions (et donc aussi des pilotes) était un domaine où les besoins étaient criants. Si vous pouviez faire en sorte que vos avions survivent mieux que vos ennemis, vous disposiez d'un avantage matériel évident (ce qui, au fur et à mesure de l'avancée de la guerre, suscitait de vives inquiétudes pour les économies de guerre qui menaçaient), mais cela signifiait également que vous aviez une plus grande endurance, les avions pouvant être réparés et rendus sans la nécessité d'attendre de nouveaux avions et potentiellement de nouveaux pilotes.

La solution la plus simple consiste à armer les avions en ajoutant des renforts à l'ensemble. Cependant, ceci est incroyablement indésirable car il augmente le poids de l'avion, utilise plus de ressources (à la fois en construction et en carburant) et signifie globalement qu'il fonctionne mal contre les avions plus légers (et plus agiles) de l'ennemi, ce qui diminue leur capacité de survie.

La question qu'ils se posaient était: "Où les armures sont-elles le plus nécessaires?"

Pour ce faire, vous avez besoin du sang de tout scientifique ou mathématicien, des données! Ils ont observé le retour des avions et ont répertorié les dommages subis et les ont superposés sur un schéma de l'avion.

Distribution hypothétique des dommages causés par l'action de l'ennemi. La source

Nous y voilà! Vous pouvez clairement voir où l'armure doit aller. Mais pouvez-vous quand le diagramme est une source d'information essentielle?

Photo par Ben White sur Unsplash

Si vous supposez que les tirs ennemis ont une chance égale de toucher n'importe quelle partie de l'avion, où se trouvent les avions percés des impacts de balles sur les moteurs et le poste de pilotage? La réponse est qu’ils ne sont jamais rentrés chez eux et que leurs dommages n’ont pas été catalogués pour faire le diagramme précédent.

Les espaces vides sont donc un indicateur des zones les plus vulnérables de l’avion, aucun avion ayant subi des dommages n’y étant retourné.

C’est en fait un exemple concret réalisé pendant la guerre aux États-Unis par le Statistical Research Group (SRG) de l’Université de Columbia. Les militaires avaient l’intention de protéger les zones qu’ils voyaient endommagées, mais Abraham Wald, qui travaillait pour le GRS, a souligné cette déduction erronée et a même développé des statistiques sophistiquées pour modéliser les données manquantes (la méthode d’estimation est ici reproduite à tout le monde. mathématiquement incliné) et est un domaine de travail qui est encore utilisé aujourd'hui. Il s’agit en fait d’une certaine zone de parti pris dont nous pouvons tous souffrir. Biais de survivant.

On parle de biais de survivant lorsque des conclusions erronées sont tirées sur des données n'incluant que des individus ayant survécu à un processus de sélection ou de critique. Vous n’êtes généralement pas au courant de ce biais parce que les données supprimées par cette sélection ne vous sont pas facilement accessibles et vous basez donc vos déductions sur ce que vous avez.

Par exemple, l’expression «ils ne les fabriquent pas comme avant» est couramment utilisée pour indiquer que les produits fabriqués dans le passé étaient de bien meilleure qualité que les produits actuels. Ici, le parti pris est que, après si longtemps, seuls les articles de haute qualité et bien conçus resteront opérationnels, mais parce que vous n'êtes pas au courant de tous les autres produits qui sont tombés en panne et ont été jetés au cours des années écoulées. biaisé à penser qu'ils étaient tous sont comme ça. Le même parti pris s’applique également à l’idée que les bâtiments étaient beaucoup mieux construits et plus beaux que les bâtiments actuels, car seuls les bâtiments possédant ces qualités ont probablement réussi à se maintenir jusqu’à présent.

Un autre exemple (également basé sur un vrai débat) est celui des chats que j'ai déjà mentionné. En le regardant, vous avez peut-être pensé qu'après la cinquième histoire, les chats survivaient mieux, ce qui pourrait être attribué au fait que le chat a le temps de réagir, de s'orienter et donc d'atterrir moins, ce qui diminue ses risques de blessures graves. Mais même ici, vous pourriez souffrir de partialité de survivant. Le biais serait que les données proviennent du taux de survie des chats une fois qu'ils ont été amenés à la clinique vétérinaire. Si le chat est mort de la chute, il est peu probable que quelqu'un l'ait amené à la clinique vétérinaire, ce qui biaiserait les résultats en conséquence.

Donc, la livraison rapide est:

La partialité des survivants nous entoure tous les jours. Veillez à ne pas en souffrir.

Photo par Erol Ahmed sur Unsplash

Wald était un statisticien hautement qualifié et était parfaitement conscient des biais qui peuvent se glisser dans une analyse. Fort de cette connaissance, il a pu déterminer que les données manquantes étaient vitales et a même mis au point une méthode statistique pour l'approcher afin de prendre la bonne décision.

Même si vous n'êtes pas un expert mondial, vous pouvez souvent évaluer approximativement l'effet des survivants disparus une fois que vous savez qu'ils existent, ce qui remettra votre analyse sur les rails.

Être conscient des préjugés peut être très important dans notre domaine, car souvent, une personne peut signaler une entreprise ou une technologie extrêmement performante et dire «Je veux être comme ça», mais vous ne voulez souvent pas étudier cette entreprise cible car ils ne peuvent pas vous le dire. comment éviter les échecs car, de par leur nature, ils ont réussi. Au lieu de cela, regardez leurs concurrents et des technologies similaires pour voir pourquoi ils se sont couchés.

C’est quelque chose que j’ai rencontré à quelques reprises dans ma vie professionnelle, le problème le plus courant étant que lorsque des éléments du laboratoire passent à la production, ils échouent. Cela est souvent dû au fait que les appareils de laboratoire ont été fortement modifiés au cours de leur vie par des experts et que tout n’a pas été documenté ou réalisé sur les machines de production. Le fait que les machines de laboratoire soient toujours là signifiait qu'ils pensaient être comme ça, ils ignoraient tous ceux qui étaient cassés et dont ils disposaient pour les amener à ce point.

Un bon exemple en est le cas d’un collègue de l’époque qui s’est retrouvé confronté à une nouvelle série de produits mis à jour qui échouait aux tests de qualité alors que les machines fiables utilisées pour les valider ne posaient aucun problème. Ce qui s’était passé était que les machines de fiabilité étaient une marque plus ancienne qui avait simplement été améliorée avec les pièces les plus récentes si nécessaire, mais les composants de base laissés. Ces machines de fiabilité constituaient un cas évident de partialité pour les survivants car les machines restant dans le groupe d’essais de fiabilité étaient nécessairement du fait de leur longue durée de vie, bien rodées, lourdement rodées, rigoureusement testées et donc extrêmement fiables.

Ils avaient tendance à penser que, parce que les anciennes machines fonctionnaient bien, les nouvelles étaient identiques. La bonne décision à prendre ici aurait été d’identifier que les anciennes machines ne représentaient plus les versions les plus récentes et de mettre de côté une partie de la nouvelle exécution sur laquelle effectuer des tests. Cela aurait permis de résoudre les problèmes de fabrication qu’ils découvriraient plus tard, leur faisant économiser temps et argent.

Le biais du survivant est un biais difficile à remarquer et peut affecter de nombreuses analyses. Cependant, même si les données ne sont pas disponibles, vous pouvez approximer ce qu’elles devraient être par leur absence et parvenir à une bonne conclusion.

Si vous voulez en savoir plus, j’ai compilé une liste de lectures supplémentaires ci-dessous, ainsi que ce grand discours de TedX:

Présentation de TedX sur la façon dont le biais de la victime déforme les perceptions
Show More

SupportIvy

SupportIvy.com : Un lieu pour partager le savoir et mieux comprendre le monde. Meilleure plate-forme de support gratuit pour vous, Documentation &Tutoriels par les experts.

Related Articles

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Close
Close