Business

Sur les données et la science – Vers la science des données

Sur les données et la science - Vers la science des données


Partie 1: L'importance d'apporter la science à la discussion.

2*zcPDtaZcELwMoXEFOeBKiA - Sur les données et la science - Vers la science des données

Nous faisons de la science depuis un moment maintenant. Je vais la mettre à partir de 1637, lorsque Descartes a publié «Discourse of the Method». Le principal résultat de ce livre est la distinction entre connaissance et vérité, et que le discours du scientifique est lié à la connaissance (que nous découvrirons plus tard toujours toujours incomplète) pour ne pas rechercher la vérité.

C’est un point très important, car cela nous donne un objectif, la science veut savoir des choses qui ne sont pas des «vérités incontestées».

Les données ont été proches de la science dans presque toute son histoire. Parfois, c’est la théorie et ensuite l’obtention des données, mais pour l'essentiel de ce que nous allons discuter ici et d'autres articles à venir, cela sera dans les données modèles -> théorie.

Je veux vous raconter une petite histoire qui vous permettra de mieux comprendre pourquoi les données sont importantes, mais pas la partie la plus importante de la science.

L'histoire parle d'un homme appelé Tycho Brahe. Il a passé presque toute sa vie à mesurer la position des étoiles, des planètes, de la lune et du soleil. Pour quoi? Il voulait apprendre à prédire les elipses, il était également mécontent du système ptolémaïque et la théorie copernicienne ne lui suffisait pas non plus. Il a donc voulu trouver la meilleure façon de décrire le ciel et ses pièces mobiles.

Malheureusement, il n’était pas sûr de savoir comment, mais il a continué à mesurer les choses jusqu’à ses derniers jours. Il mourut en 1601 et un nommé Mathias, Johannes Kepler, devenu son assistant l'année précédente, avait accès à presque toutes ses données. Avec ces données, Kepler améliora la théorie de Copernic sur l'univers et développa trois lois décrivant le mouvement des planètes. Les travaux de Kepler ont servi de base aux études ultérieures d’Isaac Newton sur la théorie de la gravité et le mouvement des corps.

L’histoire est beaucoup plus longue et amusante, si vous voulez en savoir plus, jetez un coup d’œil en ligne. Mais vous pourriez vous demander à ce stade, Qu'est-ce que cette histoire a à voir avec la science des données?

Le plus grand enseignement que nous ayons de cette histoire est que Avoir des données, et parfois beaucoup de données ne sert à rien sauf si vous avez une bonne question à répondre. Cela est encore vrai de nos jours et le début de l'amour moderne pour les données a commencé avec les statistiques.

Je ne parlerai pas beaucoup de statistiques ici, mais je vais souligner deux choses spécifiques qui ont changé le monde pour toujours. Le premier est un article de John Tukey intitulé «L’avenir de l’analyse des données», publié en 1962, et le deuxième, exposé du professeur Jeff Wu intitulé «Statistics = Data Science», paru en 1997.

Ce sont des références assez anciennes que je connais, mais elles sont très importantes. Crois moi.

Dans l'article de Tukey, il dit ceci:

J'ai longtemps pensé que j'étais un statisticien, intéressé par les inférences du particulier au général. Mais en regardant l'évolution des statistiques mathématiques, j'ai eu des raisons de m'émerveiller et de douter. […] Dans l’ensemble, j’ai fini par sentir que mon intérêt principal est l’analyse de données…

C'est une déclaration énorme à faire par un statisticien. À cette époque, les mots «science des données» n'existaient plus comme aujourd'hui, mais la description que Tukey a donnée à l'analyse des données est très proche de ce que nous appelons maintenant la science des données. Il a même appelé analyse de données une science, car il passe ces trois tests:

  • Contenu intellectuel.
  • Organisation sous une forme compréhensible.
  • Recours au test de l'expérience comme critère ultime de validité.

Dire également que cette «nouvelle science» est définie par un problème omniprésent plutôt que par un sujet concret. Il explique ensuite comment apprendre et se familiariser avec l'analyse de données et comment devenir un analyste de données et comment l'enseigner. C’est un article extraordinaire que nous devrions tous lire si nous voulons comprendre les débuts de notre domaine.

Dans le deuxième article, Jeff Wu, 35 ans plus tard après la publication de Tukey:

Statistiques = Data Science?

Là où il a proposé que les statistiques soient renommées «science des données» et que les statisticiens soient nommés «scientifiques des données». Selon les normes actuelles, les statistiques font maintenant partie de la science des données, mais pourquoi? Parce que nous disons que nous avons également besoin de programmation, de compréhension des affaires, d’apprentissage automatique, etc. C’est peut-être simplement que les statistiques ont évolué et que certains statisticiens sont devenus des scientifiques des données. Mais certains d'entre eux.

Pour comprendre la part des statistiques et des statisticiens qui sont devenus des scientifiques et des scientifiques des données, vous devez lire l’article intitulé «Modélisation statistique: les deux cultures» de Leo Breiman, publié en 2001.

Il mentionne ici que certaines personnes de la culture statistique sont motivées par la modélisation de données et d’autres par la modélisation algorithmique. Où les premiers supposent que nous avons un modèle de données stochastique qui mappe les variables d'entrée X aux variables de réponse y. Et les deuxièmes considèrent que le processus de cartographie est à la fois complexe et inconnu, et leur approche consiste à trouver une fonction f (x) qui fonctionne sur X prédire les réponses y.

Il aborde ensuite les raisons pour lesquelles la culture de modélisation des données a été si mauvaise pour les statistiques, ce qui a conduit à des théories non pertinentes et à des conclusions scientifiques discutables empêchant les statisticiens d'utiliser des modèles algorithmiques plus appropriés et de travailler sur de nouveaux problèmes. Il évoque également les merveilles de l’autre partie du spectre, la culture de la modélisation algorithmique donnant des exemples tirés de ses propres travaux et d’autres expliquant comment elle peut résoudre des problèmes difficiles et complexes.

La science des données est l’objet principal de la plupart des sciences et des études en ce moment, elle a besoin de beaucoup de choses comme l’intelligence artificielle, la programmation, les statistiques, la compréhension du monde des affaires, des techniques de présentation efficaces, etc. C’est pourquoi ce n’est pas facile à comprendre ou à étudier. Mais nous pouvons le faire, nous le faisons.

La science des données est devenue le cadre de résolution standard des problèmes rencontrés par les universités et le secteur, et ce sera comme ça pendant un moment. Mais nous devons nous rappeler d’où nous venons, qui nous sommes et où nous allons.

Je vais créer plus d'articles dans le sujet, vous pouvez considérer cela comme une introduction.

Merci d'avoir lu :)

Pour plus d'informations, vous pouvez me suivre ici:

Afficher plus

SupportIvy

SupportIvy.com : Un lieu pour partager le savoir et mieux comprendre le monde. Meilleure plate-forme de support gratuit pour vous, Documentation &Tutoriels par les experts.

Articles similaires

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Bouton retour en haut de la page
Fermer