Technologie

Le modèle gaussien – Vers la science des données

Le modèle gaussien - Vers la science des données


Un croquis au verso des infections à COVID-19.

2*E8ilQ3VdLlw7qDDjh4pXlw - Le modèle gaussien - Vers la science des données
Photo de l'auteur

Avertissement avant tout: je ne suis pas épidémiologiste. Ce ne sont pas des projections professionnelles; ceux-ci sont calculs au dos de l'enveloppe. Je suis physicien et vous savez à quel point nous aimons notre "ordres de grandeur","approximations sphériques de vache", et "calculs au dos de l'enveloppe".

Le New York Times la semaine dernière avait un article sur quels pays «aplatissent la courbe», explorons donc un modèle simple de ces "courbes".

Taux d'infection COVID-19 quotidiens pour certains pays

Bien sûr, nous utiliserons le modèle le plus simple: le Normal ou Gaussien courbe.

La courbe normale ou gaussienne

Au début, les infections augmentent de façon exponentielle, puis quelle que soit la réponse que le pays hôte adopte, après un certain temps, les nouvelles infections reviennent à près de zéro. C'est du moins le dos de l'enveloppe théorie. Il y a sûrement de meilleurs modèles, mais nous utiliserons le modèle gaussien comme premier coup.

Le modèle gaussien est défini par seulement trois paramètres: N, μ, et σ, et ressemble à ceci:

  • N est le taux d'infection à son apogée, au milieu de l'épidémie.
  • μ est la date du pic du taux d'infection, et
  • σ contrôle la largeur, la période pendant laquelle la pandémie est vécue par le pays.
Paramètres du modèle gaussien

Dans ce modèle, à 2σ jours avant le pic d'infection, au jour μ-2σ (jour 20), environ 2% de la population totale a été infectée. Par 1σ jours avant le pic (jour 35), environ 16% de la population infectée finale totale est déjà positive. Le jour μ, 50% du total des cas sont infectés.

Un jour donné, la fraction de surface sous la courbe = le nombre cumulé de cas divisé par le nombre total de cas à la fin de l'épidémie.

Essayons d'abord le modèle sur les pays qui semblent avoir atteint un pic d'infection et qui sont en voie de rétablissement: Chine et Corée du Sud.

Nous pouvons obtenir les données dans le format dont nous avons besoin auprès du Centre européen de prévention et de contrôle des maladies, l'équivalent européen du CDC américain. Kaggle a également de bonnes données.

Le graphique du taux d'infection quotidien en provenance de Chine, à partir du 1er janvier 2020, montre la forte augmentation du nombre de cas autour du jour 43 (12 février) lorsque les équipes médicales ont commencé à utiliser des méthodes de diagnostic plus simples et plus rapides par rapport aux tests de correspondance d'ADN précédents. Même ainsi, le modèle gaussien offre un ajustement décent.

Pour la Corée du Sud, l'ajustement semble peut-être mieux. Mais cela ne capture pas très bien la décroissance bloquée du côté droit. Il se pourrait même que cet excès représente un événement gaussien régional distinct.

Pour adapter le modèle à ces données, j'ai utilisé le curve_fit () fonction du module python scipy.optimize et mon bloc-notes Jupyter est ici.

Une vérification simple de ces modèles consiste à déterminer si la superficie totale sous la courbe du modèle est proche du nombre total d'infections réelles pour le pays. Procédure standard pour dos de l'enveloppe les calculs sont des contrôles de santé mentale fréquents.

Donné N et σ, les superficie totale sous la courbe du modèle se trouve:

Voici les comparaisons (au 24 mars 2020)

Chine

  • Nombre total de cas réels: 81748
  • Superficie totale du modèle: 79315

étonnamment, seulement environ 3% de réduction.

Corée du Sud

  • Nombre total de cas réels: 9037
  • Superficie totale du modèle: 8145

∼10% de réduction, principalement parce que le modèle manque ce décrochage récent dans la baisse des cas en Corée du Sud. Mais, 10% n'est pas si mal pour un dos de l'enveloppe estimation.

Voici où le dos de l'enveloppe le modèle échoue, ou plutôt perd sa bonté de ∼10%.

Ci-dessous, le modèle gaussien correspond aux données au moment de l'écriture (24 mars 2020) pour quelques pays.

Nous pouvons avoir une idée de «jusqu'où"Le pays est à l'heure actuelle, en comparant les nombre cumulatif actuel infecté à la cas totaux attendus du modèle. Ce rapport est l'aire sous le modèle jusqu'à présent, divisée par l'aire totale du modèle.

Ce pourcentage est indiqué sous les chiffres (fractions de surface plus de 100% sont possibles car le nombre total de cas réels peut différer du total prévu par le modèle, par exemple. Corée du Sud). Garde en tête que le fraction de surface est un estimation du modèle, et est donc soumis à des soupçons statistiques du modèle qui seront soulevées ci-dessous.

Le modèle gaussien s’adapte aux nouveaux taux d’infection quotidiens de divers pays et aux données mondiales (à l’exclusion de la Chine). Sous chaque graphique se trouve le «fraction de surface", Une estimation de"jusqu'où"Ce pays est.

Il y a tellement de façons que ce modèle est trop simple!

De vrais modèles épidémiologiques intègrent des éléments tels que Markov Chain Monte Carlo (MCMC), des équations différentielles couplées, des données de transport en temps réel et une analyse des graphes sociaux. Comme vous pouvez le constater en expérimentant des jeux comme Plague Inc. sur votre téléphone, l'épidémie peut prendre sa vie en main de différentes manières et s'écarter des modèles simples. Vraiment - la seule chose que le modèle gaussien a pour lui est le théorème de limite centrale, et que c'est dos de l'enveloppe Facile.

Le modèle capture assez bien les caractéristiques brutes après l'événement pour les pays qui semblent maintenant maîtriser les infections, comme la Chine et la Corée du Sud (et quelque chose de non gaussien semble se produire maintenant en Corée du Sud, comme mentionné ci-dessus). Mais les paramètres d'ajustement, μ, N, et σ, du modèle dépendent beaucoup où vous vous trouvez le long de la courbe, c'est à dire. votre fraction de zone.

Lorsque vous montez d'un côté des données, il existe de nombreux pics et vallées locaux. Mais, si votre pays est déjà proche de la moitié de la courbe d'infection, vous pouvez faire une assez bonne estimation de l'avenir en utilisant le modèle gaussien. Du point de vue du sommet, lorsque le fraction de surface = 50%, l'avenir devrait ressembler, en quelque sorte, au passé à l'envers. Les infections devraient commencer à diminuer, et enfin diminuer à zéro.

Le problème est que vous ne savez pas avec certitude quand vous y êtes.

Si vous êtes seulement, disons, 10% à travers la remontée exponentielle des infections, alors les barres d'erreur sur les paramètres que vous obtenez en utilisant le modèle gaussien sont beaucoup trop sensibles aux dernières données. Voici quelques-uns des différents modèles possibles que nous obtenons des fluctuations statistiques des données à 10%, 20% et 30% du chemin à travers la pandémie (fraction de surface). Vous pouvez voir que les modèles fluctuent énormément lorsque nous n'avons que des données loin à gauche du pic central, à une fraction de petite zone.

Variation des paramètres du modèle lors de l'ajustement à différentes fractions de surface

En fait, la variance du modèle gaussien σ paramètre, estimé à différents moments «dans l'événement» (représenté par le fraction de surface sous la courbe à ce point), explose alors que nous nous déplaçons plus tôt vers la gauche.

Ainsi, nous ne pouvons pas vraiment utiliser cette simple approximation comme modèle prédictif, au moins jusqu'à ce que nous soyons bien au courant, avec peut-être 30% du total des infections déjà connues. Et encore une fois, nous ne vraiment savoir quand c'est jusqu'à après.

Par exemple, le courant fraction de surface l'estimation des données américaines est de ∼15%. Cela signifie qu'il y a beaucoup de variance dans les modèles possibles que nous obtenons en utilisant les données à ce jour (24 mars 2020). Voici quelques exemples, y compris le «meilleur» ajustement: N= 21178, μ= 91 (31 mars!), Et σ= 6, tel que renvoyé par le curve_fit () une fonction. Cela semble ridiculement optimiste, malgré les appels de divers dirigeants à se «remettre au travail». Mais d'autres paramètres du modèle qui correspondent aussi bien aux données américaines en ce moment (jour 85) ne sont pas aussi encourageants et ressemblent à ceci.

Quelques modèles gaussiens possibles du taux d'infection, correspondant aux données américaines actuelles (24 mars 2020). À cette fraction de surface (15%), la variance des modèles possibles est très grande.

L'examen du côté à long terme de ces modèles montre à quel point nous en savons vraiment peu à ce stade. Notez que même le "fraction de surface " estimation (15% pour les États-Unis) a une très grande erreur de modélisation, comme on peut le voir ci-dessous. Alors que nous semblons être à 15% du chemin à travers le modèle optimiste (bleu), nous sommes à moins de 1% du chemin à travers les autres modèles «raisonnables» (rouge, vert et orange). Il est trop tôt pour le dire.

Vue à plus long terme des modèles possibles utilisant les données américaines actuelles (24 mars 2020).

Toujours ceci dos de l'enveloppe le modèle est instructif pour jouer avec. C'est très simple, et chaque semaine, plus de données arrivent, nous faisant avancer le long de la courbe afin que le modèle gaussien ait un peu plus de pouvoir prédictif. Il est intéressant de voir que l’Iran et l’Italie semblent être proches ou proches du sommet.

Le modèle souligne également à quel point les prévisions non sophistiquées sont mauvaises à ce stade de l'épidémie, et semble montrer que nous pouvons avoir un chemin à parcourir avant d'arriver à quelque chose comme une fraction confortable de 90% de la zone. Notez que la Corée du Sud a un 111% fraction de surface et leurs infections sont encore ne s’éteint pas, alors ne le confondez pas avec une véritable modélisation épidémiologique.

Ce sont juste les réflexions de quelqu'un qui a facilement accès aux données, tout à coup beaucoup de temps à la maison et une pile d'enveloppes qui s'empilent.

Afficher plus

SupportIvy

SupportIvy.com : Un lieu pour partager le savoir et mieux comprendre le monde. Meilleure plate-forme de support gratuit pour vous, Documentation &Tutoriels par les experts.

Articles similaires

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Bouton retour en haut de la page
Fermer