Normalisation – Vitrine – Programmation
SCIENCE DES DONNÉES – COVID-19 – VISUALISATION – PROGRAMMATION
Combien de personnes infectées vivent encore dans notre environnement proche, dans notre pays et dans les pays voisins?
Note des éditeurs: Vers la science des données est une publication Medium basée principalement sur l’étude de la science des données et de l’apprentissage automatique. Nous ne sommes pas des professionnels de la santé ou des épidémiologistes, et les opinions de cet article ne doivent pas être interprétées comme des conseils professionnels. Pour en savoir plus sur la pandémie de coronavirus, vous pouvez cliquer sur ici.
La pandémie COVID-19 ressemble à une guerre mondiale, s’étendant à 213 pays et régions du monde [worldometer.info], apportant au monde des morts, des maladies, la peur, la tristesse, les catastrophes et le chaos. Un immense volume de données COVID-19 nous parvient quotidiennement sous forme de messages provenant du front de la bataille avec notre ennemi invisible, le virus SARS-CoV-2. A partir de ce volume de données, je me suis posé une question:
« Combien de personnes infectées vivent encore dans notre environnement proche, dans notre pays et dans les pays voisins? »
Le nombre de patients actuellement infectés est important; il est utile pour notre vie, notre planification, notre travail et notre prévention. À partir de cette motivation, j’étends mon intérêt de recherche depuis la visualisation des données et l’estimation des cas d’infection non découverts jusqu’à la comparaison des cas d’infection active de différents endroits.
Dans cet article, je souhaite partager avec vous ma méthode «Normalisation des cas actifs cumulés» pour l’analyse des données multi-pays.
À cause de mon ressource de données, qui fournit des données de nombreux pays, je pourrais travailler à un «haut niveau»: comparer les données des pays du monde. Cependant, vous pouvez également utiliser mes méthodes et mon progiciel open-source en Python pour analyser les données des autres emplacements géographiques.
J’ai présenté ici quelques vitrines pour démontrer ma méthode de développement. Ce ne sont pas des rapports professionnels (comme OMS, CDC, RKI), mais il pourrait être utile de nous aider à comprendre ce qui se passe avec la pandémie de COVID-19, au-delà de l’immense volume de données.
Avant de développer la comparaison des données, je voudrais présenter les différents types de données COVID-19. Elles sont:
- Le nombre de cas d’infection confirmés quotidiennement, les «nouveaux cas».
- Le nombre de patients actuellement infectés, les «cas actifs» (art.ici)
- Le nombre de cas actifs estimés, qui incluent les cas non découverts, pourrait être estimé à partir de mon algorithme Vuong ou autre.
- Le nombre de patients récupérés / libérés.
- Les cas de décès.
- etc.
Ces données seront visualisées sous forme de graphique de:
Numéros quotidiens
Nombres accumulés
Numéros quotidiens y
{y[x] / x = x0, x1,…, xn,… xN; xn est la date-heure}
Nombres cumulés s[k], est la somme de k nombres de y {x].
Tableau 1 montre un exemple avec y[x], le nombre de nouveaux cas quotidiens et son nombre cumulé
Les nombres actifs accumulés sont le nombre de patients actuellement infectés, informations importantes à utiliser pour notre planification, notre travail et la prévention des infections.
Ces nombres sont très difficiles à trouver car ils dépendent de nombreux paramètres: les nombres infectés, qui sont difficiles à détecter exactement à cause du problème des patients asymptomatiques, les cas récupérés et les cas de décès, qui sont également difficiles à trouver exactement. Mais nous pourrions obtenir le nombre de cas actifs accumulés de plusieurs manières:
- Les chiffres ont été recueillis directement à partir des rapports des institutions professionnelles, e, g, centres de test, centres de soins de santé, CDC
- Les chiffres pourraient être estimés indirectement à partir des cas d’infection en utilisant le modèle SIR (e, g, Brian Collins, Modélisation dynamique de Covid-19), ou en utilisant mon simulateur avec l’algorithme Vuong pour estimer les cas infectés à partir du nombre de nouveaux cas et de décès confirmés quotidiennement.
Examinons le tableau de la Fig.1!
Il montre les graphiques des cas cumulés actifs de différents pays. Si vous voulez les comparer ensemble, il y a les problèmes suivants:
- Il semblerait que vous compariez un éléphant (les chiffres du monde) avec un ours (les chiffres des États-Unis) ou un lapin (les chiffres de l’Allemagne). C’est le principal problème de la comparaison.
- L’amplitude du signal est inconnue. Le nombre cumulé de cas d’infection augmentait à 1 million le 04–02–2020, 2 millions le 04–15–2020, 4 millions le 05–09–2020 et 8 millions le 06–15–2020!
- La production de cas infectieux est un système non linéaire.
- La transmission de COVID-Infection est différente pour chaque comté.
Par conséquent, je propose une méthode pour l’analyse des données Corvid: Normalisation des données des cas actifs accumulés.
Le concept comprend les étapes suivantes:
Étape 1:
La série de données doit être dans la même période pour chaque pays, par ex. du janv.2020 au 30 juin 2020.
Étape 2 :
Pour chaque pays, nous faisons:
– Nous stockons les champs de données accumulés s[].
– Nous recherchons le maximum local A de s[k]
A = max (s[k], k = 0,… N), N = nombre d’éléments du champ s[k], plage (s[])
– Ensuite, nous calculons les données normalisées brutes
sn[k] = s[k] /UNE
– On pourrait utiliser le calcul brut sn[k], mais je voudrais proposer d’utiliser le calcul du pourcentage sp {n], ce qui est plus facile à comprendre.
sp[n] = 100 * s[k] /UNE
Tableau 2 est un exemple qui montre le calcul de la normalisation de S[k] de deux pays, ce qui permet au maximum de s[k] du pays A est 10, et du pays B, 500.
Pour faciliter la communication, je voudrais appeler
« Le graphique des données normalisées des cas actifs » à « les cas actifs normalisés« ,
« Le graphique des données normalisées des cas actifs estimés avec l’algorithme Vuong » à « les cas V-actifs normalisés« ,
Pour interpréter les graphiques de données normalisées, j’ai généré deux vitrines avec le VuongSimulator en utilisant le mode multi-pays (art. Commande VuongSimulator).
- Vitrine 1: Les cas actifs normalisés d’un pays
- Vitrine 2: Les cas actifs normalisés provenant de plusieurs pays: Allemagne, Italie, Suède, États-Unis et dans le monde.
Vous pouvez lire dans la vitrine 1 «Les cas V-actifs normalisés d’un pays» les informations suivantes (voir Fig. 2):
- Le pourcentage de dossiers actifs par rapport à son maximum à la date du 1er avril,
- le date du foyer d’infection dans un pays est la date-heure, où les graphiques ont atteint son maximum de 100% (voir Fig.2)
- À la dernière date-heure, vous pouviez lire le pourcentage de patients actuellement infectés, qui existait toujours dans le pays, 14%.
Vous pouvez obtenir de la vitrine 2 (Fig.3) les informations suivantes:
- Les cas actifs de différents pays sont désormais normalisés. Chaque graphique a le même maximum à 100%.
- Le pourcentage de cas actifs de chaque pays est contre son maximum de 100%.
- Nous pourrions comparer à tout moment le «statut» de chaque pays par rapport aux autres, bien sûr uniquement en pourcentage.
- Nous avons pu explorer la date de sortie de chaque pays, où les graphiques ont atteint un maximum de 100%.
- Nous pourrions trouver la tendance vers la réduction, 14% par l’Allemagne et 34% par l’Italie. Les pourcentages sont plus faciles à comprendre comme des valeurs absolues.
- Nous pourrions trouver la tendance Etre prêt, dans un plateau, 74% par les USA.
- Nous pourrions trouver le début de l’évasion par la Suède parce que les graphiques ont atteint leur maximum de 100% à la dernière date-heure.
- Nous voyons que le graphique mondial avait un maximum local à la mi-avril, et le graphique augmente vers le haut et a atteint 100% à la dernière date du graphique. On pourrait s’attendre au prochain maximum, une deuxième vague A l’avenir.
En utilisant Vuong-Simulator, vous pouvez comparer les données de différents pays en fonction de votre liste de pays souhaités; il y a 212 pays infectés à comparer! (s. «Installation et démarrage» dans ce document).
J’ai mis en œuvre la normalisation des cas actifs cumulés de plusieurs pays dans le covid19-VuongSimulator.py. Le simulateur n’a que des lignes de commande pour réduire les dialogues. Les paramètres de commande sont décrits dans le wiki du projet.
Le VuongSimulator a besoin d’une liste de pays pour générer des graphiques de sortie avec des multigraphes. Cette liste est le fichier CSV ./data/vmodel_testlist.csv
Paramètres par défaut:
Pour effectuer l’analyse des données d’autres pays, vous devez modifier la liste des pays avec un éditeur de texte normal
Le VuongSimulator a été décrit en détail dans mes articles [1, 2] et le wiki du projet tavuong / covid19-datakit, je voudrais donc écrire ici une brève installation et un démarrage rapide pour faire de la vitrine comme je l’ai fait, ce qui pourrait vous motiver.
Pour un démarrage rapide après l’installation, vous pouvez utiliser cette commande suivante. On lui montrera une vitrine avec des cas actifs cumulés normalisés provenant de plusieurs pays (Fig 4). Pour créer l’autre vitrine, vous modifiez la liste des pays et redémarrez la commande. Les fichiers CSV (. Data new_cases et. Data new_deaths.csv) sont dans le dossier .Les données, téléchargé à partir de sources ouvertes (ici).
Selon le développement de l’algorithme Vuong pour l’analyse et l’estimation des données COVID-19, j’ai écrit mon progiciel avec des fonctions news pour le multi-pays, donc une méthode pour Normalisation des données des cas d’infection active accumulés a été développé, on pourrait comparer les données de différents endroits et estimer la propagation géographique du virus. Ce serait formidable si la méthode que je proposais pouvait susciter l’intérêt des utilisateurs dans différentes professions ou même par des institutions professionnelles.
N’hésitez pas à me contacter pour consulter les développements en cours et peut-être pour apporter vos modules à mon projet sous licence open-source et MIT tavuong / covid19-datakit sur Github.
S’amuser!
Remerciements pour examen: Prof. Dr. Kien Pham
Remerciements pour le soutien et la motivation du gâteau au café: ma femme Thi Chung Vuong