Interface R vers le concentrateur de données COVID-19

Table des matières

Construit avec R, disponible dans toutes les langues, Concentrateur de données COVID-19 fournit un ensemble de données mondial, fin et unifié, utile pour une meilleure compréhension de COVID-19. L’utilisateur peut télécharger instantanément des données quotidiennes mises à jour, structurées et historiques sur plusieurs sources officielles. Les données sont croisées toutes les heures et mises à disposition au format csv stockage en ligne, afin d’être facilement accessible depuis Excel, R, Python… et tout autre logiciel. Toutes les sources sont correctement documentées, ainsi que leur citation.

Dans ce didacticiel, nous explorons la Package R COVID19: Interface R vers le hub de données COVID-19.

Démarrage rapide

Les données

Les données sont récupérées avec le covid19 une fonction. Par défaut, il télécharge les données mondiales par pays et imprime les sources de données correspondantes.

Pour masquer les sources de données, utilisez verbose = FALSE

Un tableau avec plusieurs colonnes est renvoyé: nombre cumulé de cas confirmés, tests, récupérés, décès, nombre quotidien de traitements intensifs hospitalisés, patients nécessitant une ventilation, mesures politiques, informations géographiques, population et identifiants externes pour étendre facilement l’ensemble de données avec des informations supplémentaires. sources. Se référer au Documentation pour plus de détails.

Nettoyer les données

Par défaut, les données brutes sont nettoyées en remplissant les dates manquantes avec NA valeurs. Cela garantit que tous les sites partagent la même grille de dates et qu’aucun jour n’est ignoré. Alors, NA les valeurs sont remplacées par les précédentes nonNA valeur ou 0.

Exemple: tracé des cas confirmés par pays.

Exemple: tracé des cas confirmés par pays en tant que fraction de la population totale.

Données brutes

Il n’est pas toujours recommandé de remplir les données avec les données non manquantes précédentes, en particulier lors du calcul de ratios ou lors d’analyses plus sophistiquées autres que la visualisation de données. le raw L’argument permet d’ignorer le nettoyage des données et de récupérer les données brutes telles quelles, sans aucun prétraitement.

Le package repose sur des données accessibles au public provenant de plusieurs sources qui ne sont pas toujours d’accord, par exemple nombre de cas confirmés supérieur au nombre de tests, diminution du nombre cumulé, etc. Concentrateur de données COVID-19 peut détecter les désalignements entre les sources de données et informer automatiquement les autorités des éventuelles erreurs. Tous les journaux sont disponibles ici.

Exemple: tracé des cas confirmés par pays en tant que fraction des tests.

Exemple: taux de mortalité des parcelles par pays.

Données vintage

Récupérez l’instantané de l’ensemble de données qui a été généré à la end date au lieu d’utiliser la dernière version. Cette option garantit la reproductibilité des résultats et assure le suivi des éventuelles modifications apportées par les fournisseurs de données. Exemple: récupérer des données vintage le 2020-06-02.

Exemple: comparer avec les dernières données pour le Royaume-Uni.

Zones administratives

L’argument country spécifie un vecteur de noms de pays insensibles à la casse ou Codes ISO (alpha-2, alpha-3, numérique) à récupérer.

Exemple: tracer le taux de mortalité.

Les données sont disponibles à différents niveaux de granularité: zone d’administration niveau 1 (zone administrative de niveau supérieur, généralement les pays), zone d’administration niveau 2 (généralement les États, régions, cantons), zone d’administration niveau 3 (généralement les villes, les municipalités). La granularité des données est spécifiée par l’argument level. Exemple: récupérer des données pour les régions italiennes et tracer le taux de mortalité.

Le package permet une comparaison entre pays. Exemple: taux de mortalité des parcelles pour les régions italiennes et les cantons suisses. Selon le pays, les données au niveau de la ville (niveau 3) sont également prises en charge.

Mesures politiques

Les politiques au niveau national sont obtenues par Suivi des réponses du gouvernement Oxford Covid-19. Les politiques pour les zones d’administration niveau 2 et 3 sont héritées des politiques au niveau national. Voir le Documentation pour plus de détails.

Exemple: chargez les données américaines, détectez les changements dans la politique de test et tracez-les avec le taux de mortalité.

Données ouvertes de la Banque mondiale

L’ensemble de données peut être étendu avec Données ouvertes de la Banque mondiale via l’argument wb, vecteur de caractères de codes indicateurs. Les codes peuvent être trouvés en inspectant l’URL correspondante. Par exemple, le code de l’indicateur de PIB disponible ici est NY.GDP.MKTP.CD.

Exemple: étendre l’ensemble de données avec les indicateurs de la Banque mondiale NY.GDP.MKTP.CD (PIB) et SH.MED.BEDS.ZS (lits d’hôpital pour 1 000 personnes).

Exemple: tracer le taux de mortalité en fonction du nombre de lits d’hôpital.

Rapports sur la mobilité Google

L’ensemble de données peut être étendu avec Rapports sur la mobilité Google via l’argument gmr, l’URL du fichier Google CSV.

Exemple: détecter les changements dans la politique italienne des transports et les représenter avec le taux de mortalité, le pourcentage de cas confirmés et les indicateurs de mobilité de Google. Selon le pays, les données de mobilité régionales ou au niveau de la ville sont également prises en charge.

Rapports sur la mobilité Apple

L’ensemble de données peut être étendu avec Rapports sur la mobilité Apple via l’argument amr, l’URL du fichier CSV Apple. Selon le pays, les données de mobilité régionales ou au niveau de la ville sont également prises en charge.

Exemple: détecter les changements dans la politique de transport italienne et les représenter avec le taux de mortalité, le pourcentage de cas confirmés et les indicateurs de mobilité Apple.

Analyse à grande échelle

La structure de l’ensemble de données facilite la réplication de l’analyse pour plusieurs pays, états et villes en utilisant le dplyr paquet.

Chargez les données.

Définir la fonction à appliquer à chaque groupe (par exemple pays), doit renvoyer un bloc de données. Par exemple, la fonction pourrait calculer le (R_0 ) pour chaque pays ou région. Par souci de simplicité, l’exemple suivant se limite à extraire le dernier nombre de décès pour chaque groupe.

Définissez les groupes, appliquez la fonction à chaque groupe et liez les résultats.

Imprimez les premières lignes.

Applications brillantes

le covid19 utilise un système de mise en cache de mémoire interne afin que les données ne soient jamais téléchargées deux fois. Ceci est particulièrement adapté aux frameworks interactifs, tels que Shiny. Voir Comment créer des applications brillantes basées sur les données COVID-19 en 5 minutes.

Interface R vers le concentrateur de données COVID-19