Science spatiale avec Python – L’origine des comètes
Pouvons-nous «voir» certaines parties de la ceinture de Kuiper ou le nuage d’Oort postulé dans les données? Est-il possible de se faire une idée de la théorie d’Öpik et d’Oort? Voyons les éléments orbitaux purs des comètes observées réelles. La dernière fois, nous avons créé une base de données SQLite qui contient tous les points de données. En raison de sa petite taille, le base de données est téléchargé sur mon référentiel GitHub ainsi que les codes suivants.
Nous commençons par importer tous les modules nécessaires pour la leçon d’aujourd’hui. Cette fois, nous n’avons pas besoin PIMENTER respectivement SpiceyPy. sqlite3 est la seule bibliothèque standard; engourdi et pandas sont utilisés pour le traitement des données et matplotlib est nécessaire pour les routines de traçage. Une nouvelle bibliothèque est importée ultérieurement pour certains travaux d’analyse.
Une connexion à la base de données est établie en ligne 3 avec le sqlite3 relier commander. L’objet de connexion renvoyé est nécessaire pour extraire des données de la base de données; soit en utilisant le correspondant sqlite3 commandes ou en utilisant le pandas read_sql comme indiqué aux lignes 7 + 8 et 11 + 12, respectivement. Deux cadres de données différents sont créés: un pour toutes les comètes de type P, l’autre pour toutes les comètes de type C. Les étiquettes représentent un schéma de classification simple pour les comètes:
- Type P: Comètes dites périodiques avec une période d’orbite inférieure à 200 ans. (exemple: 67P/ Churyumov – Gerasimenko
- Type C: Comètes avec une période d’orbite de plus de 200 ans (exemple: C/ 1995 O1 (Hale-Bopp))
D’autres types sont Type X comètes (orbite inconnue), Un type comètes (un astéroïde qui a été classé par erreur comme une comète), Type D comètes (comètes perdues) et J’écris comètes (corps d’origine interstellaire).
Puisque nous voulons analyser la distribution spatiale des comètes, nous extrayons les données d’aphélie et d’inclinaison pour les types P (ligne 7 + 8) et les types C (ligne 11 + 12). Puisque l’excentricité des types C peut dépasser 1, nous extrayons également l’excentricité de ces comètes pour distinguer les orbites liées et non liées.
Pandas a des fonctions statistiques agréables et rapides qui peuvent être appliquées rapidement. L’un d’eux est décris. La fonction est appliquée sur une trame de données et renvoie certains paramètres descriptifs généraux comme la moyenne, l’écart type, la valeur minimale et maximale ainsi que la médiane (50%) et l’intervalle interquartile inférieur (25%) et supérieur (75%).
Nous imprimons les résultats pour les deux ensembles de données dans la partie suivante et distinguons les orbites de type C liées (ligne 8 + 9) et non liées (ligne 12 + 13):
Les résultats sont montrés plus bas. Nous avons 627 comètes périodiques. L’aphélie médian est à environ 5,9 UA (Jupiter orbite autour du Soleil à environ 5 UA) et 75% de ces comètes ont une inclinaison inférieure à 19 °. Ainsi, ils peuplent la partie intérieure du système solaire, près du plan écliptique. Cela ne confirme pas la théorie d’Öpik et d’Oort, n’est-ce pas?
Descriptive statistics of P comets
APHELION_AU INCLINATION_DEG
count 627.000000 627.000000
mean 7.793602 16.525725
std 6.567561 20.943154
min 2.440626 0.234800
25% 5.145018 7.088200
50% 5.929885 11.550400
75% 8.995666 18.868550
max 101.318552 172.527900
Jetons donc un œil aux comètes de type C. Nous avons 159 orbites liées et 67 orbites non liées. L’aphélie médian pour les orbites liées est à 450 UA et plus de 25% ont un aphélie supérieur à 2000 UA! Ce sont des orbites impressionnantes à long terme. Selon la base de données, un objet a un aphélie de plus de 200 000 AU (veuillez noter: la base de données ne contient pas d’erreurs de mesure, cette comète pourrait également être non liée!). Les inclinaisons sont réparties sur une plus grande plage, la médiane est à 72 ° et l’inclinaison médiane pour les comètes non liées est même à presque 100 °! Il semble que ces comètes aient des inclinations aléatoires.
Descriptive statistics of C comets with an eccentricity < 1
APHELION_AU INCLINATION_DEG ECCENTRICITY
count 159.000000 159.000000 159.000000
mean 4766.428836 76.079123 0.946816
std 20826.176153 44.847788 0.096976
min 15.260793 3.148100 0.428280
25% 60.233850 40.870450 0.939769
50% 450.794467 72.079400 0.991066
75% 2000.520291 105.572200 0.997811
max 226057.150184 164.245500 0.999979Descriptive statistics of C comets with an eccentricity >= 1
APHELION_AU INCLINATION_DEG ECCENTRICITY
count 0.0 67.000000 67.000000
mean NaN 96.280825 1.003104
std NaN 44.336388 0.006557
min NaN 11.333000 1.000000
25% NaN 56.890150 1.000482
50% NaN 99.442800 1.001626
75% NaN 128.486550 1.003426
max NaN 174.620300 1.049508
Une image vaut mieux que mille mots. Et cela vaut aussi pour la science! Générons donc des informations scientifiques en traçant les données obtenues. Tout d’abord, nous créons un nuage de points, où l’inclinaison est tracée par rapport à l’aphélie. Les marqueurs scatter ont différentes couleurs et formes pour distinguer les types P et C. Le code suivant génère un nuage de points qui est illustré ci-dessous. Le formatage des tracés et leur «publication» nécessitent du temps et des efforts, comme vous pouvez le voir dans les diverses commandes de mise en forme. Chaque commentaire décrit la nécessité de chaque ligne. Nous ne traçons que les comètes avec une orbite liée (excentricité e <1):
Remarque: l’axe des x (aphélie en AU) est tracé logarithmiquement. Notre première impression des statistiques descriptives semble être celle attendue. Les types P sont concentrés à moins de 10 UA et se déplacent sur des orbites proches du plan écliptique. Les types C, cependant, sont dispersés au hasard jusqu’à des orbites très rétrogrades. Ce que nous voyons sont des parties de la ceinture de Kuiper et des parties intérieures du nuage d’Oort, comme prévu.
Le nuage d’Oort a la forme d’une sphère qui reconstitue constamment le système solaire intérieur avec de nouvelles comètes. Ainsi, les valeurs d’inclinaison des types C doivent être également réparties. Un nuage de points est un outil utile pour obtenir une première impression, mais créons une visualisation de distribution qui peut être interprétée plus facilement.
Une approche courante pour visualiser les données est un histogramme, où les points de données discrets sont résumés dans différents bacs. La largeur du bac détermine la régularité de la distribution: une largeur de bac trop petite provoque un suréchantillonnage, une largeur de bac trop grande provoque et un sous-échantillonnage. Il existe de nombreuses règles ou règles de base pour déterminer la bonne largeur de bac, comme la règle de Sturge, la règle de Scott, la règle de Rice et bien d’autres. Pour la plage d’inclinaison complète (ligne 11), nous allons créer un histogramme basé sur le choix très simple de la racine carrée.
Il existe différentes façons de créer une distribution continue basée sur des données discrètes. Outre les histogrammes, on peut remplacer les points de données par une fonction dite de noyau (par exemple, gaussienne ou Epanechnikov). Les noyaux qui se chevauchent génèrent la distribution résultante (certains exemples sont fournis par scikit-learn). L’optimisation de la largeur du noyau a plusieurs implémentations et plusieurs articles ont étudié diverses méthodes. Par exemple. Shimazaki et Shinomoto (2010) ont développé un estimateur adaptatif de largeur de noyau qui calcule différentes largeurs pour différents noyaux, en fonction des variations de densité locales.
Dans notre cas, nous utilisons le scipy une fonction stats.gauss_kde cela s’applique La règle de Scott pour la détermination de la largeur du noyau. Les lignes 6 et 7 calculent un estimateur de densité de noyau (KDE) pour les types P et calculent la distribution de densité en fonction de la plage d’inclinaison. Les lignes 10 et 11 appliquent la même méthode pour les types C (en utilisant des orbites liées et non liées).
Maintenant, nous pouvons tracer l’histogramme et les KDE pour les deux types de comètes en utilisant les mêmes couleurs que précédemment. Les distributions sont normalisées pour une meilleure lisibilité (sinon les types P seraient mis à l’échelle avec plus de 600 et les types C avec seulement 200 comètes).
Le graphique montre les distributions en fonction de l’inclinaison. Vous pouvez voir que les types P se rapprochent du plan écliptique tandis que la distribution d’inclinaison des types C est distribuée presque également. De petites variations sont causées par des biais d’observation et également du fait que nous n’avons que 200 points de données pour les types C. Dans l’ensemble, on peut supposer que les grandes valeurs d’aphélie et les inclinaisons presque également réparties pour les types C indiquent qu’elles apparaissent dans n’importe quelle direction aléatoire comme postulé.