Astronomie

Redshift photométrique - méthodes empiriques (machine learning)

Redshift photométrique - méthodes empiriques (machine learning)


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

J'apprends actuellement l'estimation des redshifts photométriques avec des méthodes d'apprentissage automatique (ou des méthodes empiriques en général). Ces méthodes utilisent les connaissances sur la photométrie et le redshift spectroscopique de nombreuses galaxies afin d'inférer une cartographie entre la photométrie et le redshift. Ensuite, sur la base de cette cartographie, des décalages vers le rouge peuvent être estimés pour la photométrie d'autres galaxies.

J'ai lu que pour les méthodes empiriques, il est crucial que les données d'entraînement (c'est-à-dire les données à partir desquelles le mappage de la photométrie au décalage vers le rouge est déduit) représentent les galaxies pour lesquelles des décalages vers le rouge estimés sont souhaités à l'avenir. Je comprends que c'est crucial, mais dans quel sens les données d'entraînement représentent-elles une certaine distribution et dans quel sens les autres galaxies sont-elles représentées ou non par ces données d'entraînement ? Comment savoir si une galaxie est bien représentée par les données d'entraînement afin que je puisse estimer un décalage vers le rouge pour la galaxie ?

La galaxie devrait-elle provenir de la même région ? Doit-il avoir la même masse ? Quels sont les facteurs à prendre en compte si je veux savoir si une galaxie est de la même distribution/est bien représentée par les données d'entraînement ?


C'était trop long pour un commentaire, mais ce n'est pas une vraie réponse car je n'en suis pas tout à fait sûr, mais :


Je suppose que "représenter les galaxies" fait référence au "type" de galaxie que vous avez l'intention d'observer, où par "type" je veux dire par exemple. Galaxies de rupture de Lyman (Steidel et al. 1996), Lyman $alpha$ émetteurs (Partridge & Peebles 1967), galaxies submillimétriques (Blain et al. 2002), (U)LIRGS, etc.

Ces termes font tous référence à des méthodes de sélection (c'est-à-dire des techniques d'observation), et donc également à des différences physiques. Plus les données d'apprentissage sont proches de l'échantillon observé, meilleur sera votre algorithme pour lier leurs décalages vers le rouge à leurs propriétés photométriques.

La masse n'est qu'une propriété, il y a aussi par ex. poussière, éclat d'étoiles, population stellaire, âge et autres. "Région" est probablement moins importante, mais comme le regroupement des galaxies affecte également leurs propriétés (par exemple leur morphologie, Dressler 1980), cela pourrait potentiellement influencer le résultat.


Déterminer le décalage vers le rouge photométrique signifie regarder la lumière de la galaxie à travers un nombre limité de filtres de couleur (ou bandes) et déduire le décalage vers le rouge à partir de ces données. Par exemple, la lumière provenant de la galaxie peut être mesurée dans la bande de lumière visible, la bande infrarouge,… Cela constitue la photométrie. Ensuite, le décalage vers le rouge est déterminé soit en ajustant un modèle physique à la lumière dans chaque bande, soit en utilisant l'apprentissage automatique.

Avec l'apprentissage automatique, les caractéristiques d'entraînement consistent en la quantité de lumière dans chaque bande disponible et les étiquettes d'entraînement sont le décalage vers le rouge spectroscopique. Si les données d'apprentissage sont représentatives des données réelles, cela signifie que pour chaque échantillon des données réelles, il existe des galaxies dans les données d'apprentissage qui ont des quantités de lumière similaires à travers les différentes bandes.

Bref, pour savoir si les données sont représentatives, il faut regarder où elles se trouvent dans l'espace des caractéristiques.


La galaxie devrait-elle provenir de la même région ?

D'un point de vue mathématique, oui, cela doit être dans une région de la espace de fonction où il y a plusieurs échantillons d'apprentissage. Cependant, cela ne veut pas dire qu'il se trouve dans la même région du ciel ! Bien au contraire, il n'y a aucune raison de croire que les galaxies proches dans le plan du ciel auront des courbes lumineuses similaires.


Doit-il avoir la même masse ?

Il existe une corrélation entre la masse et le type de galaxie. Et il existe une forte corrélation entre le type de galaxie et la lumière émise. Donc, regarder la masse pour savoir que l'ensemble de données est représentatif ne devrait pas être terrible, mais ne remplace toujours pas le simple fait de regarder les données photométriques.


Redshifts photométriques interprétables basés sur les données formés sur des données hétérogènes et non représentatives

Nous présentons une nouvelle méthode pour déduire les décalages vers le rouge photométriques dans les levés des galaxies profondes et des quasars, basée sur un modèle basé sur les données des distributions d'énergie spectrale latente (SED) et un modèle physique des flux photométriques en fonction du décalage vers le rouge. Cette approche conceptuelle nouvelle combine les avantages des méthodes d'apprentissage automatique et des méthodes d'ajustement de modèles en créant des modèles SED directement à partir des données d'apprentissage spectroscopiques. Ceci est rendu calculable avec des processus gaussiens opérant dans l'espace flux-décalage vers le rouge, codant la physique des décalages vers le rouge et la projection des SED des galaxies sur les bandes passantes photométriques. Cette méthode atténue le besoin d'acquérir des données d'apprentissage représentatives ou de construire des modèles SED de galaxies détaillés, il suffit que les bandes passantes photométriques et les étalonnages soient connus ou qu'ils aient des inconnues paramétrées. Les données d'apprentissage peuvent consister en une combinaison de données photométriques spectroscopiques et profondes à plusieurs bandes avec des décalages vers le rouge fiables, qui n'ont pas besoin de se chevaucher entièrement dans l'espace avec le levé cible d'intérêt ou même d'impliquer les mêmes bandes photométriques. Nous présentons la méthode sur les galaxies sélectionnées en magnitude i et confirmées par spectroscopie dans le champ COSMOS. Le modèle est entraîné sur les bandes les plus profondes (de SUBARU et HST) et les décalages vers le rouge photométriques sont dérivés en utilisant uniquement les bandes optiques SDSS moins profondes. Nous démontrons que nous obtenons des estimations de points de redshift et des distributions de probabilité précises malgré les ensembles d'entraînement et de cibles ayant des distributions de redshift, des propriétés de bruit et même des bandes photométriques très différentes. Notre modèle peut également être utilisé pour prédire des flux photométriques manquants ou pour simuler des populations de galaxies avec des flux et redshifts réalistes, par exemple.


Présentation des méthodes

La méthode d'estimation est la même que celle utilisée dans Data Release 10 suivant le nom utilisé dans Csabai et al. (2007), nous l'appelons un ajustement du voisin le plus proche (KF) de l'arbre kd. Les estimations KF sont stockées dans la table Photoz.

La méthode est empirique dans le sens où elle utilise un ensemble d'apprentissage comme référence, puis applique une technique d'apprentissage automatique pour estimer les redshifts. L'ensemble d'apprentissage contient des observations photométriques et spectroscopiques pour les galaxies. Nous avons choisi cette approche – par opposition aux méthodes d'ajustement de modèle – en raison des techniques d'apprentissage automatique’ une précision globale plus élevée. La deuxième méthode d'estimation a été abandonnée car nous avons constaté que le principal facteur limitant de la précision des résultats est la composition et les erreurs photométriques de l'ensemble d'apprentissage, et non le choix de la technique d'apprentissage automatique.

Pour déduire les valeurs des paramètres physiques des galaxies, tels que les k-corrections, le type spectral et les couleurs des cadres de repos, nous étendons la méthode KF avec une méthode conservatrice d'ajustement de modèle. Nous avons déterminé le modèle le mieux adapté via un ajustement chi carré minimum aux magnitudes photométriques, en utilisant l'atlas de modèles spectraux composites de Dobos et al. (2012). Les erreurs photométriques ont été calculées en utilisant les prescriptions de Scranton et al. (2005).

La méthode précédente utilisée dans Data Release 10 a calculé une combinaison linéaire non négative (NNLS) de modèles de modèles spectraux. Bien que cette méthode soit plus sophistiquée, elle est sujette au surajustement et elle permet également des solutions spectrales non physiques, ce qui est particulièrement problématique dans les cas où les erreurs photométriques sont sous-estimées. La méthode actuelle est limitée par le nombre et la couverture des modèles utilisés, mais elle évite les problèmes susmentionnés.


Apprentissage automatique en astronomie

Avec le développement et l'application de télescopes spatiaux et terrestres, les données astronomiques connaissent une croissance rapide en taille et en complexité. Ils se caractérisent par le grand volume, la haute dimensionnalité, les longueurs d'onde multiples, la valeur par défaut, les séries temporelles, la vitesse élevée, les différents sites, etc. Astronomie.

Avec le développement et l'application de télescopes spatiaux et terrestres, les données astronomiques connaissent une croissance rapide en taille et en complexité. Ils se caractérisent par le grand volume, la haute dimensionnalité, les longueurs d'onde multiples, la valeur par défaut, les séries temporelles, la vitesse élevée, les différents sites, etc. L'astronomie entre dans l'ère du Big Data. Comment collecter, sauvegarder, transférer, gérer, extraire, analyser des données aussi énormes mesurées par TB, PB, encore plus grand est un problème brûlant, qui dépend des technologies nouvellement développées (bases de données, stockage en nuage, calcul en nuage, calcul haute performance, apprentissage automatique, apprentissage profond, intelligence artificielle, etc.). Comment extraire des informations et des connaissances utiles du Big Data est un grand défi. Dans ces situations, de nouvelles disciplines de l'astrostatistique et de l'astroinformatique semblent résoudre les problèmes liés aux mégadonnées. Les astronomes ne cessent de développer des outils automatisés et efficaces pour répondre aux exigences du Big Data. Ces dernières années, l'apprentissage automatique est devenu populaire parmi les astronomes et est maintenant utilisé pour résoudre diverses tâches, par exemple, la classification, la régression, le regroupement, la détection de valeurs aberrantes, l'analyse de séries chronologiques, la règle d'association, etc.

L'un des objectifs de ce thème de recherche est de discuter des développements récents de l'astrostatistique. Nous visons également à examiner de manière critique les avancées de la recherche les plus prometteuses dans les technologies d'apprentissage automatique, qui peuvent avoir un impact significatif sur la production scientifique des futurs projets au sol et dans l'espace.

Ce sujet de recherche invite à la fois des articles de synthèse et des articles de recherche originaux qui abordent différents aspects de l'apprentissage automatique en astronomie, tels que :
• Intégration de données à partir de différentes bases de données
• Apprentissage automatique
• L'apprentissage en profondeur
• Algorithmes
• Classification et régression.

Mots clés: Machine learning, Deep learning, Redshift photométrique, Classification, Régression, Data mining, Big Data

Note importante: Toutes les contributions à ce sujet de recherche doivent être dans le cadre de la section et de la revue auxquelles elles sont soumises, telles que définies dans leurs déclarations de mission. Frontiers se réserve le droit de guider un manuscrit hors champ vers une section ou une revue plus appropriée à n'importe quel stade de l'examen par les pairs.


Affiliations

Max-Planck-Institut für extraterrestrische Physik, Garching, Allemagne

Laboratoire d'Astrophysique de Marseille, Marseille, France

Université Sternwarte, Munich, Allemagne

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Contributions

Les auteurs ont contribué à part égale à la rédaction de cet article de synthèse.

Auteurs correspondants


Les solutions de réseau neuronal pour les redshifts photométriques et leurs erreurs (répertoriées comme Photoz2 dans le CAS, et décrit dans Oyaizu et al. 2008) n'ont pas changé depuis DR6, et n'utilisent pas les magnitudes ubercalibrées. Cependant, nous fournissons maintenant un catalogue à valeur ajoutée contenant la distribution de probabilité de décalage vers le rouge pour chaque galaxie, p(z), calculée à l'aide de la méthode des poids présentée dans Cunha et al. (2008). Le p(z) pour chaque galaxie du catalogue est la distribution pondérée des décalages vers le rouge spectroscopiques des 100 galaxies de l'ensemble d'entraînement les plus proches dans l'espace des couleurs du modèle décolorées et de la magnitude r. Pour le calcul p(z), nous avons également ajouté les galaxies zCOSMOS (Lilly et al. 2007) et DEEP2-EGS (Davis et al. 2007) à l'ensemble d'apprentissage spectroscopique utilisé pour le Photoz2 solution.

Cunha et al. (2008) ont montré que la somme des p(z) pour un échantillon de galaxies donne une meilleure estimation de leur vraie distribution de redshift que celle des redshifts photométriques individuels. Mandelbaum et al. (2008) ont constaté que cela donne un biais d'étalonnage des lentilles photométriques significativement plus faible que l'utilisation d'une seule estimation du décalage vers le rouge pour chaque galaxie.


Abstrait

Nous démontrons que la conception du système de filtre Sloan Digital Sky Survey (SDSS) et la qualité des données d'imagerie SDSS sont suffisantes pour déterminer les redshifts photométriques exacts et précis des quasars. En utilisant un échantillon de 2625 quasars, nous montrons que la détermination "photo-z" est même possible pour z 2,2 malgré l'absence d'une forte rupture du continuum, ce que nécessitent normalement des techniques photo-z robustes. Nous constatons qu'en utilisant notre méthode empirique sur notre échantillon d'objets connus pour être des quasars, environ 70 % des redshifts photométriques sont corrects à z = 0,2 près la fraction de redshifts photométriques corrects est encore meilleure pour z > 3. La précision du quasar les décalages photométriques vers le rouge ne semblent pas dépendre de la magnitude jusqu'à près de la 21e magnitude dans i′. Un étalonnage minutieux de la relation couleur-décalage vers le rouge à la 21e magnitude peut permettre la découverte de ∼10 6 candidats quasars en plus des 10 5 quasars que le SDSS confirmera par spectroscopie. Nous discutons de la sélection efficace des candidats quasars à partir des données d'imagerie pour une utilisation avec la technique de décalage vers le rouge photométrique et des utilisations scientifiques potentielles d'un large échantillon de candidats quasars avec des décalages vers le rouge photométriques.


Redshift photométrique

On m'a demandé si je pouvais obtenir le décalage vers le rouge des objets à partir du rapport entre leur magnitude dans différentes bandes. Je ne pensais pas que c'était aussi simple, car il existe différentes méthodes pour calculer les redshifts photométriques, comme l'apprentissage automatique, etc. Mais j'ai réalisé que je ne savais pas vraiment comment c'était fait, alors j'ai dit que je n'étais pas sûr.

Pardonnez mon manque de cerveau, mais je suis ici pour me baigner à nouveau dans la connaissance de personnes plus grandes.

C'est possible? Je ne parle même pas de filtres à bande étroite, juste des ugriz sdss réguliers.

Oui, c'est parfaitement possible même avec des filtres SDSS, c'est même possible avec seulement deux filtres, mais plus de filtres signifie de meilleurs résultats. Les décalages vers le rouge photométriques (photo-z) sont extrêmement importants car tout ne nécessite pas la précision d'un décalage vers le rouge spectroscopique et pour de nombreux objets, la spectroscopie ne sera pas disponible et peut même ne pas être possible.

Il existe deux types principaux, les modèles spectraux et les méthodes d'entraînement (que vous avez mentionnées). L'idée de base derrière les deux est qu'avec les photo-z, vous ne mesurez pas les raies d'émission et d'absorption comme cela serait fait pour mesurer un décalage vers le rouge spectroscopique, ce qui est mesuré, ce sont des caractéristiques spectrales plus larges. Par exemple, la plupart des galaxies ont une coupure à 400 nanomètres, si vous avez deux filtres qui mesurent au-dessus et en dessous de la coupure, vous pouvez estimer à quelle longueur d'onde se situe la coupure. Voir cette figure ici montrant le spectre du modèle d'une galaxie qui subit un décalage vers le rouge. Les fonctions de réponse des différents filtres de DES (comme SDSS mais pas de bande u) sont superposées. Vous pouvez voir la galaxie s'affaiblir à mesure que le décalage vers le rouge augmente, mais aussi les différences entre les magnitudes dans les différentes bandes changent. Les deux techniques ont des manières différentes de convertir ces grandeurs et différences en un décalage vers le rouge photométrique. Le facteur de complication est que contrairement à cette figure, toutes les galaxies ne se ressemblent pas, elles varient en luminosité et en forme spectrale.

La première méthode que j'ai mentionnée consiste à ajuster des modèles spectraux. L'idée de base est que vous ayez un grand ensemble de spectres de galaxies modèles et que vous adaptiez à chaque galaxie le modèle et le décalage vers le rouge les mieux adaptés. La difficulté ici est si différente que vous devez être sûr que vos modèles représentent bien la population de la galaxie. Mais l'avantage est que vous pouvez calculer des spectres de modèles pour des galaxies que vous n'avez jamais détectées auparavant. La deuxième méthode conduit souvent à de meilleurs résultats, l'idée est que vous obteniez des redshifts spectroscopiques pour un sous-échantillon des galaxies et ensuite vous entraîniez un réseau neutre sur cet échantillon d'apprentissage pour prédire le redshift à partir des magnitudes, puis vous l'appliquez à tous les autres galaxies que vous avez sans décalages vers le rouge spectroscopiques. De plus, avec cette méthode, il est important que l'échantillon d'apprentissage soit impartial et couvre un large éventail de types de galaxies.

L'inconvénient des redshifts photométriques est que l'incertitude dans le redshift est beaucoup plus grande que pour un relevé spectroscopique, mais ils sont beaucoup plus faciles à obtenir. Typiquement, les données de type SDSS peuvent obtenir une précision d'environ 3%. En plus d'une faible précision, ils souffrent également de défaillances catastrophiques, c'est là que le photo-z est extrêmement faux. Des filtres plus étroits peuvent améliorer la précision, tout comme l'ajout de nombreux filtres supplémentaires échantillonnant différentes parties du spectre EM.


Un coup d'œil dans le futur

Au cours des prochaines années, des systèmes d'analyse d'images et d'apprentissage automatique capables de traiter des téraoctets de données en temps quasi réel avec une grande précision seront essentiels.

Il existe de grandes opportunités pour faire de nouvelles découvertes, même dans les bases de données disponibles depuis des décennies. Les volontaires de Galaxy Zoo l'ont démontré à plusieurs reprises en découvrant des structures dans des images SDSS qui ont ensuite été confirmées comme étant de nouveaux types d'objets. Ces volontaires ne sont pas des scientifiques formés, mais ils font de nouvelles découvertes scientifiques.

Même aujourd'hui, seule une fraction des images de SDSS a été inspectée par des humains. Sans aucun doute, les données réservent encore de nombreuses surprises, et les enquêtes à venir, telles que LSST, sont liées pour imager des objets jusque-là inconnus. Il ne sera pas possible d'inspecter manuellement toutes les images produites par ces enquêtes, ce qui rend l'analyse d'images avancée et les algorithmes d'apprentissage automatique d'une importance vitale.

On peut utiliser de tels systèmes pour répondre à des questions telles que le nombre de types de galaxies, ce qui distingue les différentes classes, si le schéma de classification actuel est assez bon et s'il existe des sous-classes importantes ou des classes non découvertes. Ces questions nécessitent des connaissances en science des données plutôt que des connaissances en astrophysique, mais les découvertes aideront toujours énormément l'astrophysique.

Dans cette nouvelle ère riche en données, l'astronomie et l'informatique peuvent grandement bénéficier l'une de l'autre. Il y a de nouveaux problèmes à aborder, de nouvelles découvertes à faire et surtout de nouvelles connaissances à acquérir dans les deux domaines.


Titre : Apprentissage automatique robuste appliqué aux ensembles de données astronomiques III : décalages vers le rouge photométriques probabilistes pour les galaxies et les quasars dans le SDSS et GALEX

19,2 mag, et sigma = 0,343 +/- 0,005 pour les quasars à i < 20,3 mag. Les PDF permettent la sélection de sous-ensembles avec des statistiques améliorées. Pour les quasars, l'amélioration est spectaculaire : pour ceux avec un seul pic dans leur distribution de probabilité, la dispersion est réduite de 0,343 à sigma = 0,117 +/- 0,010, et le redshift photométrique est à moins de 0,3 du redshift spectroscopique pour 99,3 +/- 0,1% des objets. Ainsi, pour cet échantillon de quasar optique, nous pouvons pratiquement éliminer les estimations de décalage vers le rouge photométriques « catastrophiques ». En plus de l'échantillon SDSS, nous intégrons la photométrie ultraviolette de la troisième version des données du sondage d'imagerie tout ciel Galaxy Evolution Explorer (GALEX AIS GR3) pour créer des fichiers PDF pour les objets vus dans les deux sondages. Pour les quasars, la couverture accrue de la trame UV observée du SED entraîne une amélioration significative par rapport à l'échantillon SDSS complet, avec sigma = 0,234 +/- 0,010. Nous démontrons que cette amélioration est réelle. [Abrégé]