Nuestra Investigación: Representaciones latentes para transientes astronómicos usando redes neuronales artificiales

Por Pablo Huijse, investigador joven Instituto Milenio de Astrofísica

Las redes neuronales artificiales (ANN) son modelos inspirados en la biología que se desempeñan con éxito en tareas de reconocimiento de patrones tales como clasificación, regresión y clustering (agrupamiento). Las ANN se construyen conectando unidades simples llamadas “neuronas” siguiendo una arquitectura particular. Existen distintas arquitecturas específicas para resolver una gran variedad de problemas. Por ejemplo, la red neuronal convolucional, donde cada neurona realiza la operación de convolución, es el estado del arte en reconocimiento de imágenes. Cuando entrenamos una ANN lo que hacemos es ajustar sus parámetros a un set de datos resolviendo un problema de optimización. La alta disponibilidad de datos y de capacidad de computar han permitido el desarrollo de modelos de redes neuronales sumamente precisos para resolver una amplia variedad de problemas de minería de datos.

En este trabajo nos enfocamos en los autoencoder variacionales (VAE), un tipo particular de red neuronal que realiza extracción de variables latentes (también conocido como reducción de dimensionalidad). La Fig. 1 muestra un autoencoder y sus componentes fundamentales, el codificador, el cuello de botella y el decodificador. El autoencoder reduce la dimensión de la entrada hasta llegar al cuello de botella. A partir de aquí la dimensión aumenta hasta volver a la dimensión original. El autoencoder se entrena para reproducir la entrada minimizando el error de reconstrucción entre su entrada y su salida. La clave está en que el cuello de botella aprende una representación de variable latente de los datos que “destila” sus características más importantes, es decir, aquellas necesarias para generarlos. La diferencia entre el VAE y un autoencoder convencional es que en el primero el cuello de botella se asocia a parámetros de una distribución (por ejemplo Gaussiana), lo cual nos permite muestrear a partir del decodificador (modelo generativo) y fijar un prior en el espacio latente (regularización).

En este trabajo usamos datos en la forma de estampillas de 21×21 píxeles asociados a candidatos a transientes astronómicos obtenidos de un pipeline de diferencia de imágenes. El pipeline toma dos imágenes de distintas épocas y realiza alineamiento, ajuste de calidad/PSF, y finalmente las resta. Una transiente candidato es una estampilla de 21×21 centrada en un píxel con una alto valor positivo en la imagen restada. El conjunto de transientes candidato es en general grande y dominado por falsos positivos (por ejemplo artefactos del proceso de diferencia). La inspección visual de los candidatos consume bastante tiempo y puede ser difícil cuando la razón señal a ruido es baja.

Nosotros extendimos y aplicamos la red neuronal tipo VAE para obtener representaciones latentes que a su vez sirvan para hacer visualización y clustering usando datos del High Cadence Transient Survey (HiTS), CHilean Automatic Supernova sEarch (CHASE) y SUDARE. La figura 2 muestra épocas sucesivas de entrenamiento del modelo usando datos de SUDARE. En este caso el cuello de botella es de dos dimensiones lo que permite una fácil inspección visual del resultado. La parte codificadora de la red (izquierda) mapea las estampillas de 21×21 a un punto particular del espacio latente. La parte decodificadora (derecha) genera una estampilla de 21×21 dada una coordenada del espacio latente. La Figura 3 muestra ejemplos de transientes candidatos usados para entrenar el modelo y su ubicación en el espacio latente. El espacio latente revela los “comportamientos” que están presentes en el conjunto de datos de estampillas de diferencia, por ejemplo, transientes astrofísicos, defectos del CCD y todo tipo de artefactos debido a malas diferencias.

Nuestros experimentos muestran que el modelo propuesto obtiene una mejor representación latente que los métodos competidores en términos de la calidad de la reconstrucción y la preservación de vecindades. Al incorporar una mezcla de Gaussianas como prior nuestro modelo puede realizar tanto reducción de dimensionalidad como clustering, es decir, encontrar grupos de transientes similares de forma automática. Finalmente mostramos que las características latentes, que contienen mucha información de los datos, pueden usarse para entrenar un clasificador de alta precisión en el caso de que hayan etiquetas disponibles. El trabajo futuro incluye mejorar la estrategia de optimización del modelo, desarrollar modelos más flexibles para el prior y el posterior, añadir semi-supervisión, es decir incorporar información de etiquetas para una parte del conjunto de datos y entrenar un modelo con múltiples conjuntos de datos al mismo tiempo.

Referencias

Nicolas Astorga, Pablo Huijse, Pablo A. Estévez, Francisco Forster, “Clustering of astronomical transient candidates using deep variational embedding”, Proceedings of the International Joint Conference on Neural Networks (IJCNN), Rio de Janeiro, Brazil, 2018
Pablo Huijse, Nicolas Astorga, Pablo A. Estévez, Giuliano Pignata, “Latent representations of transients from an astronomical image difference pipeline using VAE”, Proceedings of the European Symposium on Artificial Neural Networks (ESANN), Bruges, Belgium, 2018

[/fusion_text][/three_fourth][one_fourth last=»yes» spacing=»yes» center_content=»no» hide_on_mobile=»no» background_color=»» background_image=»» background_repeat=»no-repeat» background_position=»left top» hover_type=»none» link=»» border_position=»all» border_size=»0px» border_color=»» border_style=»» padding=»» margin_top=»» margin_bottom=»» animation_type=»» animation_direction=»» animation_speed=»0.1″ animation_offset=»» class=»» id=»»][testimonials design=»classic» backgroundcolor=»» textcolor=»» random=»» class=»» id=»»][testimonial name=»Pablo Huijse, Investigador Joven MAS » avatar=»none» image=»» image_border_radius=»» company=»» link=»» target=»_self»]»Las redes neuronales artificiales (ANN) son modelos inspirados en la biología que se desempeñan con éxito en tareas de reconocimiento de patrones tales como clasificación, regresión y clustering (agrupamiento). Las ANN se construyen conectando unidades simples llamadas “neuronas” siguiendo una arquitectura particular. Existen distintas arquitecturas específicas para resolver una gran variedad de problemas»[/testimonial][/testimonials][/one_fourth][fusion_text]Imagen principal: Arquitectura de red neuronal tipo autoencoder. Las partes rodeadas por la línea roja sólida, línea negra punteada y línea azul sólida son la red codificadora, el cuello de botella y la red decodificadora, respectivamente.