Nuestra Investigación: Un clasificador basado en aprendizaje de máquinas para RR Lyrae del VVV Survey

Por Felipe Elorrieta López, estudiante doctorado MAS y del Departamento de Estadística, Facultad de Matemáticas UC

Históricamente las estrellas variables han sido la herramienta principal para determinar la estructura de los sistemas estelares. Entre ellas, se pueden distinguir dos tipos dependiendo de si el proceso que crea la variabilidad observada es inherente a la estrella (variación intrínseca) o no (variación extrínseca). Entre las variables intrínsecas están las estrellas pulsantes, las cuales contienen las clases RR Lyrae y Cepheidas, que satisfacen una relación entre sus periodos y sus luminosidades absolutas, lo cual permite estimar las distancias.

El VVV (Vista Variables in the Vía Láctea) es un sondeo público de la ESO (European Southern Observatory) que utiliza el telescopio VISTA, instalado en el Observatorio Paranal, cuyo principal objetivo es la creación de un mapa tridimensional preciso del bulbo galáctico. Para ello, resulta necesario identificar las estrellas pulsantes.

En el área que cubre el VVV se espera encontrar entre 10^6-10^7 estrellas variables, entre muchos más millones de estrellas que no varían. Debido al gran número de fuentes esperadas se requieren mecanismos automatizados para analizar la información disponible sobre el brillo estelar observado a lo largo del tiempo (que llamamos “curva de luz”). Aquí, las herramientas estadísticas se vuelven esenciales.

Debido a esto, creamos un clasificador supervisado para asignar un “score” a curvas de luz de la banda Ks del VVV (que mide una región infrarroja del espectro). En una primera etapa, este clasificador indica la probabilidad de que una estrella sea una RR-Lyrae de una clase específica llamada “tipo ab” (RRab).

Para la construcción del clasificador se extraen un conjunto de 68 características a partir de las curvas de luz de cada estrella identificada como variable y de los parámetros del modelo armónico con el que son ajustadas. Estas características servirán como datos de entrada para el clasificador.

Como el VVV observa en el infrarrojo cercano (NIR), la creación de un clasificador aquí ofrece desafíos adicionales en comparación con el óptico, ya que aún son escasas las curvas de luz NIR de alta calidad con las que se pueden entrenar los clasificadores supervisados. En la figura se muestra un ejemplo de las curvas de luz observadas en el óptico e infrarrojo para una estrella RRab conocida, donde se nota una curva de luz muy simétrica en el infrarrojo (panel inferior).

De las características iniciales, se determinó que es suficiente el uso de 12 de ellas para obtener el mejor rendimiento final. La característica más importante fue el período, lo cual era esperable debido a que está muy bien definido el rango de períodos de las estrellas RRab. El clasificador elegido –el algoritmo AdaBoost.M1 (Freund et al., 1996)– alcanza buenas medidas de rendimiento tanto en la validación cruzada de los conjuntos de entrenamiento, como en la comparación del desempeño respecto a dos conjuntos de datos clasificados por expertos.

Imagen principal: Estrellas variables RR Lyrae VVV Survey

Crédito: ESO/VVV Survey/D. Minniti