F. J. Díaz de Terán González
La detección de valores atípicos constituye una fase crítica en el análisis estadístico, ya que permite identificar observaciones anómalas que podrían deberse a errores de medición, procesos no representativos o fenómenos excepcionales que se alejan significativamente del comportamiento esperado bajo un modelo estocástico dado. Su identificación es fundamental tanto para minimizar su impacto distorsionador en los resultados como para su eventual utilización en procesos de imputación de datos faltantes.
Si bien esta tarea se ha realizado todos los ejercicios de manera satisfactoria basándose en el criterio del experto de los responsables de la operación, la inclusión de nuevas técnicas basadas en procedimientos de Machine Learning proporcionan un conjunto de herramientas que permiten la localización de los outliers de forma mucho más rápida, eficaz y eficiente. Por otro lado, la automatización de este proceso, disminuye la dependencia del juicio experto del responsable de la operación, al introducir criterios sistemáticos y replicables en el proceso de análisis, estandarizando esta fase de la operación, y reduce los plazos de ejecución considerablemente.
Así, en 2024, Eustat incorpora por primera vez este conjunto de técnicas en las encuestas de Comercio y Reparación y en la Encuesta de Servicios.
Existen múltiples tipos de técnicas de detección de outliers. Para nuestro caso, Eustat se ha decantado por las técnicas multivariantes, ya que los datos económicos suelen tener una cierta correlación entre las variables, y sin supervisión, ya que los valores atípicos de una empresa no tienen por qué tener una continuidad en el tiempo.
También, Eustat ha decidido emplear varios métodos para garantizar la fiabilidad de los outliers detectados. Así, cada método devuelve sus propios outliers con una puntuación normalizada dependiendo de si se alejan más o menos del modelo obtenido por el método. La suma de las puntuaciones de cada método, así como el número de métodos que lo clasifican como outlier son los que finalmente determinan que el registro sea marcado como valor atípico.
El uso de estos métodos permite realizar la selección de los outliers fácilmente y localizar aquellos outliers con covarianzas pequeñas en muchas variables, que son más difíciles de detectar con el criterio del experto.
Todas estas técnicas se deben aplicar a registros que presenten una estructura económica parecida, por lo que se decidió aplicarlos a los subdominios que representan cada una de las actividades (CNAE) por separado.
Finalmente, se han implementado once métodos diferentes en R:
1 y 2, Isolation Forests. R proporciona dos librerías diferentes, h2o y solitude. Utilizamos las dos.
3.- Autoencoders. Técnica de Deep Learning.
4.- Clusters.
5.- ALSO. Aprendizaje basado en atributos.
6.- PCA. Análisis de componentes principales.
7.- Distancia de Mahalanobis.
8.- ICS. Invariant Coordinate Selection.
9.- Signos. Identificación de valores atípicos en alta dimensión.
10.- LOF. Local Outlier Factors.
11.- SVM. Support Vector Machine.
Por último, hay que señalar que el uso de estos métodos conlleva un análisis posterior e interpretativo de los valores atípicos detectados, no exento de, por el momento, cierto criterio experto.
Palabras clave: Outliers, Machine Learning, R.
Programado
Métodos estadísticos y novedades para la producción (II)
13 de junio de 2025 11:00
Auditorio 1. Ricard Vinyes