A. Moreno Ribera, A. Calviño, S. Pineda
Los métodos de ensamblado, como el Random Forest (RF), destacan por su alto rendimiento predictivo al utilizar subconjuntos de variables y muestras con reemplazamiento para generar diversidad en sus árboles. Sin embargo, en conjuntos de datos con un número muy grande de variables o de alta dimensionalidad, como en los datos ómicos, se requieren numerosos árboles para asegurar la inclusión de todas las variables con poder predictivo, incrementando el almacenamiento y generando ramas o árboles enteros irrelevantes, redundantes y/o perjudiciales. Por ello proponemos una poda extrema de los árboles, centrada en las ramas, que pueden verse como reglas de asociación, y la comparamos con otros modelos de poda con el objetivo final de reducir el tamaño del modelo sin disminuir el poder predictivo. Esta estrategia se evalúa en varios conjuntos de datos de clasificación siendo alguno de ellos de alta dimensionalidad, buscando simplificar RF y alcanzar un modelo más interpretable.
Palabras clave: Random Forest, alta dimensionalidad, poda de árboles
Programado
Tratamiento y análisis de Big Data (TABiDa1)
10 de junio de 2025 15:30
Sala 3. Maria Rúbies Garrofé