A. Moreno Ribera, A. Calviño, S. Pineda

Los métodos de ensamblado, como el Random Forest (RF), destacan por su alto rendimiento predictivo al utilizar subconjuntos de variables y muestras con reemplazamiento para generar diversidad en sus árboles. Sin embargo, en conjuntos de datos con un número muy grande de variables o de alta dimensionalidad, como en los datos ómicos, se requieren numerosos árboles para asegurar la inclusión de todas las variables con poder predictivo, incrementando el almacenamiento y generando ramas o árboles enteros irrelevantes, redundantes y/o perjudiciales. Por ello proponemos una poda extrema de los árboles, centrada en las ramas, que pueden verse como reglas de asociación, y la comparamos con otros modelos de poda con el objetivo final de reducir el tamaño del modelo sin disminuir el poder predictivo. Esta estrategia se evalúa en varios conjuntos de datos de clasificación siendo alguno de ellos de alta dimensionalidad, buscando simplificar RF y alcanzar un modelo más interpretable.

Palabras clave: Random Forest, alta dimensionalidad, poda de árboles

Programado

Tratamiento y análisis de Big Data (TABiDa1)
10 de junio de 2025  15:30
Sala 3. Maria Rúbies Garrofé


Otros trabajos en la misma sesión


Política de cookies

Usamos cookies solamente para poder idenfiticarte y autenticarte dentro del sitio web. Son necesarias para el correcto funcionamiento del mismo y por tanto no pueden ser desactivadas. Si continúas navegando estás dando tu consentimiento para su aceptación, así como la de nuestra Política de Privacidad.

Adicionalmente, utilizamos Google Analytics para analizar el tráfico del sitio web. Ellos almacenan cookies también, y puedes aceptarlas o rechazarlas en los botones de más abajo.

Aquí puedes ver más detalles de nuestra Política de Cookies y nuestra Política de Privacidad.