A. Moreno Ribera, A. Calviño, S. Pineda

Los métodos de ensamblado, como el Random Forest (RF), destacan por su alto rendimiento predictivo al utilizar subconjuntos de variables y muestras con reemplazamiento para generar diversidad en sus árboles. Sin embargo, en conjuntos de datos con un número muy grande de variables o de alta dimensionalidad, como en los datos ómicos, se requieren numerosos árboles para asegurar la inclusión de todas las variables con poder predictivo, incrementando el almacenamiento y generando ramas o árboles enteros irrelevantes, redundantes y/o perjudiciales. Por ello proponemos una poda extrema de los árboles, centrada en las ramas, que pueden verse como reglas de asociación, y la comparamos con otros modelos de poda con el objetivo final de reducir el tamaño del modelo sin disminuir el poder predictivo. Esta estrategia se evalúa en varios conjuntos de datos de clasificación siendo alguno de ellos de alta dimensionalidad, buscando simplificar RF y alcanzar un modelo más interpretable.

Keywords: Random Forest, alta dimensionalidad, poda de árboles

Scheduled

Big Data processing and analysis (TABiDa1)
June 10, 2025  3:30 PM
Sala 3. Maria Rúbies Garrofé


Other papers in the same session


Cookie policy

We use cookies in order to be able to identify and authenticate you on the website. They are necessary for the correct functioning of it, and therefore they can not be disabled. If you continue browsing the website, you are agreeing with their acceptance, as well as our Privacy Policy.

Additionally, we use Google Analytics in order to analyze the website traffic. They also use cookies and you can accept or refuse them with the buttons below.

You can read more details about our Cookie Policy and our Privacy Policy.