Comparación entre árboles de regresión CART y regresión lineal

doi:10.15332/S2027-3355.2013.0002.05

Comparaci´on entre

´

Arboles de

Regresi´on CART y Regresi´on Lineal

Juan Felipe D´ıaz Sep´ulveda

Universi d ad Nacional de Colombia

Facultad de Ciencias, Escuela de Estad´ıstica

Medell´ın, Colombia

2012

Comparaci´on entre

´

Arboles de

Regresi´on CART y Regresi´on Lineal

Juan Felipe D´ıaz Sep´ulveda

Trabajo de grado presentado como requisito parcial para optar al t´ıtulo de :

Magister en Ciencias - Estad´ıstica

Director:

Ph.D. J uan Carlos Corr e a Morales

Universi d ad Nacional de Colombia

Facultad de Ciencias, Escuela de Estad´ıstica

Medell´ın, Colombia

2012

v

Resumen

La Regresi´on lineal es el m´etodo m´as u sa d o en estad´ıstica para predecir valores de variables

continuas debido a su f´acil interpretaci´on, per o en muchas situaciones los supuestos para

aplicar el modelo no se cumplen y algunos u s u ar i os tienden a forzarlos lle vando a conclu-

siones err´oneas. Los ´arbol es de regresi´on CART son una alternativa de regresi´on que no

requiere supuestos sobre los datos a anal i zar y es un m´etodo de f´acil interpretaci´on de l os

resultados. En este trabajo se comparan a nivel predictivo la Regresi´on lineal con CART

mediant e si mulaci´on. En general, se encontr´o que cuan d o se ajusta el modelo de regresi´on

lineal correcto a los dat os, el error de predicci´on de regresi´on lineal siempre es menor que el

de CART. Tambi´en se encontr´o que cuando se ajusta err´oneamente un modelo de regresi´on

lineal a los datos, el error de predicci ´on de CART es menor qu e el de regresi´o n lineal s´olo

cuando se tiene una cantidad de datos suﬁcientemente grande.

Palabras clave: Simulaci ´on, Error de predicci´on, Regresi´on Lineal,

´

Arboles de clasiﬁcaci´on y Regre-

si´on CART.

Abstract

Linear regression is the stat i stical method most used to predict values of continuous variables be-

cause of its easy interpretation, but in many situations to appl y the model assumptions are not

met and some users tend to force leading to erroneous conclusions. CART regression trees are an

alternative regression requires no assumptions about the data to be analyzed and a method of

easy interpr e tat i on of th e r e su l ts. In th i s paper we compare the predictive level from both CART

and li ne ar regression through simulation. In general, it was found that when adjusting the cor r e ct

linear regression model to the data, the linear regression prediction error is always less than the

CART prediction error. We also found that when adjusted erroneously linear regression model to

the data, CART prediction error is smaller than the linear regression prediction error only when it

has a suﬃciently large amount of data.

Keywords: Simulation, Prediction error, Li ne ar Regression, CART: Classiﬁcati on and Regression

Trees.

Comparación entre árboles de regresión CART y regresión lineal

Citations

Modelos y metodologías de credit score para personas naturales: una revisión literaria

Modelo para la valoración de la calidad de vida: un análisis en teletrabajo o trabajo en casa conceptualizado en épocas de Covid-19

The Impact of Candidates’ Profile and Campaign Decisions in Electoral Results: A Data Analytics Approach

A Model for Avalanche Forecasting on the Bonaigua Pass, Spain, Using Classification Trees

References

Unbiased Recursive Partitioning: A Conditional Inference Framework

An Introduction to Recursive Partitioning Using the RPART Routines

Modern Multivariate Statistical Techniques

An Introduction to Classification and Regression Tree (CART) Analysis

Regression trees with unbiased variable selection and interaction detection