Comparaci´on entre
´
Arboles de
Regresi´on CART y Regresi´on Lineal
Juan Felipe D´ıaz Sep´ulveda
Universi d ad Nacional de Colombia
Facultad de Ciencias, Escuela de Estad´ıstica
Medell´ın, Colombia
2012
Comparaci´on entre
´
Arboles de
Regresi´on CART y Regresi´on Lineal
Juan Felipe D´ıaz Sep´ulveda
Trabajo de grado presentado como requisito parcial para optar al t´ıtulo de :
Magister en Ciencias - Estad´ıstica
Director:
Ph.D. J uan Carlos Corr e a Morales
Universi d ad Nacional de Colombia
Facultad de Ciencias, Escuela de Estad´ıstica
Medell´ın, Colombia
2012
v
Resumen
La Regresi´on lineal es el m´etodo m´as u sa d o en estad´ıstica para predecir valores de variables
continuas debido a su f´acil interpretaci´on, per o en muchas situaciones los supuestos para
aplicar el modelo no se cumplen y algunos u s u ar i os tienden a forzarlos lle vando a conclu-
siones err´oneas. Los ´arbol es de regresi´on CART son una alternativa de regresi´on que no
requiere supuestos sobre los datos a anal i zar y es un m´etodo de f´acil interpretaci´on de l os
resultados. En este trabajo se comparan a nivel predictivo la Regresi´on lineal con CART
mediant e si mulaci´on. En general, se encontr´o que cuan d o se ajusta el modelo de regresi´on
lineal correcto a los dat os, el error de predicci´on de regresi´on lineal siempre es menor que el
de CART. Tambi´en se encontr´o que cuando se ajusta err´oneamente un modelo de regresi´on
lineal a los datos, el error de predicci ´on de CART es menor qu e el de regresi´o n lineal s´olo
cuando se tiene una cantidad de datos suficientemente grande.
Palabras clave: Simulaci ´on, Error de predicci´on, Regresi´on Lineal,
´
Arboles de clasificaci´on y Regre-
si´on CART.
Abstract
Linear regression is the stat i stical method most used to predict values of continuous variables be-
cause of its easy interpretation, but in many situations to appl y the model assumptions are not
met and some users tend to force leading to erroneous conclusions. CART regression trees are an
alternative regression requires no assumptions about the data to be analyzed and a method of
easy interpr e tat i on of th e r e su l ts. In th i s paper we compare the predictive level from both CART
and li ne ar regression through simulation. In general, it was found that when adjusting the cor r e ct
linear regression model to the data, the linear regression prediction error is always less than the
CART prediction error. We also found that when adjusted erroneously linear regression model to
the data, CART prediction error is smaller than the linear regression prediction error only when it
has a sufficiently large amount of data.
Keywords: Simulation, Prediction error, Li ne ar Regression, CART: Classificati on and Regression
Trees.