scispace - formally typeset

Journal ArticleDOI

Comparación entre árboles de regresión CART y regresión lineal

09 Dec 2013-Vol. 6, Iss: 2, pp 175-195

TL;DR: Predictive levels of linear regression with CART are compared through simulation and it was found that when the correct linear regression model is adjusted to the data, the prediction error oflinear regression is always lower than that of CART.
Abstract: Linear regression is the most widely used method in statistics to predict values of continuous variables due to its easy interpretation, but in many situations the suppositions to apply the model are not met and some users tend to force them leading them to erroneous conclusions. CART regression trees is a regression alternative that does not require suppositions on the data to be analyzed and is a method of easy interpretation of results. This work compares predictive levels of linear regression with CART through simulation. In general, it was found that when the correct linear regression model is adjusted to the data, the prediction error of linear regression is always lower than that of CART. It was also found that when linear regression model is erroneously adjusted to the data, the prediction error of CART is lower than that of linear regression only when it has a sufficiently large amount of data.
Topics: Linear regression (61%), Regression (51%)

Summary (6 min read)

Jump to: [Introduction][1.1. Planteamiento del problema][1.2. Antecedentes][1.3. Particionamiento recursivo][1.3.1. Elementos de la construcción del árbol][1.3.2. División de un nodo][1.3.3. Nodos terminales][1.4. Árboles de clasificación][1.4.2. Determinación de los nodos terminales][1.5. Árboles de regresión][1.6. La libreŕıa rpart del paquete estad́ıstico R][1.7. Regresión por ḿınimos cuadrados][1.8. Descripción del estudio de simulación][2.1. Medida del error de predicción][2.2. Sensibilidad del error de predicción de CART a][2.3. Estandarización de los datos][3. Comparación de las predicciones de][3.1.1. Errores de predicción de CART vs Regresión Lineal para el][3.1.2. Errores de predicción de CART vs Regresión Lineal para el][3.2.1. Errores de predicción de CART vs Regresión Lineal para el][3.2.2. Errores de predicción de CART vs Regresión Lineal para el][3.2.3. Errores de predicción de CART vs Regresión Lineal para el][4. Comparación de las predicciones de][4.1. Predicción de un modelo de regresión cuadrático][4.1.1. Errores de predicción de CART vs recta de regresión para el][4.2. Predicción de un modelo de regresión trigonométrico][4.2.1. Errores de predicción de CART vs recta de regresión para el][4.2.2. Errores de predicción de CART vs recta de regresión para el][6.1. Modelización senoidal][6.2. Aplicación de la modelización senoidal] and [7.1. Conclusiones]

Introduction

  • Comparación entre Árboles de Regresión CART y Regresión Lineal Juan Felipe Dı́az Sepúlveda Universidad Nacional de Colombia Facultad de Ciencias, Escuela de Estad́ıstica Medelĺın, Colombia 2012 Comparación entre Árboles de Regresión CART y Regresión Lineal Juan Felipe Dı́az Sepúlveda.
  • Trabajo de grado presentado como requisito parcial para optar al t́ıtulo de: Magister en Ciencias - Estad́ıstica Director: Ph.D. Juan Carlos Correa Morales Universidad Nacional de Colombia Facultad de Ciencias, Escuela de Estad́ıstica Medelĺın, Colombia 2012 v Resumen La Regresión lineal es el método más usado en estad́ıstica para predecir valores de variables continuas debido a su fácil interpretación, pero en muchas situaciones los supuestos para aplicar el modelo no se cumplen y algunos usuarios tienden a forzarlos llevando a conclusiones erróneas.
  • En este trabajo se comparan a nivel predictivo la Regresión lineal con CART mediante simulación.
  • In this paper the authors compare the predictive level from both CART and linear regression through simulation.
  • In general, it was found that when adjusting the correct linear regression model to the data, the linear regression prediction error is always less than the CART prediction error.

1.1. Planteamiento del problema

  • El modelo lineal clásico ha sido utilizado extensivamente y con mucho éxito en múltiples situaciones.
  • Tiene ventajas que lo hacen muy útil para el usuario, entre ellas se tienen: Interpretabilidad Teóricamente atractivo Fácil de estimar Poco costoso.
  • Tal vez la interpretabilidad del modelo lineal clásico ha popularizado tanto este modelo, que no es raro ver su ajuste en situaciones inapropiadas, por ejemplo, respuestas que son discretas o sesgadas; y el desespero por parte de los usuarios por aproximarse a él, por ejemplo mediante transformaciones, sin considerar los cambios en la estructura del error.
  • De aqúı la necesidad de tener un modelo que tenga similares ventajas, pero que no sea tan ŕıgido con los supuestos, para que el usuario final lo pueda aplicar tranquilamente.
  • Los árboles de clasificación y regresión (CART) es un método que utiliza datos históricos para construir árboles de clasificación o de regresión los cuales son usados para clasificar o predecir nuevos datos.

1.2. Antecedentes

  • La función estimada es polinómica por tramos determinados por los nodos terminales de un árbol de decisión binario.
  • Piccarreta [25] en 2004 proponen un nuevo criterio para generar árboles de clasificación en el caso de que la variable respuesta sea categórica ordenada.
  • Estos son aplicados a tres conjuntos de datos reales los cuales son caracterizados por una larga cola derecha en la variable de respuesta.
  • Las implementaciones más populares de los modelos de árboles construyen árboles con modelos de regresión lineal en sus nodos terminales.
  • Los autores encontraron significativas mejoras en la capacidad de predecir para los modelos CART y Random Forest.

1.3. Particionamiento recursivo

  • El problema estad́ıstico es establecer una relación entre Y y las x´s de tal forma que sea posible predecir Y basado en los valores de las x´s.

1.3.1. Elementos de la construcción del árbol

  • Según Zhang [32] para ilustrar las ideas básicas, considere el diagrama de la figura 1-1.
  • El nodo ráız y el nodo interno son particionados cada uno en dos nodos en el siguiente nivel los cuales son llamados nodos hijos izquierdo y derecho.
  • El objetivo del particionamiento recursivo es acabar en nodos terminales que sean homogéneos en el sentido de que ellos contengan solo puntos o ćırculos figura 1-1 b).
  • (1-1) En la figura 1-1, si la caracteŕıstica es ser ćırculo, el nodo hijo terminal (nodo hijo izquierdo) del nodo ráız tiene impureza igual a 1 debido a que en este nodo solo hay ćırculos, pero, si la caracteŕıstica es ser punto, el nodo hijo terminal del nodo ráız tiene impureza igual a 0 debido a que no hay ningún punto en este nodo.

1.3.2. División de un nodo

  • Se busca una división que resulte en dos nodos hijos puros (o homogéneos).
  • Sin embargo, en la realidad los nodos hijos son usualmente parcialmente puros.

1.3.3. Nodos terminales

  • Esto sucede, por ejemplo, cuando queda solo un sujeto en un nodo.
  • El número total de divisiones permitidas para un nodo disminuye cuando aumentan los niveles del árbol.
  • El árbol saturado generalmente es bastante grande para utilizarse porque los nodos terminales son tan pequeños que no se puede hacer inferencia estad́ıstica razonable debido a que los datos quedan ”sobre-ajustados”, es decir, el árbol alcanza un ajuste tan 10 1 Introducción fiel a la muestra de aprendizaje que cuando en la práctica se aplique el modelo obtenido a nuevos datos los resultados pueden ser muy malos, y por tanto, no es necesario esperar hasta que el árbol sea saturado.
  • La escogencia del tamaño mı́nimo depende del tamaño de muestra (uno por ciento) o se puede tomar simplemente como cinco sujetos (los resultados generalmente no son significativos con menos de cinco sujetos).
  • En consecuencia, ellos hacen un cambio fundamental introduciendo un segundo paso llamado “poda”.

1.4. Árboles de clasificación

  • Los árboles de clasificación y regresión (CART) fueron desarrollados en los años 80 por Breiman, Freidman, Olshen y Stone en el libro Classification and Regression Trees publicado en 1980 [4].
  • La metodoloǵıa CART utiliza datos históricos para construir árboles de clasificación o de regresión los cuales son usados para clasificar o predecir nuevos datos.
  • Estos árboles CART pueden manipular fácilmente variables numéricas y/o categóricas.
  • Esta metodoloǵıa consiste de tres pasos: Construcción del árbol saturado Escogencia del tamaño correcto del árbol Clasificación de nuevos datos usando el árbol construido La construcción del árbol saturado se hace con particionamiento recursivo.

1.4.2. Determinación de los nodos terminales

  • Por otra parte, existe suficiente evidencia emṕırica en la literatura que demuestra que el uso de una función de impureza como la entroṕıa usualmente lleva a árboles útiles con tamaños de muestra razonables.
  • Se define la estimación por resustitución del costo de mala clasificación para el árbol T como, Rs(T ) = ∑ τ∈T̃ R s(τ). (1-11) La estimación por resustitución generalmente subestima el costo.
  • Como ejemplo, suponga que se tiene una muestra de 3861 mujeres quienes después de estar embarazadas, tuvieron un bebé con vida.
  • La tabla 1-1 reporta los costos de mala clasificación para los cinco nodos de la figura 1-3b).
  • Este subárbol más pequeño se conoce como subárbol óptimo con respecto al parámetro de complejidad.

1.5. Árboles de regresión

  • Estas directrices generales se aplican cada vez que se intenta desarrollar métodos basados en árboles.
  • Para la construcción de árboles de clasificación la variable respuesta debe ser categórica, mientras que para la construcción de árboles de regresión la variable respuesta debe ser continua.
  • Además, se puede hacer uso de i(τ) para definir el costo del árbol como R(T ) = ∑ τ∈T̃ i(τ), (1-15) 1.6.
  • La libreŕıa rpart del paquete estad́ıstico R 17 y luego sustituirlo en la ecuación 1-12 para formar el costo-complejidad.

1.6. La libreŕıa rpart del paquete estad́ıstico R

  • Los programas de rpart construyen modelos de clasificación o de regresión de una estructura muy general usando el proceso de construcción de árboles visto anteriormente con algunas variaciones.
  • Esencialmente, el usuario informa al programa que cualquier división que no mejore el ajuste con α es probable que se pode por validación cruzada (ver Zhang [32], Therneau [29]), y que por tanto el programa no necesita calcularla.
  • Este es el método que rpart tiene predeterminado cuando la variable dependiente es continua.

1.7. Regresión por ḿınimos cuadrados

  • Las variables en x son conocidas como variables predictoras o independientes.
  • Una regla de predicción o predictor es una función d(x), definida en X que toma valores reales.
  • La metodoloǵıa que hay alrededor de esta medida es la regresión por mı́nimos cuadrados.
  • Definición Usando la anterior definición, el predictor óptimo tiene una forma simple.
  • Proposición El predictor dB que minimiza R ∗(d), llamado predictor óptimo de Bayes, es dB(x) = E(Y |X = x) (1-18) En otras palabras, dB(x) es la esperanza condicional de la respuesta, dado que las variables predictoras toman el valor x. 1.8 Descripción del estudio de simulación 19 Importante: El valor del error cuadrático medio, R∗(d), depende del rango de la variable respuesta.

1.8. Descripción del estudio de simulación

  • 9. Se repiten los pasos 3 a 8 para obtener 1000 errores de predicción por regresión lineal EPRL1, EPRL2,..., EPRL1000 y 1000 errores de predicción por árboles de clasificación EPCART1, EPCART2,..., EPCART1000.
  • Se calcula el promedio de los 1000 errores de predicción para regresión lineal y el promedio de los 1000 errores de predicción para árboles de regresión, los cuales son respectivamente EPRL = ∑ 1000 k=1 EPRLk 1000 y EPCART = ∑ 1000 k=1 EPCARTk 1000 .
  • Se calcula el cociente COCEP = EPCART EPRL para comparar los dos errores de predicción.
  • Cuando COCEP = 1 ambos modelos predicen igual.

2.1. Medida del error de predicción

  • Por tanto, el predictor óptimo de Bayes 1-18 que minimiza el error cuadrático medio es, dB(x) = yverd.

2.2. Sensibilidad del error de predicción de CART a

  • Como la medida del error cuadrático 1-16 de un predictor d(x) es una estimación del error cuadrático medio 1-17, y a su vez, EPCART se definió en términos del error cuadrático 1-16, es de esperarse que EPCART también dependa del rango de la variable respuesta.

2.3. Estandarización de los datos

  • Debido a que la medida el error cuadrático medio de CART (ecuación 1-17) es afectado seriamente por el rango de la variable respuesta, Breiman [4] sugiere la estandarización de los datos para que este error sea comparable.
  • Como ya se mostró que EPCART depende del rango de la variable respuesta, se deben estandarizar los datos para comparar dicho error.

3. Comparación de las predicciones de

  • CART y modelos de regresión lineal ajustados correctamente.
  • En este caṕıtulo se supone que los datos siguen un modelo de regresión lineal espećıfico.

3.1.1. Errores de predicción de CART vs Regresión Lineal para el

  • Tabla 3-1.: Comparación de los errores de predicción para el modelo cuadrático.

3.1.2. Errores de predicción de CART vs Regresión Lineal para el

  • Tabla 3-2.: Comparación de los errores de predicción para el modelo cuadrático Modelos de regresión lineal cuadráticos.

3.2.1. Errores de predicción de CART vs Regresión Lineal para el

  • En los gráficos 3-7, 3-8 y 3-9 se puede ver como las predicciones de CART describen la forma del verdadero modelo de los datos simulados para cualquier valor de la desviación estándar σ cuando 3.2 Modelos de regresión lineal trigonométricos 37 n = 100 o n = 1000, pero, el modelo de regresión lineal describe mejor los datos que CART.
  • Tabla 3-3.: Comparación de los errores de predicción para el modelo trigonométrico.

3.2.2. Errores de predicción de CART vs Regresión Lineal para el

  • En los gráficos 3-10, 3-11, con n = 100, se puede ver como las predicciones de CART intentan describir el verdadero modelo, con poco éxito, pues, hay máximos y mı́nimos relativos que no logra.
  • Es evidente que el modelo de regresión lineal describe mejor los datos que CART.

3.2.3. Errores de predicción de CART vs Regresión Lineal para el

  • Nótese que este modelo de regresión tiene una forma más compleja que los modelos anteriores en cuanto al número de máximos y mı́nimos locales que tiene su gráfica.
  • Es claro que el modelo de regresión lineal describe mejor los datos que CART.
  • Modelos de regresión lineal trigonométricos.

4. Comparación de las predicciones de

  • CART y modelos de regresión lineal ajustados incorrectamente A continuación se tomarán tres modelos de regresión lineal de los descritos en el caṕıtulo 3 para generar conjuntos de datos a los cuales se ajustan rectas de regresión lineal como modelo equivocado para comparar estas predicciones con las de CART.
  • El objetivo es ver como CART toma ventaja del aumento del tamaño muestral para predecir mejor los datos que la recta de regresión en estos modelos.

4.1. Predicción de un modelo de regresión cuadrático

  • Utilizando una recta de regresión y CART.

4.1.1. Errores de predicción de CART vs recta de regresión para el

  • Nótese que este modelo tiene una forma funcional suave, sin máximos 50 4 Comparación de las predicciones cuando el modelo lineal ajustado es incorrecto ni mı́nimos relativos, y que CART en todos los casos describe mejor los datos que la recta de regresión, incluso cuando se tienen desviaciones estándar grandes.
  • Tabla 4-1.: Comparación de los errores de predicción para el modelo cuadrático Ajustando una recta de regresión a un modelo cuadrático.

4.2. Predicción de un modelo de regresión trigonométrico

  • Utilizando una recta de regresión y CART.

4.2.1. Errores de predicción de CART vs recta de regresión para el

  • En los gráficos 4-4 4-5 se puede observar como las predicciones de CART descubren patrones en los datos que pueden no notarse a simple vista.

4.2.2. Errores de predicción de CART vs recta de regresión para el

  • En los gráficos 4-7 4-8 se observa que las predicciones de CART aparentemente forman una recta, es decir, CART no es capaz de captar la verdadera forma del modelo con n = 100 datos, al igual 4.2 Ajustando rectas de regresión a modelos trigonométricos 55 Tabla 4-2.: Comparación de los errores de predicción para el modelo trigonométrico 4.2 Ajustando rectas de regresión a modelos trigonométricos 59 Tabla 4-3.: Comparación de los errores de predicción para el modelo trigonométrico.

6.1. Modelización senoidal

  • Este tipo de comportamiento solo es válido para aquellas variables que tienen un comportamiento intermensual oscilatorio o estacional, es decir, que presenten un único máximo y mı́nimo anual.
  • Este tipo de comportamiento debe ser independiente de las zonas climáticas a las que pertenezcan los observatorios.

6.2. Aplicación de la modelización senoidal

  • Para el ajuste del árbol de regresión se utiliza la libreŕıa rpart del paquete estad́ıstico R. Para la modelización senoidal por d́ıa de la temperatura en este año hidrológico, se tienen 366 d́ıas (2012 año bisiesto), por tanto, el periodo es de 366 para esta variable estacional.
  • Esto se debe a que los datos para la modelización senoidal aplicada por Barrera son de temperaturas en España, donde el clima es bastante regular, con máximos en verano y mı́nimos en invierno por las cuatro estaciones climáticas.
  • Te m pe ra tu ra ( °C ) Temperatura Aeropuerto Olaya Herrera Medellín Temperatura media por día Regresión lineal CART Figura 6-1.: Ajuste por modelización senoidal y por CART para la temperatura diaria.
  • Aunque esta ACF y PACF sugieren un modelo de series de tiempo SARIMA, se ajustará un proceso AR(2) debido a que este tipo de modelos es bueno para describir la periodicidad de muchos fenómenos (Giraldo N., comunicación personal).
  • 6.2 Aplicación de la modelización senoidal 73 0 100 200 300 20 22 24 26 28 Día.

7.1. Conclusiones

  • De lo anterior se puede concluir que, el modelo CART es una alternativa que prueba ser una buena opción cuando el usuario desconoce la forma funcional verdadera del modelo, lo cual es común en investigaciones reales.

Did you find this useful? Give us your feedback

Content maybe subject to copyright    Report

Comparaci´on entre
´
Arboles de
Regresi´on CART y Regresi´on Lineal
Juan Felipe D´ıaz Sep´ulveda
Universi d ad Nacional de Colombia
Facultad de Ciencias, Escuela de Estad´ıstica
Medell´ın, Colombia
2012


Comparaci´on entre
´
Arboles de
Regresi´on CART y Regresi´on Lineal
Juan Felipe D´ıaz Sep´ulveda
Trabajo de grado presentado como requisito parcial para optar al t´ıtulo de :
Magister en Ciencias - Estad´ıstica
Director:
Ph.D. J uan Carlos Corr e a Morales
Universi d ad Nacional de Colombia
Facultad de Ciencias, Escuela de Estad´ıstica
Medell´ın, Colombia
2012


v
Resumen
La Regresi´on lineal es el etodo as u sa d o en estad´ıstica para predecir valores de variables
continuas debido a su acil interpretaci´on, per o en muchas situaciones los supuestos para
aplicar el modelo no se cumplen y algunos u s u ar i os tienden a forzarlos lle vando a conclu-
siones err´oneas. Los ´arbol es de regresi´on CART son una alternativa de regresi´on que no
requiere supuestos sobre los datos a anal i zar y es un etodo de acil interpretaci´on de l os
resultados. En este trabajo se comparan a nivel predictivo la Regresi´on lineal con CART
mediant e si mulaci´on. En general, se encontr´o que cuan d o se ajusta el modelo de regresi´on
lineal correcto a los dat os, el error de predicci´on de regresi´on lineal siempre es menor que el
de CART. Tambi´en se encontr´o que cuando se ajusta err´oneamente un modelo de regresi´on
lineal a los datos, el error de predicci ´on de CART es menor qu e el de regresi´o n lineal olo
cuando se tiene una cantidad de datos suficientemente grande.
Palabras clave: Simulaci ´on, Error de predicci´on, Regresi´on Lineal,
´
Arboles de clasificaci´on y Regre-
si´on CART.
Abstract
Linear regression is the stat i stical method most used to predict values of continuous variables be-
cause of its easy interpretation, but in many situations to appl y the model assumptions are not
met and some users tend to force leading to erroneous conclusions. CART regression trees are an
alternative regression requires no assumptions about the data to be analyzed and a method of
easy interpr e tat i on of th e r e su l ts. In th i s paper we compare the predictive level from both CART
and li ne ar regression through simulation. In general, it was found that when adjusting the cor r e ct
linear regression model to the data, the linear regression prediction error is always less than the
CART prediction error. We also found that when adjusted erroneously linear regression model to
the data, CART prediction error is smaller than the linear regression prediction error only when it
has a sufficiently large amount of data.
Keywords: Simulation, Prediction error, Li ne ar Regression, CART: Classificati on and Regression
Trees.

Citations
More filters

Journal ArticleDOI
30 Jun 2017
Abstract: This paper provides a literature review on risk scoring models for credit granting in personal banking The methods by Abdou & Pointon (2011), Glennon, Kiefer, Larson, & Choi (2008), and Saavedra-Garcia (2010) are considered The aim is to create a sorting scheme to explain the multiple mathematical and econometrical models used for credit scoring and to produce an up-to-date list supported by scholars and experts in the field

3 citations


Journal ArticleDOI
02 Apr 2021
Abstract: In recent years, a wide range of techniques has been developed to predict electoral results and to measure the influence of different factors in these results. In this paper, we analyze the influence of the political profile of candidates (characterized by personal and political features) and their campaign effort (characterized by electoral expenditure and by territorial deployment strategies retrieved from social networks activity) on the electoral results. This analysis is carried out by using three of the most frequent data analyitcs algorithms in the literature. For our analysis, we consider the 2017 Parliamentary elections in Chile, which are the first elections after a major reform of the electoral system, that encompassed a transition from a binomial to a proportional system, a modification of the districts’ structure, an increase in the number of seats, and the requirement of gender parity in the lists of the different coalitions. The obtained results reveal that, regardless of the political coalition, the electoral experience of candidates, in particular in the same seat they are running for (even when the corresponding district is modified), is by large the most influential factor to explain the electoral results. However, the attained results show that the influence of other features, such as campaign expenditures, depends on the political coalition. Additionally, by means of a simulation procedure, we show how different levels of territorial deployment efforts might impact on the results of candidates. This procedure could be used by parties and coalitions when planning their campaign strategies.

1 citations


02 Oct 2016
Abstract: The highway C-28 is located in the Central Pyrenees and links the Aran valley with Catalonia along 20 km over the Bonaigua Pass. It constitutes a key access route for winter visitors. Most of the slopes affecting the road face to the south, with heights varying between 1600 and 2300 meters. We started from 12 years of meteorological and avalanche data collected by the local avalanche warning service of Aran Valley. Weather data were obtained from two automatic weather stations and a flowcapt, whereas avalanche activity was manually recorded in a GIS. We selected several weather parameters including snow drift, elapsed time, trend and categorical parameters. Using a classification tree method, we have developed a model to determine periods of significant avalanche activity in terms of the predefined avalanche day concept. The model is performed for the entire road in a combined analysis and also for three individual sub-areas within the Pass. Results showed that conventional factors describing snow depth were more significant than temperature and precipitation factors. Derived snow drift parameters from snow depth and water precipitacion showed more importance than drift data from the flowcapt. Radiation and wind direction variables had low importance in all the tests. The detailed analysis by subareas has not achieved the objective due to the reduction of the database. However, it has allowed to confirm the differences between one of the sub-areas and the dynamics of the rest of the highway.

1 citations


Cites methods from "Comparación entre árboles de regres..."

  • ...Other comparative studies between statistical methods, as Díaz (2012), recommend using CART against the logistic regression in case of ignoring the functional form of the model for better results....

    [...]


01 Jan 2016
Abstract: In this study we examine different physicochemical variables (sediment texture, temperature, salinity, dissolved oxygen, turbidity, nitrite, nitrate, ammonium, phosphate, organic matter of marine snow, organic matter of sediment and organic matter of digestive tract) and their influence on the size structure and distribution of Meoma ventricosa grandis. The study was conducted in 3 workstations (E1: La Playa, E2: El Jardin, E3: Palmitas) located across the Boca Chica Channel, Acapulco, Mexico, during 2006 to 2007. The results of the measurements of the body size showed a higher percentage of adults in workstation 1 and 2 (13 and 5%, respectively); however, in workstation 3 the percentage was of 51%. The variance pointed a significance in the size of the individuals from the workstation Palmitas, showing the largest specimens throughout the study. The sediment texture in workstations La Playa and El Jardin was characterized by asymmetric clasts of coarse sand and gravel of different sizes, with a sediment layer with a depth of layer of 20-30 cm. Unlike workstation of Palmitas wich was distinguished by almost symmetrical gravel clasts, similar in size and with depth of 50 cm; in all workstations juveniles were buried between 10 and 20 cm and adults between 15 and 40 cm of depth. The gonadal index was asynchronous, presenting the highest reproductive peaks in Palmitas. Regression Trees analysis established that the organic matter deposited in the sediment acts as the primary physicochemical variable in the distribution of the echinoid within the channel, locating until 6,571 individuals in direct relation to it. The largest number of specimens (11,330) was obtained in the presence of organic matter, nitrates and phosphates. This is the first time that genus Meoma is related to a specific substrate according to the body size.

References
More filters

Journal ArticleDOI
Torsten Hothorn1, Kurt Hornik1, Achim Zeileis1Institutions (1)
TL;DR: A unified framework for recursive partitioning is proposed which embeds tree-structured regression models into a well defined theory of conditional inference procedures and it is shown that the predicted accuracy of trees with early stopping is equivalent to the prediction accuracy of pruned trees with unbiased variable selection.
Abstract: Recursive binary partitioning is a popular tool for regression analysis. Two fundamental problems of exhaustive search procedures usually applied to fit such models have been known for a long time: overfitting and a selection bias towards covariates with many possible splits or missing values. While pruning procedures are able to solve the overfitting problem, the variable selection bias still seriously affects the interpretability of tree-structured regression models. For some special cases unbiased procedures have been suggested, however lacking a common theoretical foundation. We propose a unified framework for recursive partitioning which embeds tree-structured regression models into a well defined theory of conditional inference procedures. Stopping criteria based on multiple test procedures are implemented and it is shown that the predictive performance of the resulting trees is as good as the performance of established exhaustive search procedures. It turns out that the partitions and therefore the...

2,745 citations


"Comparación entre árboles de regres..." refers background in this paper

  • ...Hothorn, Hornik y Zeileis [15] en 2006 proponen un marco unificado para particionamiento recursivo el cual incorpora modelos de regresión de estructura de árbol dentro de una teoŕıa bien definida de procedimientos de inferencia condicional....

    [...]

  • ...Los Angeles, University of California, Tesis de Doctorado, 2006 [15] Hothorn, T....

    [...]

  • ...Hothorn, Hornik y Zeileis [15] en 2006 proponen un marco unificado para particionamiento recursivo el cual incorpora modelos de regresión de estructura de árbol dentro de una teoŕıa bien definida de procedimientos de inferencia condicional....

    [...]


01 Jan 2015
TL;DR: The tree is constructed: Splitting criteria, building the tree, variable importance, and more.
Abstract: 3 Building the tree 5 3.1 Splitting criteria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 3.2 Incorporating losses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 3.2.1 Generalized Gini index . . . . . . . . . . . . . . . . . . . . . . . . . . 7 3.2.2 Altered priors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 3.3 Example: Stage C prostate cancer (class method) . . . . . . . . . . . . . . 10 3.4 Variable importance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

880 citations


"Comparación entre árboles de regres..." refers background in this paper

  • ...Esencialmente, el usuario informa al programa que cualquier división que no mejore el ajuste con α es probable que se pode por validación cruzada (ver Zhang [32], Therneau [29]), y que por tanto el programa no necesita calcularla....

    [...]

  • ...Para construir árboles de regresión emplea el método anova (ver Therneau [29]), el cual utiliza como criterio de división de un nodo la fórmula SST − (SSL + SSR), donde SST = ∑ (yi − y)(2) es la suma de cuadrados para el nodo, y SSR, SSL son las sumas de cuadrados para el nodo hijo derecho e izquierdo, respectivamente....

    [...]

  • ...Esencialmente, el usuario informa al programa que cualquier división que no mejore el ajuste con α es probable que se pode por validación cruzada (ver Zhang [32], Therneau [29]), y que por tanto el programa no necesita calcularla....

    [...]

  • ...De manera predeterminada se toma c(i|j) = 1 para todo i 6= j. Trabaja con el método de la apriori alterada (ver Therneau [29]), el cual sirve para calcular las probabilidades apriori de cada clase utilizando la matriz de costo....

    [...]

  • ...Trabaja con el método de la apriori alterada (ver Therneau [29]), el cual sirve para calcular las probabilidades apriori de cada clase utilizando la matriz de costo....

    [...]


BookDOI
01 Jan 2008
TL;DR: The identity matrices have different dimensions — In the top row of each matrix, the identity matrix has dimension r and in the bottom row it has dimension s.
Abstract: CHAPTER 3 Page 46, line –15: (K × J)-matrix. Page 47, Equation (3.5): −EF should be −EF . Page 49, line –6: R should be <. Page 53, line –7: “see Exercise 3.4” is not relevant here. Page 53, Equation (3.43): Last term on rhs should be ∂yJ ∂xK . Page 60, Equation (3.98): σ should be σ. Page 61, line 8: (3.106) should be (3.105). Pages 61, 62, Equations (3.109), (3.110), and (3.111): The identity matrices have different dimensions — In the top row of each matrix, the identity matrix has dimension r and in the bottom row it has dimension s. Page 62, line 1: “r-vector” should be “(r + s)-vector.” Page 62, Equation (3.111): ΣXY should be ΣY X . Page 64, Equation (3.127): |Σ| should be |Σ|. Page 62, Equation (3.133): I(2.2) should be I(2,2). Page 65, line 8 (2nd line of property 2): Wr should be Wp. Page 65, property 4: Restate as follows. Let X = (X1, · · · ,Xn) , where Xi ∼ Nr(0,Σ), i = 1, 2, . . . , n, are independently and identically distributed (iid). Let A be a symmetric (n×n)-matrix with ν = rank(A), and let a be a fixed r-vector. Let y = Xa. Then, X AX ∼ Wr(ν,Σ) iff yAy ∼ σ aχ 2 ν , where σ 2 a = a Σa. Page 66, Equation (3.143): last term on rhs, +n should be −n2 . Page 67, line 3: Should read tr(TT ) = ∑r i=1 t 2 ii + ∑ i>j t 2 ij . Page 67, line –6: Should read “idempotent with rank n − 1.” Page 67, line –3: bX should be X b. Page 67, Equation (3.148): n should be n − 1.

667 citations


"Comparación entre árboles de regres..." refers background in this paper

  • ...Los Angeles, University of California, Tesis de Doctorado, 2005 [17] Izenman, A....

    [...]


01 Jan 2000
TL;DR: A common goal of many clinical research studies is the development of a reliable clinical decision rule, which can be used to classify new patients into clinically-important categories, and there are a number of reasons for these difficulties.
Abstract: Introduction A common goal of many clinical research studies is the development of a reliable clinical decision rule, which can be used to classify new patients into clinically-important categories. Examples of such clinical decision rules include triage rules, whether used in the out-of-hospital setting or in the emergency department, and rules used to classify patients into various risk categories so that appropriate decisions can be made regarding treatment or hospitalization. Traditional statistical methods are cumbersome to use, or of limited utility, in addressing these types of classification problems. There are a number of reasons for these difficulties. First, there are generally many possible " predictor " variables which makes the task of variable selection difficult. Traditional statistical methods are poorly suited for this sort of multiple comparison. Second, the predictor variables are rarely nicely distributed. Many clinical variables are not normally distributed and different groups of patients may have markedly different degrees of variation or variance. Third, complex interactions or patterns may exist in the data. For example, the value of one variable (e.g., age) may substantially affect the importance of another variable (e.g., weight). These types of interactions are generally difficult to model, and virtually impossible to model when the number of interactions and variables becomes substantial. Fourth, the results of traditional methods may be difficult to use. For example, a multivariate logistic regression model yields a probability of disease, which can be calculated using the regression coefficients and the characteristics of the patient, yet such models are rarely utilized in clinical practice. Clinicians generally do not think in terms of probability but, rather in terms of categories, such as " low risk " versus " high risk. " Regardless of the statistical methodology being used, the creation of a clinical decision rule requires a relatively large dataset. For each patient in the dataset, one variable (the dependent variable), records whether or not that patient had the condition which we hope to predic t accurately in future patients. Examples might include significant injury after trauma, myocardial infarction, or subarachnoid hemorrhage in the setting of headache. In addition, other variables record the values of patient characteristics which we believe might help us to predict the value of the dependent variable. For example, if one hopes to predict the presence of subarachnoid hemorrhage, a possible predictor variable might be whether or not the patient's headache was sudden in onset; another possible …

472 citations


Additional excerpts

  • ...Lewis [21] en 2000 da una visión general de la metodoloǵıa CART, enfatizando más en su uso práctico que en la teoŕıa estad́ıstica subyacente....

    [...]


01 Jan 2002
TL;DR: The proposed algorithm, GUIDE, is specifically designed to eliminate variable selection bias, a problem that can undermine the reliability of inferences from a tree structure and allows fast computation speed, natural ex- tension to data sets with categorical variables, and direct detection of local two- variable interactions.
Abstract: We propose an algorithm for regression tree construction called GUIDE. It is specifically designed to eliminate variable selection bias, a problem that can undermine the reliability of inferences from a tree structure. GUIDE controls bias by employing chi-square analysis of residuals and bootstrap calibration of signif- icance probabilities. This approach allows fast computation speed, natural ex- tension to data sets with categorical variables, and direct detection of local two- variable interactions. Previous algorithms are not unbiased and are insensitive to local interactions during split selection. The speed of GUIDE enables two further enhancements—complex modeling at the terminal nodes, such as polynomial or best simple linear models, and bagging. In an experiment with real data sets, the prediction mean square error of the piecewise constant GUIDE model is within ±20% of that of CART r � . Piecewise linear GUIDE models are more accurate; with bagging they can outperform the spline-based MARS r � method.

426 citations


"Comparación entre árboles de regres..." refers background in this paper

  • ...En 2002 Loh [23] propone un algoritmo para la construcción de árboles de regresión llamado GUIDE....

    [...]

  • ...En 2002 Loh [23] propone un algoritmo para la construcción de árboles de regresión llamado GUIDE....

    [...]

  • ...Muchos investigadores después de la publicación del libro de Breiman [4] han planteado variaciones del método en sus distintas etapas, pero en muchos casos la idea inicial del particionamiento recursivo es la misma, otros han aplicado CART y sus variaciones en distintos campos como la medicina, la bioloǵıa y el aprendizaje de máquinas; algunos de estos autores son: En 1995 Chaudhuri, Lo, Loh y Yang [9] estudiaron un método de regresión generalizado que mezcla regresión no paramétrica de árboles estructurados y particionamiento recursivo adaptativo con estimación de máxima verosimilitud....

    [...]

  • ...Chaudhuri y Loh [10] en 2002 estudian un método de regresión no paramétrica que mezcla caracteŕısticas claves de la regresión cuantil polinomial por tramos y la regresión estructural de árbol basada en particionamiento recursivo adaptativo del espacio de covariables....

    [...]


Performance
Metrics
No. of citations received by the Paper in previous years
YearCitations
20211
20171
20162