Resumen
La técnica de segmentación basada en árboles CHAID (Detección Automática de Interacción basada en el Chi Cuadrado, o Chi-Squared Automatic Interaction Detection, por sus siglas en inglés) ha mostrado ser útil para obtener segmentos significativos que sean predictivos de una variable criterio de K categorías (nominal u ordinal). CHAID fue diseñado para detectar, de manera automática, la interacción entre varios predictores categóricos u ordinales para explicar una respuesta categórica, pero esto puede no ser cierto cuando se presenta la paradoja de Simpson. Esto se debe al hecho de que CHAID es un algoritmo de selección hacia adelante basado en conteos marginales. En este artículo proponemos un algoritmo de eliminación hacia atrás que empieza con el conjunto completo de predictores (o árbol completo) y elimina progresivamente predictores. El procedimiento de eliminación está basado en contrastes de independencia condicional usando el concepto de entropía. El procedimiento propuesto es comparado con CHAID.
Citas
Ávila, C.A. (1996) Una Alternativa al Análisis de Segmentación Basada en el Análisis de Hipótesis de Independencia Condicionada. Tesis Doctoral, Universidad de Salamanca.
Baron, S.; Phillips, D. (1994) “Attitude survey data reduction using CHAID: an example in shopping centre market research”, Journal of Marketing Management 10: 75–88.
Christensen R. (1990) Log-Linear Models. Springer-Verlag, New York.
Clark, W.A.V.; Duerloo, M.C.; Dieleman, F.M. (1991) “Modeling categorical data with chi square automatic interaction detection and correspondence analysis ”, Geographical Analysis 23: 332–345.
Dorado, A. (1998) Métodos de Búsqueda de Variables Relevantes en Análisis de Segmentación: Aportaciones desde una Perspectiva Multivariante. Tesis Doctoral, Universidad de Salamanca.
Dorado, A.; Galindo. P.; Vicente, J.L.; Vicente-Tavera, S. (2002) “El CHAID como herramienta de marketing politico”, Esic Market 111: 129–140.
Galindo, M. P.; Vicente-Galindo, P.; Patino-Alonso,C ; Vicente-Villardón, J. L. (2007) “Caracterización multivariante de los perfiles de las mujeres en situación laboral irregular: el caso de Salamanca”, Pecunia 4: 49–79.
Kass, G.V. (1980) “An exploratory technique for investigating large quantiles of categorical data”, Applied Statistics 29: 119–127.
Malchow, H. (1997) “The targeting revolution in political direct contact”, Campaigns & Elections 18: 51–66.
Magidson, J. (1990) “CHAID, LOGIT and Log-linear Modelling”, Marketing Information Systems. Datrapo Report IM11-130: 101–115.
Marques, P.; Tippetts, A.; Voas, R.; Beirness, D. (2001) “Predicting repeat DUI offenses with the alcohol interlock recorder”, Accident– Analysis–and–Prevention 33(5): 609–619.
Mckenney, C. (2000) Women Chief Academic Officers of Public Community Colleges: Career Paths and Mobility Factors. Ed. Texas Tech University.
Shannon, C.E.; Weaver, W. (1949/1963) The Mathematical Theory of Communication. University Illinois Press, Urbana and Chicago.
Simpson, E.H. (1951) “The interpretation of interaction in contingence tables”, Royal Statistical Association 13B: 238–241.
Van Diepen, M.; Franses, P.H. (2006) “Evaluating chi-squared automatic interaction detection”, Information Systems 31(8): 814–831.
##plugins.facebook.comentarios##
Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-CompartirIgual 4.0.
Derechos de autor 2010 María Purificación Galindo Villardón, José Luis Vicente Villardón, Ana Dorado Díaz, Purificación Vicente Galindo, María Carmen Patino Alonso