Abstract
In the part, we present a factorial approach for clustering following the least squares criterion, for every choice of the metrics in the individual space. We deduce that the between-clusters inertia has an upper bound that depends on the number of clusters and the results of a Principal Component Analysis; this enables us to generalize a coefficient that measures the quality of the approximation of an optimal partition.
In the second part, we demonstrate that the inertia induces a strict ordering of the set of optimal partitions. Finally, we propose a heuristic for choosing the number of clusters.
References
Bédécarrax, C.; Huot, C. (1991) Développement d’indicateurs pour l’interprétation des résultats d’une analyse factorielle-relationnelle. Etude MAP-005, Décembre 1991, Centre Européen de Mathématiques Appliquées, Compagnie IBM-France.
Benzécri, J.-P. y colaboradores (1973) Analyse des Données, tomo II. Dunod, París.
Caillez, F.; Pagès, J.P. (1976) Introduction à l’Analyse des Données. SMASH, París.
Castillo, W. (1991) Descripción de algunos métodos de clasificación automática y aplicación aun problema de producción distribuida por cantón. Ciencias Matemáticas, Vol. II, No1, pp.67-78.
Celeux, G.; Diday, E.; Govaert, G.; Lechevallier, Y.; Ralambondrainy, H. (1989) Classification Automatique des Données. Dunod-Informatique, París.
Chandon, J.L.; Pinson, S. (1981)Analyses Typologiques, Théories et Applications. Masson, París.
Cormack, M. (1971)A review of classification. Journal of the Royal Statistical Society, serie A, 134, N°3, pp. 321-367
Diday, E. y colaboradores (1980) Optimisation en Classification Automatique. INRIA, Rocquencourt.
Diday, E.; Lemaire, J.; Pouget, J.; Testu, F. (1985) Eléments d’Analyse de Données. Dunod, París.
Espinoza, J.L.; Trejos, J. (1989) Clasificación por particiones. Revista Ciencia y Tecnología, Vol. XIII, Nos. 1-2, pp.129-154.
Everitt, B.S. (1979) Unresolved problems in cluster analysis. Biometrics, 35, pp. 169-181.
Friedman, H.P.; Rubin, J. (1967) On some invariant criteria for grouping data. Journal of the American Statistical Association, 1967, 62, pp. 1159-1178.
Gondran, M. (1976) Valeurs propres et vecteurs propres en classification hiérarchique. RAIRO, Recherche Opérationnelle, serie R: Informatique Théorique, Vol. 10, n°3, pp. 39-46.
Gower, J.C. (1973) Classification problems. Bulletin de l’Institut International de Statistique, Actes de la 39`ème session, Viena.
Gower, J.C. (1974) Maximal predictive classification. Biometrics, Vol. 30, pp. 643-654.
Ibrahim, A.; Schektman, Y. (1986) Principal cluster analysis. En: Classification as a Tool for Research, W. Gaul and M. Schader (eds.), Elsevier Sc.Publ, North-Holland, pp. 217-233.
Lerman, I.C. (1979) Les présentations factorielles de la classification. RAIRO, Vol. 13 N°2, p.107-128 y N°3, p.227-251.
Lerman, I.C. (1981) Classification et Analyse Ordinale des Données. Dunod, París.
Marchotorchino, F. (1991) L’analyse factorielle-relationnelle, I y II. Etude MAP-003, Centre Européen de Mathématiques Appliquées, Compagnie IBM-France.
Marchotorchino, F.; Bédécarrax, C. (1992) Le crit`ere de différence de profils. Distancia’92, Rennes.
Mirkin, B.G. (1987) Additive clustering and qualitative factor analysis. Methods for similarity matrices. Journal of Classification,N°1, Springer-Verlag, New-York, pp. 3-27
Nashed, Z., editor (1976) Generalized Inverses and Applications. Academic Press, London.
Rao, C.R (1964) The use and interpretation of principal component analysis in applied research. Sankhya, serie A, 1964, 26, pp. 329-358.
Schektman, Y. (1978) Contribution `a la mesure en facteurs dans les sciences expérimentales et`a la mise en œuvre automatique dans les calculs statistiques. Tesis de Estado, Toulouse.
Comments
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Copyright (c) 1994 Said Labrèche