Abstract
This pyramidal clustering method generalizes hierarchies by allowing non-disjoint classes at a given level instead a partition. Moreover, the clusters of the pyramid are intervals of a total order on the set being clustered, hence pyramids constitute an intermediate model between the tree and the lattice structures. This method allows moreover to cluster more complex data than the tabular model allows to process, by considering variation on the values taken by the variables. Each cluster formed is defined not only by the set of its elements (i.e. its extent) but also by a symbolic object, which describes its properties (its intent). In this paper we propose a new algorithm CAPS to built a symbolic pyramid, this algorithm in an extension to symbolic case of the algorithm CAP proposed in [Diday 1984] to the symbolic case. An example is presented to illustrate the effectiveness of the proposed algorithm and we also present a free software for this algorithm.
References
Bertrand, P. (1986) Etude de la Représentation Pyramidale. Thèse de 3-ème Cycle, Université Paris IX-Dauphine.
Bertrand, P.; Diday, E. (1990) “Une géneralisation des arbres hiérarchiques: Les représentations pyramidales”, Statistique Appliquée 38(3): 53–78.
Brito, P. (1991) Analyse de Données Symboliques: Pyramides d’Héritage. Thèse de Doctorat, Université Paris 9 Dauphine.
Brito, P. (1998) “Symbolic clustering of probabilistic data”, in: A. Rizzi, M. Vichi & H.H. Bock (Eds.) Adavances in Data Science and Classification, Springer-Verlag, Berlin: 385–390.
Diday E. (1984) “Une représentation visuelle des classes empiétantes”, Rapport IN-RIA n. 291. Rocquencourt, France.
Diday E., Lemaire J., Pouget J., Testu F. (1982) Eléments d’Analyse des Données. Dunod, Paris.
Diday E. (1987) “Introduction à l’approche symbolique en Analyse des Données”, in Proc. Premières Journées Symbolique-Numérique, Université Paris IX Dauphine. Décembre 1987.
Diday, E. (1998) “L’Analyse des données symboliques: un cadre théorique et des outils”, Cahiers du CEREMADE, Université de Paris IX-Dauphine.
Diday, E.; Bock H.-H. (Eds.) (2000) Analysis of Symbolic Data. Exploratory Methods for Extracting Statistical Information from Complex Data. Springer-Verlag, Heidel-berg.
Gil, A.; Capdevila, C.; Arcas, A. (1998) “On the efficiency and sensitivity of a pyramidal classification algorithm”, Economics working paper 270, Universitat Pompeu Fabra, Barcelona.
Mfoumoune, E. (1998) Les Aspects Algorithmiques de la Classification Ascendante Pyramidale et Incrémentale. Thèse de Doctorat, Université Paris 9 Dauphine.
Pollaillon, G. (1998) Organisation et Interprétation par les Treillis de Galois de Données de Type Multivalué, Intervalle ou Histogramme. Thése de Doctorat, Université Paris 9 Dauphine.