Resumen
Codificar y analizar preguntas abiertas provenientes de encuestas de opinión suele ser laborioso. La minería de texto ofrece una alternativa para ese tipo de problemática. Se utilizaron los datos de preguntas abiertas provenientes de la Encuesta Nacional de Percepción sobre la Transparencia 2019. Se aplica la minería de texto desde un enfoque descriptivo como predictivo: este último posee un interés predominante al realizar la codificación automática de respuestas o categorías a partir del aprendizaje automático supervisado. Se emplean algoritmos de máquinas de soporte vectorial, clasificador ingenuo de Bayes, bosques aleatorios, XGBoost y vecinos más cercanos. Los resultados del análisis descriptivo permiten apreciar las descripciones, visualizaciones y relaciones en el análisis de las preguntas abiertas. El análisis predictivo reseña que los algoritmos seleccionados con mayor ocurrencia para las preguntas abiertas fueron el clasificador ingenuo de Bayes y los bosques aleatorios, mostrando precisiones de entre 48% y 76%. Se obtuvieron resultados similares en comparación con las categorías que fueron codificadas manualmente. Se aprecian resultados satisfactorios en el análisis integral de las 12 preguntas de la encuesta.
Citas
M. Allahyari, S. Pouriyeh, M. Assefi, S. Safaei, E.D. Trippe, J.B. Gutiérrez, K. Kochut, A brief survey of text mining: Classification, clustering and extraction techniques, arXiv, 2017. Doi: https://arxiv.org/abs/1707.02919
S. Ananiadou, D.B. Kell, J.i. Tsujii, Text mining and its potential applications in systems biology, Trends in Biotechnology 24 (2006), no. 12, 571–579. Doi: 10.1016/j.tibtech.2006.10.002 N.P. Araujo, Método semisupervisado para la clasificación automática de textos de opinión. Masters Thesis in Computer Science, Instituto Nacional de Astrofísica, Óptica y Electrónica, Puebla, México, 2009. Link
A. Ben-Hur, J. Weston, A User’s Guide to Support Vector Machines, in: O. Carugo & F. Eisenhaber (Eds) Data Mining Techniques for the Life Sciences. Methods in Molecular Biology 609, Humana Press, Springer, New York, 2009, pp. 223–239. Doi: 10.1007/978-1-60327-241-4_13, Link
Contraloría General de la República, Memoria Anual 2018, San José. Costa Rica, 2019. Link S.V. Guttula, A.A. Rao, G.R. Sridhar, M.S. Chakravarthy, K. Nageshwararo, P.V. Rao, Cluster analysis and phylogenetic relationship in biomarker indentification of type 2 diabetes and nephropathy, International Journal of Diabetes in Developing Countries 30 (2010), 52–56. Doi: 10.4103/0973-3930.60003
T. Hastie, R. Tibshirani, J. Friedman, The Elements of Statistical Learning. Data Mining, Inference, and Prediction, 2nd Edition, Springer, New York, 2009. Doi: 10.1007/978-0-387-84858-7
M.C. Justicia de la Torre, Nuevas técnicas de minería de textos: Aplicaciones. Doctorate Thesis in Communication Sciences and Artificial Intelligence, University of Granada, Spain, 2017. https://digibug.ugr.es/handle/10481/46975
S. Kannan, V. Gurusamy, Preprocessing Techniques for Text Mining. Preprint, Madurai Kamaraj University, India, 2014. Link
M. Maheswari, J.G.R. Sathiaseelan, Text mining: Survey on techniques and applications, International Journal of Science and Research 6 (2017), no. 6, 1660–1664. Link
J.D. Mateo Vázquez, Competición de Kaggle.com: Santander Customer Satisfaction Master Thesis, Universidad Internacional de Andalucía, Huelva, España, 2014. Link
E.E. Milios, M.M. Shafiei, S. Wang, R. Zhang, B. Tang, J. Tougas, A Systematic Study on Document Representation and Dimensionality Reduction for Text Clustering, Preprint, Faculty of Computer Science, Dalhouse University, 2007. Link
F. Murtagh, P. Legendre, Hierarchical agglomerative clustering method: Which algorithms implement Ward’s criterion?, Journal of Classification 31 (2014), 274–295. Doi: https://doi.org/10.1007/s00357-014-9161-z
B. Nguyen Cong, J. Rivero Pérez, C. Morell, Aprendizaje supervisado de funciones de distancia: estado del arte Revista Cubana de Ciencias Informáticas 9(2015), no. 2, 14–28. Link
J. Silge, D. Robinson, Text Mining with R. A Tidy Approach. O’Reilly, Sebastopol CA, 2019. https://www.tidytextmining.com/
J.L Solka, Text data mining: Theory and methods, Statistics Surveys 2 (2008), 94–112. Doi: 10.1214/07-SS016
S. Tufféry, Data Mining and Statistics for Decision Making, John Wiley & Sons, New York, 2011. Doi: 10.1002/9780470979174
J. Xu, X. Liu, Z. Huo, C. Deng, F. Nie, H. Huang, Multi-class support vector machine via maximizing multi-class margins, Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence, 2017 pp. 3154 3160. Doi: 10.24963/ijcai.2017/440
O.R. Zaïane, Introduction to Data Mining, Chapter 1 in: Principles of Knowledge Discovery in Databases, Departament of Computer Science, University of Alberta. Canada. Link
Comentarios
Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-CompartirIgual 4.0.
Derechos de autor 2022 Oscar Centeno-Mora, Felipe Gónzalez-Évora