Automatización del análisis sintáctico  para el español con el fin de crear in treebank  estandarizado

Minor Sandí Salazar; Gabriela Marín Raventós; Edgar Casasola Murillo

doi:10.15517/rk.v40i4.30232

Vol. 40 No. 4 (2016), Artlcles

Vol. 40 No. 4 (2016)

Automatización del análisis sintáctico para el español con el fin de crear in treebank estandarizado

Artlcles

https://doi.org/10.15517/rk.v40i4.30232

Published August 16, 2017

Minor Sandí Salazar⁺⁻
Gabriela Marín Raventós⁺⁻
Edgar Casasola Murillo⁺⁻

Minor Sandí Salazar

Universidad de Costa Rica. Programa de Posgrado en Computación e Informática.

Gabriela Marín Raventós

Universidad de Costa Rica. Centro de Investigaciones en Tecnologías de la Información y Comunicación (CITIC).

Edgar Casasola Murillo

Universidad de Costa Rica. Escuela de Ciencias de la Computación, Programa de Posgrado en Computación e Informática y Centro de Investigaciones en Tecnologías de la Información y Comunicación (CITIC).

PDF (Español (España))

How to Cite

Sandí Salazar M., Marín Raventós G., & Casasola Murillo, E. (2017). Automatización del análisis sintáctico para el español con el fin de crear in treebank estandarizado. Káñina, 40(4), 163–174. https://doi.org/10.15517/rk.v40i4.30232

Abstract

El crecimiento exponencial en la creación de documentos en la Internet, escritos en español, ofrece variadas oportunidades para el análisis de texto. Debido a su cantidad creciente y a la escasez de herramientas que colaboren en estos procesos, se hace imprescindible la creación de herramientas que los automaticen. Entre estas herramientas los treebanks ocupan un papel destacado, puesto que proveen información clave para muchos de los procesos de análisis. Actualmente, existe una tendencia que intenta estandarizar el etiquetado morfológico y sintáctico para crear puntos de contacto entre treebanks de distintas investigaciones. A partir de los antecedentes relacionados con el análisis sintáctico de textos, esta investigación propone una metodo- logía para determinar hasta dónde es posible automatizar el proceso de creación de treebanks, limitándose a la lengua española.

https://doi.org/10.15517/rk.v40i4.30232

PDF (Español (España))

References

Bosco, Cristina et al. 2013. “Converting Italian treebanks: Towards an Italian Stanford dependency treebank”. En: Proceedings of the 7th Linguistic Annotation Workshop and Interoperability with Discourse: 61-69.

Bresnan, Joan. 2001. Lexical-Functional Syntax. Oxford: Wiley-Blackwell.

Buchholz, Sabine y Erwin Marsi. 2006. “CoNLL-X shared task on multilingual dependency parsing”. En: Proceedings of the Tenth Conference on Computational Natural Language Learning: 149-64.

Civit Torruela, Montserrat y Antonin Martí. 2002. “Design principles for a Spanish treebank”. En: Proceedings of TLT.

Civit Torruela, Montserrat y Antonin Martí. 2004. “Building Cast3LB: a Spanish tree- bank”. En: Research on Language and Computation II (4): 549–574.

De Marneffe, Marie-Catherine et al. 2006. “Generating typed dependency par- ses from phrase structure parses”. En: Proceedings of Language Resources and Evaluation VI: 449-454.

De Marneffe, Marie-Catherine y Christopher Manning. 2008. “The Stanford typed dependencies representation”. En: Coling 2008: Proceedings of the workshop on Cross-Framework and Cross-Domain Parser Evaluation: 1-8.

De Marneffe, Marie-Catherine et al. 2014. “Universal Stanford Dependencies: A cross-linguistic typology”. En: Proceedings of Language Resources and Evaluation: 4585-4592.

Fong, Sandiway. 2015. “TreeBank Search”. Recuperado de http://dingo.sbs.arizona. edu/~Sandiway/treebanksearch/index. html [Consulta 25 enero. 2016].

Hajičová, Eva et al. 2010. “Treebank Annotation”. En: Nitin Indurkhya and Fred J. Damerau (eds.): 167-188.

Indurkhya, Nitin y Fred J. Damerau. 2010.

Handbook of natural language proces- sing. 2. Boca Ratón, FL: CRC Press.

Institut Universitari de Lingüística Aplicada. 1998. “El Corpus de L’IULA: Etiquetaris”. Recuperado de http://www.iula.upf.edu/ repositori/98inf018.pdf. [Consulta 22 de julio 2015].

Instituto Cervantes. 2015. “El Español: Una lengua muyviva”.Informe2015.Recuperadodehttp:// elnuevosol.net/wp-content/uploads/2016/05/ espanol_lengua-viva_20151.pdf. [Consulta 12 diciembre. 2015].

Jara-Murillo, Carla. 2013. “El treebank del espa- ñol IPROCOLDI: componente anotado del

corpus CODIMEP-CR”. En: Revista de Filología y Lingüística de la Universidad de Costa Rica XXXIX (2): 143-171.

Kučera, Henry y Nelson F. 1967. Computational analysis of present-day American English. Providence, United States: Brown University Press.

Leech, G. et al. 1996. “Guidelines for the stan- dardization of syntactic annotation of corpora”. En: EAGLES Document EAG- TCWG-SASG/1.8.

Lees, Robert y Noam Chomsky. 1957. “Syntactic Structures”. En: Language XXXIII (3): 375-408.

Marcus, Mitchell et al. 1993. “Building a large annotated corpus of English: The Penn Treebank”. En: Computational linguistics XIX (2): 313-330.

McDonald, Ryan et al. 2013. “Universal Dependency Annotation for Multilingual Parsing”. Association for Computational Linguistics (2): 92-97.

Megyesi, Beáta. 2015. Nordic Conference of Computational Linguistics NODALIDA 2015. Suecia: Link ping University Electronic Press.

Melero, Maite. et al. 2012. The Spanish language in the digital age. Berlín: Springer.

Nivre, Joakim. 2015. “Towards a Universal Grammar for Natural Language Processing”. In International Conference on Intelligent Text Processing and Computational Linguistics (pp. 3-16). Springer International Publishing.

Nolan, Edmond y Samuel Abraham Hirsch. 1902.

The Greek Grammar of Roger Bacon and a Fragment of his Hebrew Grammar. Cambridge: Cambridge University Press.

Petrov, Slav et al. 2012. “A universal part-of- speech tagset”. En LREC.

Pyysalo, Sampo et al. 2015. “Universal Dependencies for Finnish”. En: Megyesi, Beáta: 163.

Taulé, Mariona et al. 2008. “AnCora: Multilevel Annotated Corpora for Catalan and Spanish”. En: LREC.

Tesnière, Lucien. 1959. Élements de syntaxe estructurale. Paris: C. Klincksieck.

Tsarfaty, Reut. 2013. “A Unified Morpho-Syntactic Scheme of Stanford Dependencies”. En: Association for Computational Linguistics (2): 578-584.

Zeman, Daniel. 2008. “Reusable Tagset Conversion Using Tagset Drivers”. En: LREC 2008: 28-30.

##plugins.facebook.comentarios##

Downloads

Download data is not yet available.

Most read articles by the same author(s)

Jairo Andrés Navarro Rodríguez, Édgar Casasola Murillo, Identificación automática de las noticias más relevantes en redes sociales en Costa Rica , Káñina: Vol. 40 No. 4 (2016): Káñina número extraordinario
Emmanuel Abarca Jiménez, Rocío Ruiz Ramón, Edgar Casasola Murillo, Use of Gramatical Category for Sentiment Identification , Káñina: Vol. 43 No. 2 (2019): Káñina (May-August)
Mario Hernández Delgado, Jorge Antonio Leoni de León, Édgar Casasola Murillo, Patterns for marking ingredients and order of processes in Costa Rican gastronomic texts , Káñina: Vol. 42 No. 3 (2018): Káñina (October-December)
Edgar Casasola Murillo, Jorge Antonio Leoni de León, Transferencia de la polaridad semántica de frases idiomáticas a comentarios de opinión , Káñina: Vol. 40 No. 3 (2016): Káñina número extraordinario
Édgar Casasola Murillo, Antonio Leoni de León, Gabriela Marín Raventós, Evaluation of potential features present in short texts in spanish in order to classify them by polarity , Káñina: Vol. 40 No. 4 (2016): Káñina número extraordinario