Alineación forzada sin entrenamiento para la anotación automática de corpus orales de las lenguas indígenas de Costa Rica

Rolando Coto-Solano; Sofía Flores Solórzano

doi:10.15517/rk.v40i4.30234

Vol. 40 No. 4 (2016), Artlcles

Vol. 40 No. 4 (2016)

Alineación forzada sin entrenamiento para la anotación automática de corpus orales de las lenguas indígenas de Costa Rica

Artlcles

https://doi.org/10.15517/rk.v40i4.30234

Published August 16, 2017

Rolando Coto-Solano⁺⁻
Sofía Flores Solórzano⁺⁻

Rolando Coto-Solano

Universidad de Arizona.

Sofía Flores Solórzano

Universidad de Costa Rica, Profesora de la Sede Regional del Atlántico.

PDF (Español (España))

How to Cite

Coto-Solano, R., & Flores Solórzano S. (2017). Alineación forzada sin entrenamiento para la anotación automática de corpus orales de las lenguas indígenas de Costa Rica. Káñina, 40(4), 175–199. https://doi.org/10.15517/rk.v40i4.30234

Abstract

La alineación forzada provee un ahorro drástico de tiempo al segmentar grabaciones de habla. Esto es parti- cularmente útil para las lenguas indígenas, las cuales carecen de recursos para su estudio desde la lingüística computacional. Este artículo presenta un método para alinear grabaciones en bribri, cabécar y malecu usando modelos acústicos entrenados para inglés y francés. Se usaron los sistemas FAVE-align e EasyAlign para pro- ducir TextGrids de Praat, y se obtuvieron errores de 2~3 milisegundos para el centro de las palabras en bribri y malecu (8~13% de la duración de las palabras) y de 7 milisegundos para el cabécar (37% de la duración de las palabras). Los fonemas también tuvieron un desempeño adecuado; para el bribri y el malecu el 40% de los fonemas estaban alineados con un error igual o menor a 1 milisegundo, mientras que esta cifra es de 24% para el cabécar. El desempeño más bajo del cabécar puede deberse a que usó una grabación con más ruido ambien- tal. Estos sistemas de alineación forzada pueden ayudar al estudio automatizado de las lenguas de Costa Rica mediante la generación de corpus alineados que puedan usarse para estudios fonéticos y para entrenamiento de modelos acústicos y de reconocimiento del habla.

https://doi.org/10.15517/rk.v40i4.30234

PDF (Español (España))

References

Adda-Decker, Martine y Natalie Snoeren. 2011. “Quantifying temporal speech reduction in French using forced speech alignment”. En: Journal of Phonetics XXXIX:261–270.

Biadsy, Fadi y Julia Hirschberg. 2009. Using Prosody and Phonotactics in Arabic Dialect Identification. Interspeech 2009.

Boersma, Paul. 2001. “Praat, a system for doing phonetics by computer”. En: Glot International V(9/10):341-345.

Brognaux, Sandrine et al. 2012. Train&Align: A New Online Tool for Automatic Phonetic Alignment. Spoken Language Technology Workshop (SLT) 2012, IEEE. 416-421.

Buszard-Welcher, Laura. 2001. “Can the web help save my language?”. En: The Green Book

of Language Revitalization in Practice. Pgs. 331-45.

Constenla, Adolfo. 1998. Curso básico de bribri. San José: Editorial de la Universidad de Costa Rica.

Constenla, Adolfo. 1999. Gramática de la lengua guatusa. San José: EUNA.

Constenla, Adolfo. 2015. Muérrajá Mausírrajáca Pláticas sobre ogros. San José: Editorial de la Universidad de Costa Rica. Pgs. 51-52, 116-118.

Coto-Solano, Rolando. 2015. The Phonetics, Phonology and Phonotactics of the Bribri Language. 2nd International Conference on Mesoamerican Linguistics. Los Angeles: California State University. https://www.aca- demia.edu/11365794/The_phonetics_pho- nology_and_phonotactics_of_the_Bribri_ Language. Consulta: 25 de enero, 2016.

Cho, Taehong y Peter Ladefoged. 1999. “Variation and universals in VOT: evidence from 18 languages”. En: Journal of Phonetics XXVII:207–229.

DiCanio, Christian et al. 2012. “Assessing agre- ement level between forced alignment models with data from endangered lan- guage documentation corpora”. En: Proceedings of InterSpeech 2012.

DiCanio, Christian et al. 2013. “Using auto- matic alignment to analyze endange- red language data: Testing the viabili- ty of untrained alignment”. En: Journal of the Acoustic Society of America, CXXXIV(3):2235-2246.

Ernestus, Mirjam y Natasha Warner. 2011. “An introduction to reduced pronuncia- tion variants”. En: Journal of Phonetics XXXIX(3):253-260.

Flores Solórzano, Sofía. 2010. “Teclado Chibcha: Un software lingüístico para los siste- mas de escritura de las lenguas bribri y cabécar”. En: Revista de Filología y Lingüística XXXVI(2):155-161.

Font Llitjós, Ariadna, Lori Levin y Roberto Aranovich. 2010. Building Machine trans- lation systems for indigenous languages. CILLA 2. http://www.cs.cmu.edu/~aria/ Papers/FontAranovich_CILLA2_mapu- che_quechua(2).pdf. Consulta: 20 de enero, 2016.

Gasser, Mike. 2006. Machine Translation and the Future of Indigenous Languages. I Congreso Internacional de las Lenguas y Literaturas Indoamericanas. ftp:// ftp.cs.indiana.edu/pub/gasser/cilli.pdf. Consulta: 16 de enero, 2016.

Goldman, Jean-Philippe. 2011. “EasyAlign: an automatic phonetic alignment tool under Praat”. En: Proceedings of InterSpeech 2011.

González Campos, Guillermo. 2011. “Dificultades para normalización orto- gráfica y problemas de escritura entre los cabécares de Chirripó”. En: Lingüística Chibcha XXX:7-35.

Jara Murillo, Carla y Alí García Segura. 2009.

Se’ ẽ’ yawö bribri wa Aprendemos la lengua bribri. San José: Editorial de la Universidad de Costa Rica. Pgs. 155-159.

Labov, William, Ingrid Rosenfelder y Josef Fruehwald. 2013. “One hundred years of sound change in philadelphia: Linear incrementation, reversal, and reanalysis”. En: Language, LXXXIX(1):30–65.

Lin, Cheng Yuan, Jyh-Shing Roger Jang y Kuan- Ting Chen. 2005. “Automatic segmentation and labeling for Mandarin Chinese speech corpora for concatenation-based TTS”.

En: Computational Linguistic Chinese Language Processing X(2):145–166.

Lisker, Leigh y Arthur Abramson. 1964. “A cross-language study of voicing in ini- tial stops: acoustical measurements”. En: Word XX:384-422.

R Core Team. 2013. R: A language and envi- ronment for statistical computing. R Foundation for Statistical Computing, Viena, Austria. http://www.R-project.org/. Consulta: 20 de enero, 2016.

Rosenfelder, Ingrid et al. FAVE (Forced Alignment and Vowel Extraction) Program Suite. http://fave.ling.upenn.edu. Consulta: 20 de enero, 2016.

Sánchez Avendaño, Carlos. 2013. “Lenguas en peligro en Costa Rica: Vitalidad, docu- mentación y descripción”. En: Káñina XXXVII(1):219-250.

Schiel, Florian y Christoph Draxler. 2003. The production of speech corpora. Bavarian Archive for Speech Signals.

Sim, Khe Chai y Haizhou Li. 2008. “Robust phone mapping using decision tree clus- tering for cross-lingual phone recogni- tion”. En: Proceedings of the International Conference on Acoustics, Speech, and Signal Processing (ICASSP): 4309–4312.

Strunk, Jan, Florian Schiel y Frank Seifart. 2014. “Untrained Forced Alignment of Transcriptions and Audio for Language Documentation Corpora using WebMAUS”. En: Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC’14):3940-3947.

Wightman, Colin y David Talkin. 1997. “The Aligner: Text to speech alignment using Markov Models”. En: Progress in Speech Synthesis. Nueva York: Springer Verlag. Pgs. 313-323.

Yoon, Tae-Jin. 2008. HTK-TIMIT Forced Alignment Toolkit. http://web.uvic. ca/~tyoon/resource/htk_utt.m. Consulta: 15 de enero, 206.

Young, Steve et al. 2010. The HTK Book. Cambridge University Engineering Department. http://htk.eng.cam.ac.uk/. Consulta: 15 de enero, 2016.

Yuan, Jiahong et al. 2013. “Automatic Phonetic Segmentation using Boundary Models”. En: Proceedings of Interspeech 2013:2306-2310.

Yuan, Jiahong y Mark Liberman. 2008. “Speaker identification on the SCOTUS corpus”. En: Proceedings of Acoustics ‘08.

Yuan, Jiahong y Mark Liberman. 2009. “Investigating /l/ variation in English through forced alignment”. En: Proceedings of InterSpeech 2009:2215– 2218.

Comments

Downloads

Download data is not yet available.

Alineación forzada sin entrenamiento para la anotación automática de corpus orales de las lenguas indígenas de Costa Rica

How to Cite

Download Citation

Abstract

References

Comments

Downloads