Desarrollo de un algoritmo para el análisis de sentimientos de textos en Kichwa en el ámbito ecuatoriano

Title: Desarrollo de un algoritmo para el análisis de sentimientos de textos en Kichwa en el ámbito ecuatoriano
Authors: Albán Morales, María Fernanda
Gualoto Fuentes, Bryan Xavier
Advisor: Vallejo Huanga, Diego Fernando
Abstract: In the context of cultural and linguistic diversity in Ecuador, the Constitution officially recognizes Kichwa as a means to promote intercultural dialogue. However, this language has been the object of prejudice and stigmatization in the culture and identity of indigenous peoples. Therefore, the state has implemented actions to promote the use of the language, including bilingual educational programs and the creation of cultural materials. Given the primarily oral nature of this language, there is little textual data available, which presents challenges for the development of computational linguistic analysis algorithms. In this research, a dataset was generated in the Kichwa language, manually labeled with lexical valence criteria, to evaluate the emotional charge of the tokens contained in the dictionary between positive, negative, or neutral. This dataset allows performing a sentiment analysis of a new text entered by the user in a web prototype developed using Flask and Python. In the development methodology, data pre-processing uses Natural Language Processing (NLP) techniques and similarity metrics such as the Jaccard coefficient and Vector Cosine are applied to quantify the polarity of the text entered in Kichwa. To validate this system, an experimentation phase was carried out that allowed us to evaluate the performance of our tool against two other sentiment analysis tools built with pre-trained text models. The results show that, when analyzing polarities of Kichwa texts, the developed model achieved a maximum accuracy of 95% and an improvement of 6% and 18% compared to the ChatGPT and Bard models, respectively.
Translated abstract: En el marco de la diversidad cultural y lingüística en Ecuador, la Constitución reconoce oficialmente al Kichwa como un medio para fomentar el diálogo intercultural. Sin embargo, este idioma ha sido objeto de prejuicios y estigmatización en la cultura e identidad de los pueblos indígenas, ergo, el estado ha implementado acciones para promover el uso del idioma, incluyendo programas educativos bilingües y la creación de materiales culturales. Dada la naturaleza mayoritariamente oral de este idioma, existen pocos datos textuales disponibles, por lo que se presentan desafíos para el desarrollo de algoritmos de análisis computacional lingüístico. En esta investigación se generó un dataset en idioma Kichwa, etiquetado manualmente con criterios de valencia léxica, para evaluar la carga emocional de los tokens contenidos en el diccionario entre positivos, negativos o neutros. Este conjunto de datos permite realizar, a-posteriori, el análisis de sentimientos de un nuevo texto ingresado por el usuario, en un prototipo web desarrollado mediante Flask y Python. En la metodología de desarrollo, el pre-procesamiento de datos utiliza técnicas de Procesamiento del Lenguaje Natural (NLP) y se aplican métricas de similitud como el coeficiente de Jaccard y Coseno Vectorial para cuantificar la polaridad del texto ingresado en Kichwa. Para la validación de este sistema se llevó a cabo una fase de experimentación que permitió evaluar el rendimiento de nuestra herramienta frente a otras dos herramientas de análisis de sentimientos construidas con modelos de texto pre-entrenados. Los resultados muestran que, al analizar polaridades de textos en Kichwa, el modelo desarrollado alcanzó una exactitud máxima del 95\% y una mejora del 6% y 18% en comparación con los modelos de ChatGPT y Bard, respectivamente.
Issue Date: Feb-2024
Language: spa
