Evaluación de modelos LLMs de código abierto

Para citar o enlazar este item, por favor use el siguiente identificador: http://dspace.ups.edu.ec/handle/123456789/32056
Título : Evaluación de modelos LLMs de código abierto
Autor : Pazos Duque, Paul Alejandro
Director de Tesis: Proaño Orellana, Julio Ricardo
Resumen traducido: Open-source large language models have proven to be useful tools for code generation; however, there is a scarcity of evaluations comparing their performance on programming problems with different levels of complexity. This study evaluates four open-source LLMs: Mistral 7B, Phi-3 Mini, Qwen2.5 7B, and DeepSeek-Coder 1.3B in generating solutions for Python programming problems, using nine exercises organized into three difficulty levels: easy, intermediate, and advanced. The models were selected for their availability under open-source licenses that permit academic use and free modification. The evaluation is conducted through a dual approach that includes automated analysis with DeepSeek Chat and human evaluation by an independent evaluator. Standardized criteria for functionality, code clarity, and error handling are applied, providing quantitative scores. The results show significant variations in model performance depending on problem complexity and their specialization, which is relevant for model selection in educational and software development contexts
Resumen : Los modelos de lenguaje grandes de código abierto han demostrado ser herramientas útiles para la generación de código, sin embargo, hay escasez de evaluaciones que comparen su desempeño en problemas de programación con diferentes niveles de complejidad. Este estudio evalúa cuatro LLMs de código abierto: Mistral 7B, Phi-3 Mini, Qwen2.5 7B y DeepSeek-Coder 1.3B en la generación de soluciones para problemas de programación en Python, usando nueve ejercicios organizados en tres niveles de dificultad: fácil, medio y avanzado. Los modelos fueron seleccionados por su disponibilidad bajo licencias open source que permiten su uso académico y modificación libre. La evaluación se lleva a cabo mediante un enfoque dual que incluye análisis automatizado con DeepSeek Chat y evaluación humana por un evaluador independiente. Se aplican criterios estandarizados de funcionalidad, claridad del código y manejo de errores, proporcionando puntuaciones cuantitativas. Los resultados muestran variaciones significativas en el desempeño de los modelos, dependiendo de la complejidad de los problemas y su especialización, lo que es relevante para la selección de modelos en contextos educativos y de desarrollo de software.
Palabras clave : COMPUTACIÓN
ANÁLISIS DE SISTEMAS
PROGRAMAS PARA COMPUTADOR
LENGUAJES DE PROGRAMACIÓN
CÓDIGO ABIERTO
Fecha de publicación : feb-2026
URI : http://dspace.ups.edu.ec/handle/123456789/32056
Idioma: spa
Pertenece a las colecciones: Grado

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
TTS2371.pdfTexto completo484,82 kBAdobe PDFVisualizar/Abrir


Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons