Evaluación de modelos LLMs de código abierto
Para citar o enlazar este item, por favor use el siguiente identificador:
http://dspace.ups.edu.ec/handle/123456789/32056| Título : | Evaluación de modelos LLMs de código abierto |
| Autor : | Pazos Duque, Paul Alejandro |
| Director de Tesis: | Proaño Orellana, Julio Ricardo |
| Resumen traducido: | Open-source large language models have proven to be useful tools for code generation; however, there is a scarcity of evaluations comparing their performance on programming problems with different levels of complexity. This study evaluates four open-source LLMs: Mistral 7B, Phi-3 Mini, Qwen2.5 7B, and DeepSeek-Coder 1.3B in generating solutions for Python programming problems, using nine exercises organized into three difficulty levels: easy, intermediate, and advanced. The models were selected for their availability under open-source licenses that permit academic use and free modification. The evaluation is conducted through a dual approach that includes automated analysis with DeepSeek Chat and human evaluation by an independent evaluator. Standardized criteria for functionality, code clarity, and error handling are applied, providing quantitative scores. The results show significant variations in model performance depending on problem complexity and their specialization, which is relevant for model selection in educational and software development contexts |
| Resumen : | Los modelos de lenguaje grandes de código abierto han demostrado ser herramientas útiles para la generación de código, sin embargo, hay escasez de evaluaciones que comparen su desempeño en problemas de programación con diferentes niveles de complejidad. Este estudio evalúa cuatro LLMs de código abierto: Mistral 7B, Phi-3 Mini, Qwen2.5 7B y DeepSeek-Coder 1.3B en la generación de soluciones para problemas de programación en Python, usando nueve ejercicios organizados en tres niveles de dificultad: fácil, medio y avanzado. Los modelos fueron seleccionados por su disponibilidad bajo licencias open source que permiten su uso académico y modificación libre. La evaluación se lleva a cabo mediante un enfoque dual que incluye análisis automatizado con DeepSeek Chat y evaluación humana por un evaluador independiente. Se aplican criterios estandarizados de funcionalidad, claridad del código y manejo de errores, proporcionando puntuaciones cuantitativas. Los resultados muestran variaciones significativas en el desempeño de los modelos, dependiendo de la complejidad de los problemas y su especialización, lo que es relevante para la selección de modelos en contextos educativos y de desarrollo de software. |
| Palabras clave : | COMPUTACIÓN ANÁLISIS DE SISTEMAS PROGRAMAS PARA COMPUTADOR LENGUAJES DE PROGRAMACIÓN CÓDIGO ABIERTO |
| Fecha de publicación : | feb-2026 |
| URI : | http://dspace.ups.edu.ec/handle/123456789/32056 |
| Idioma: | spa |
| Pertenece a las colecciones: | Grado |
Ficheros en este ítem:
| Fichero | Descripción | Tamaño | Formato | |
|---|---|---|---|---|
| TTS2371.pdf | Texto completo | 484,82 kB | Adobe PDF | Visualizar/Abrir |
Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons