Evaluación de modelos LLMs de código abierto

Para citar o enlazar este item, por favor use el siguiente identificador: http://dspace.ups.edu.ec/handle/123456789/32056
Registro completo de metadatos
Campo DC Valor Lengua/Idioma
dc.contributor.advisorProaño Orellana, Julio Ricardo-
dc.contributor.authorPazos Duque, Paul Alejandro-
dc.date.accessioned2026-02-25T14:52:17Z-
dc.date.available2026-02-25T14:52:17Z-
dc.date.issued2026-02-
dc.identifier.urihttp://dspace.ups.edu.ec/handle/123456789/32056-
dc.descriptionLos modelos de lenguaje grandes de código abierto han demostrado ser herramientas útiles para la generación de código, sin embargo, hay escasez de evaluaciones que comparen su desempeño en problemas de programación con diferentes niveles de complejidad. Este estudio evalúa cuatro LLMs de código abierto: Mistral 7B, Phi-3 Mini, Qwen2.5 7B y DeepSeek-Coder 1.3B en la generación de soluciones para problemas de programación en Python, usando nueve ejercicios organizados en tres niveles de dificultad: fácil, medio y avanzado. Los modelos fueron seleccionados por su disponibilidad bajo licencias open source que permiten su uso académico y modificación libre. La evaluación se lleva a cabo mediante un enfoque dual que incluye análisis automatizado con DeepSeek Chat y evaluación humana por un evaluador independiente. Se aplican criterios estandarizados de funcionalidad, claridad del código y manejo de errores, proporcionando puntuaciones cuantitativas. Los resultados muestran variaciones significativas en el desempeño de los modelos, dependiendo de la complejidad de los problemas y su especialización, lo que es relevante para la selección de modelos en contextos educativos y de desarrollo de software.spa
dc.description.abstractOpen-source large language models have proven to be useful tools for code generation; however, there is a scarcity of evaluations comparing their performance on programming problems with different levels of complexity. This study evaluates four open-source LLMs: Mistral 7B, Phi-3 Mini, Qwen2.5 7B, and DeepSeek-Coder 1.3B in generating solutions for Python programming problems, using nine exercises organized into three difficulty levels: easy, intermediate, and advanced. The models were selected for their availability under open-source licenses that permit academic use and free modification. The evaluation is conducted through a dual approach that includes automated analysis with DeepSeek Chat and human evaluation by an independent evaluator. Standardized criteria for functionality, code clarity, and error handling are applied, providing quantitative scores. The results show significant variations in model performance depending on problem complexity and their specialization, which is relevant for model selection in educational and software development contextsspa
dc.language.isospaspa
dc.rightsopenAccessspa
dc.rightsAtribución-NoComercial-SinDerivadas 3.0 Ecuador*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/ec/*
dc.subjectCOMPUTACIÓNspa
dc.subjectANÁLISIS DE SISTEMASspa
dc.subjectPROGRAMAS PARA COMPUTADORspa
dc.subjectLENGUAJES DE PROGRAMACIÓNspa
dc.subjectCÓDIGO ABIERTOspa
dc.titleEvaluación de modelos LLMs de código abiertospa
dc.typebachelorThesisspa
ups.carreraComputaciónspa
ups.sedeSede Quitospa
Pertenece a las colecciones: Grado

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
TTS2371.pdfTexto completo484,82 kBAdobe PDFVisualizar/Abrir


Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons