Evaluación de modelos LLMs de código abierto

Pazos Duque, Paul Alejandro

Evaluación de modelos LLMs de código abierto

Para citar o enlazar este item, por favor use el siguiente identificador: http://dspace.ups.edu.ec/handle/123456789/32056

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.contributor.advisor	Proaño Orellana, Julio Ricardo	-
dc.contributor.author	Pazos Duque, Paul Alejandro	-
dc.date.accessioned	2026-02-25T14:52:17Z	-
dc.date.available	2026-02-25T14:52:17Z	-
dc.date.issued	2026-02	-
dc.identifier.uri	http://dspace.ups.edu.ec/handle/123456789/32056	-
dc.description	Los modelos de lenguaje grandes de código abierto han demostrado ser herramientas útiles para la generación de código, sin embargo, hay escasez de evaluaciones que comparen su desempeño en problemas de programación con diferentes niveles de complejidad. Este estudio evalúa cuatro LLMs de código abierto: Mistral 7B, Phi-3 Mini, Qwen2.5 7B y DeepSeek-Coder 1.3B en la generación de soluciones para problemas de programación en Python, usando nueve ejercicios organizados en tres niveles de dificultad: fácil, medio y avanzado. Los modelos fueron seleccionados por su disponibilidad bajo licencias open source que permiten su uso académico y modificación libre. La evaluación se lleva a cabo mediante un enfoque dual que incluye análisis automatizado con DeepSeek Chat y evaluación humana por un evaluador independiente. Se aplican criterios estandarizados de funcionalidad, claridad del código y manejo de errores, proporcionando puntuaciones cuantitativas. Los resultados muestran variaciones significativas en el desempeño de los modelos, dependiendo de la complejidad de los problemas y su especialización, lo que es relevante para la selección de modelos en contextos educativos y de desarrollo de software.	spa
dc.description.abstract	Open-source large language models have proven to be useful tools for code generation; however, there is a scarcity of evaluations comparing their performance on programming problems with different levels of complexity. This study evaluates four open-source LLMs: Mistral 7B, Phi-3 Mini, Qwen2.5 7B, and DeepSeek-Coder 1.3B in generating solutions for Python programming problems, using nine exercises organized into three difficulty levels: easy, intermediate, and advanced. The models were selected for their availability under open-source licenses that permit academic use and free modification. The evaluation is conducted through a dual approach that includes automated analysis with DeepSeek Chat and human evaluation by an independent evaluator. Standardized criteria for functionality, code clarity, and error handling are applied, providing quantitative scores. The results show significant variations in model performance depending on problem complexity and their specialization, which is relevant for model selection in educational and software development contexts	spa
dc.language.iso	spa	spa
dc.rights	openAccess	spa
dc.rights	Atribución-NoComercial-SinDerivadas 3.0 Ecuador	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/ec/	*
dc.subject	COMPUTACIÓN	spa
dc.subject	ANÁLISIS DE SISTEMAS	spa
dc.subject	PROGRAMAS PARA COMPUTADOR	spa
dc.subject	LENGUAJES DE PROGRAMACIÓN	spa
dc.subject	CÓDIGO ABIERTO	spa
dc.title	Evaluación de modelos LLMs de código abierto	spa
dc.type	bachelorThesis	spa
ups.carrera	Computación	spa
ups.sede	Sede Quito	spa
Pertenece a las colecciones:	Grado

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
TTS2371.pdf	Texto completo	484,82 kB	Adobe PDF	Visualizar/Abrir

Mostrar formato sencillo Estadísticas Ver en Google Scholar

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons