Swin Transformer V2 para clasificación de café lojano

Para citar o enlazar este item, por favor use el siguiente identificador: http://dspace.ups.edu.ec/handle/123456789/31954
Título : Swin Transformer V2 para clasificación de café lojano
Autor : Betancourt, P.
Cumbicus, O.
Resumen traducido: Esta investigación presenta un modelo de clasificación binaria para granos de café verde de la variedad arábico procedentes de la región de Loja, Ecuador, basado en la arquitectura Swin Transformer V2. Se emplearon dos fuentes de datos, el conjunto de datos público USK-Coffee, de origen indonesio, y un con junto de datos propio capturado bajo condiciones controladas. Se evaluaron dos estrategias de entre namiento: transferencia secuencial y entrenamiento unificado, siendo este último el que alcanzó una pre cisión de validación del 98,30 %. Tras la optimización de hiperparámetros, el modelo logró una precisión del 100 %enunconjunto de prueba de 150 imágenes y del 93 % en un conjunto de generalización externo de 400 imágenes con condiciones variables de iluminación y fondo. La interpretabilidad del modelo se validó mediante Grad-CAM, evidenciando que la red enfoca su atención en zonas defectuosas reales. Un análisis de ablación mostró que la disminución de rendimiento en escenarios no controlados se debe principalmente a la sensibilidad al ruido y a la iluminación extrema. Como principales aportes, se destaca la creación de un conjunto de datos especializado y un modelo eficiente para la clasificación automática de café verde arábico.//This study presents a binary classification model for green coffee beans of the Arabica variety from the Loja region in Ecuador, based on the Swin Trans former V2 architecture. Two datasets were used, the public USK-COFFEE dataset of Indonesian origin and a proprietary dataset captured under controlled conditions. Two training strategies were evaluated: sequential transfer learning and unified training, with the latter achieving a validation accuracy of 98.30%. After hyperparameter optimization, the model reached 100% accuracy on a test set of 150 images and 93% accuracy on an external generalization set of 400 images with varying lighting conditions and backgrounds. Model interpretability was validated using Grad-CAM, demonstrating that the network focuses on actual defective regions rather than back ground information. An ablation analysis revealed that performance degradation in unconstrained scenarios is mainly due to sensitivity to noise and ex treme lighting conditions. The main contributions of this work include the creation of a specialized dataset for Arabica green coffee from Loja and the development of an efficient model for its automatic classification.
Palabras clave : clasificación de café; coffee classification
inteligencia artificial; artificial intelligence
Vision Transformer; Vision Transformer
Swin Transformer; Swin Transformer
visión por computadora; computer vision
aprendizaje por transferencia; transfer learning
Fecha de publicación : ene-2026
URI : http://dspace.ups.edu.ec/handle/123456789/31954
Idioma: spa
Pertenece a las colecciones: Núm. 35 (enero-junio 2026)

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
Ing_n35_art.10_Betancourt_Cumbicus.pdf3,12 MBAdobe PDFVisualizar/Abrir


Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons