Análisis comparativo del rendimiento de algoritmos de clasificación binaria en un conjunto de datos desbalanceados

Para citar o enlazar este item, por favor use el siguiente identificador: http://dspace.ups.edu.ec/handle/123456789/22246
Título : Análisis comparativo del rendimiento de algoritmos de clasificación binaria en un conjunto de datos desbalanceados
Autor : Bahamonde Morales, Diego Ismael
Tapia Pisarro, Wilian Steve
Director de Tesis: Morillo Alcívar, Paulina Adriana
Resumen traducido: Identifying the class of an object is a supervised machine learning task whose performance depends, almost exclusively, on the dataset used in training. Therefore, one of the challenges faced by classification algorithms, specifically binary classification, is learning to clearly distinguish between two classes, when you have a much larger number of instances of one class than another. To avoid bias in the classification, data balancing techniques are usually used that seek to balance the dataset, increasing or reducing the number of instances of the minority class and the majority class, respectively. This paper proposes a comparative analysis of the performance of four classifiers such as Logistic Regression, Random Forest, Artificial Neural Networks and Nayve Bayes combined with four different data balancing techniques Near Miss, SMOTE, SMOTEENN and SMOTETomek. The results show that Near Miss achieves a proper balance between the classes, so that the algorithms increased their overall performance, reaching precision and accuracy greater than 95\%. The rest of the techniques, on the other hand, did not increase the ability of the classifiers to identify objects of the minority class, with the exception of Random forest and Artificial Neural Networks, which achieved a true negative rate greater than 70%, while maintaining a true positive rate greater than 80%. Similarly, the training and testing times of the balanced data sets with oversampling techniques or hybrids are far superior to the times obtained by undersampling techniques such as Near Miss, since the latter reduces the number of instances to be processed by the models.
Resumen : La identificación de la clase de un objeto es una tarea del aprendizaje de máquina supervisado cuyo rendimiento depende, casi exclusivamente, del conjunto de datos usado en el entrenamiento. Por lo tanto, uno de los retos que enfrentan los algoritmos de clasificación, específicamente de clasificación binaria, es aprender a distinguir claramente entre dos clases, cuando se tiene un número mucho mayor de instancias de una clase, que de otra. Para evitar el sesgo en la clasificación se suele recurrir a técnicas de balanceo de datos que buscan equilibrar el dataset, incrementando o reduciendo el número de instancias de la clase minoritaria y de la clase mayoritaria, respectivamente. Este trabajo propone un análisis comparativo del rendimiento de cuatro clasificadores como Regresión Logística, Random Forest, Redes Neuronales Artificiales y Nayve Bayes, combinados con cuatro técnicas diferentes de balanceo de datos Near Miss, SMOTE, SMOTEENN y SMOTETomek. Los resultados muestran que Near Miss logra un equilibrio adecuado entre las clases, de modo que, los algoritmos aumentaron su rendimiento general, alcanzando precisiones y exactitudes mayores al 95%. El resto de técnicas, por su parte, no aumentaron la capacidad de los clasificadores para identificar objetos de la clase minoritaria, a excepción de Random forest y Redes neuronales artificiales, que lograron una tasa de verdaderos negativos superior al 70%, manteniendo a su vez, una tasa de verdaderos positivos mayor al 80%. De igual forma, los tiempos de entrenamiento y prueba de los conjuntos de datos balanceados con técnicas de sobremuestreo o híbridos son muy superiores a los tiempos obtenidos por técnicas de submuestreo como Near Miss, ya que esta última reduce el número de instancias a ser procesadas por los modelos.
Palabras clave : COMPUTACIÓN
ANÁLISIS DE SISTEMAS
ALGORITMOS
CLASIFICACIÓN BINARIA
BASES DE DATOS
Fecha de publicación : mar-2022
URI : http://dspace.ups.edu.ec/handle/123456789/22246
Idioma: spa
Pertenece a las colecciones: Grado

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
UPS - TTS706.pdfTexto completo631,3 kBAdobe PDFVisualizar/Abrir


Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons