Mapeo y síntesis a través de esquemas de clasificación de un dataset referente a artículos científicos sobre el coronavirus a través de lista y nube de palabras de los artículos (etapa 2)

Para citar o enlazar este item, por favor use el siguiente identificador:
Title: Mapeo y síntesis a través de esquemas de clasificación de un dataset referente a artículos científicos sobre el coronavirus a través de lista y nube de palabras de los artículos (etapa 2)
Authors: Pilacuan Erazo, Valeria Lizeth
Advisor: Navas Ruilova, Gustavo Ernesto
Abstract: The optimization attempt of a Systematic Mapping Study (SMS) through Machine Learning has two stages, in the first stage of this study that took the name of "Classification and Mapping of a dataset of Scientific Articles on SARS-CoV2 through List and Cloud of Words”, the author of the work Moromenacho shows the stages of: Definition of the investigation, Search of articles, keywords and Selection of articles, in which the Python and Excel tools are involved, for the automation the Dataset was used. of CORD-19 that was downloaded from Kaggle, in the implementation a file with extension .xlsx was obtained where titles, abstracts and most used words, total words of the text of the articles are found. For this second one, a data validation is carried out, we will deal with the stages of: Selection of relevant articles, keyword search, mapping process and data extraction, the tools used with Python were Apache Spark and the Non-Negative Factorization method of Matrices (NMF) of Machine Learning, to achieve this classification it was necessary to start from the inclusion and exclusion criteria, generate keywords through the model and finally as the main objective to be able to see towards which social aspect a trend is being generated.
Translated abstract: El intento de optimización de un Systematic Mapping Study (SMS) a través de Machine Learning tiene dos etapas, en la primera etapa de este estudio que tomó el nombre de “Clasificación y Mapeo de un dataset de Artículos Científicos sobre SARS CoV2 a través de Lista y Nube de Palabras”, el autor del trabajo Moromenacho muestra las etapas de: Definición de preguntas de investigación, Ejecución de la búsqueda y Selección de artículos relevantes, en la cual involucra las herramientas Python y Excel, para la automatización se utilizó el Dataset de CORD-19 que fue descargado desde Kaggle, en la implementación se obtuvo un archivo con extensión .xlsx donde se encuentran títulos, abstracts y palabras más usadas, total de palabras del texto de los artículos. Para esta segunda se realiza una validación de datos, trataremos las etapas de: Selección de artículos relevantes, búsqueda de palabras clave, proceso de mapeo y extracción de datos, las herramientas que se utilizó con Python fueron Apache Spark y el método de Factorización No Negativa de Matrices (NMF) de Machine Learning, para lograr esta clasificación se tuvo que partir desde los criterios de inclusión y exclusión, generar palabras clave a través del modelo y finalmente como objetivo principal poder ver hacia que aspecto social se esté generando una tendencia.
Issue Date: Mar-2022
Language: spa
Appears in Collections:Grado

Files in This Item:
File Description SizeFormat 
UPS - TTS657.pdfTexto completo497,96 kBAdobe PDFView/Open

This item is licensed under a Creative Commons License Creative Commons