Algoritmos para el reconocimiento de estructuras de tablas

Escalona Escalona, Yosveni

Algoritmos para el reconocimiento de estructuras de tablas

Para citar o enlazar este item, por favor use el siguiente identificador: http://dspace.ups.edu.ec/handle/123456789/19701

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.contributor.author	Escalona Escalona, Yosveni	-
dc.date.accessioned	2021-01-25T23:59:00Z	-
dc.date.available	2021-01-25T23:59:00Z	-
dc.date.issued	2021-01	-
dc.identifier.uri	http://dspace.ups.edu.ec/handle/123456789/19701	-
dc.description.abstract	y publicar datos. Por ejemplo, en el Internet se halla un enorme número de tablas publicadas en HTML integradas en documentos PDF, o que pueden ser simplemente descargadas de páginas web. Sin embargo, las tablas no siempre son fáciles de interpretar pues poseen una gran variedad de características y son organizadas en diferentes formatos. De hecho, se han desarrollado muchos métodos y herramientas para la interpretación de tablas. Este trabajo presenta la implementación de un algoritmo, basado en campos aleatorios condicionales (CRF, Conditional Random Fields), para clasificar las filas de una tabla como fila de encabezado, fila de datos y fila metadatos. La implementación se complementa con dos algoritmos para reconocer tablas en hojas de cálculo, específicamente, basados en reglas y detección de regiones. Finalmente, el trabajo describe los resultados y beneficios obtenidos por la aplicación del algoritmo para tablas HTML, obtenidas desde la web y las tablas en forma de hojas de cálculo, descargadas desde el sitio de la Agencia Nacional de Petróleo de Brasil.//Tables are widely adopted to organize and publish data. For example, the Web has an enormous number of tables, published in HTML, embedded in PDF documents, or that can be simply downloaded from Web pages. However, tables are not always easy to interpret due to the variety of features and formats used. Indeed, a large number of methods and tools have been developed to interpreted tables. This work presents the implementation of an algorithm, based on Conditional Random Fields (CRFs), to classify the rows of a table as header rows, data rows or metadata rows. The implementation is complemented by two algorithms for table recognition in a spreadsheet document, respectively based on rules and on region detection. Finally, the work describes the results and the benefits obtained by applying the implemented algorithm to HTML tables, obtained from theWeb, and to spreadsheet tables, downloaded from the Brazilian National Petroleum Agency.	spa
dc.language.iso	spa	spa
dc.rights	openAccess	spa
dc.rights	Atribución-NoComercial-SinDerivadas 3.0 Ecuador	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/ec/	*
dc.subject	datos tabulados; Tabular Data	spa
dc.subject	tablas HTML; HTML Tables	spa
dc.subject	hoja de cálculo; Spreadsheets	spa
dc.subject	campos aleatorios condicionales; Conditional Random Fields	spa
dc.subject	aprendizaje automático;Machine Learning, Algorithm	spa
dc.title	Algoritmos para el reconocimiento de estructuras de tablas	spa
dc.type	Article	spa
Pertenece a las colecciones:	Núm. 25 (enero-junio 2021)

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
ings_n25_Escalona.pdf		1,95 MB	Adobe PDF	Visualizar/Abrir

Mostrar formato sencillo Estadísticas Ver en Google Scholar

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons