Use este identificador para citar ou linkar para este item: https://repositorio.unipampa.edu.br/jspui/handle/riu/1580
Tipo: Trabalho de Conclusão de Curso
Título: Extração de dados na web: transformando listas HTML em formato tabular
Autor(es): Marx, William Felipe
Primeiro Orientador: Mergen, Sergio Luis Sardi
Resumo: Dentro da linguagem HTML, existem construtores que, embora voltados primariamente para formatação visual, servem também para estruturar a informação. Um desses construtores são as listas. Verificando blocos de texto contidos em listas, é possível perceber uma divisão inicial que organiza a informação como uma coleção de registros. Dada essas características das listas HTML, surgiram trabalhos acadêmicos que visam transformar os blocos de dados contidos nas listas em tabelas de dados, compostas por linhas e colunas. Um dos trabalhos mais conceituados, chamado ListExtractor, depende de bases de informação preexistentes para realizar a transformação. Esse tipo de estruturação de fontes de dados é útil em pesquisas relacionadas à dataspaces, e tem aplicação direta em áreas como integração de dados, extração de conhecimento e recuperação de informação. Dentro deste contexto, o objetivo deste trabalho é a criação de uma série de regras estatísticas que visam transformar listas em tabelas. De modo geral, as regras se valem da presença e frequência no texto de caracteres especiais que costumam ser usados para realizar a separação de conteúdo, e não dependem de bases de conhecimento preexistentes. As regras propostas correspondem a extratores de dados, que podem ser incorporadas em arquiteturas de dataspaces. Os experimentos mostram o desempenho dos extratores criados na transformação de listas HTML reais recuperadas da Web. Também é feita uma comparação entre os extratores propostos e o ListExtractor.
Abstract: Some HTML constructs are used not only for visualization purposes but also to structure information. One of such structures is used to represent lists. Looking at the markup of HTML lists, it is possible to see that the information is organized as a collection of records. Given this, some works aim at transforming the text records into tables, composed by records and columns. One of the most known works, called ListExtractor, depends on existent knowledge bases in order to perform the transformation. This kind of data source structuring is useful in researches related to dataspaces, and have direct application in areas like data integration, knowledge extraction and information retrieval. In this context, the goal of this work is creation a series of statistical rules whose goal is to transform lists into tables. Generally speaking, the rules explore the presence and frequency of special characters inside the text to perform the contente segmentation, and they do not rely on existent knowledge bases. The proposed rules correspond to data extractors, which can be incorporated in dataspaces architectures. Experiments show the extractors performance when applied to real HTML lists found on the Web. Additionally, a comparison is made between the extractors and the ListExtractor approach.
Palavras-chave: Computer science
HTML
Data
Web
CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA
Editor: Universidade Federal do Pampa
Tipo de Acesso: Attribution-NonCommercial-NoDerivs 3.0 Brazil
Licença: http://creativecommons.org/licenses/by-nc-nd/3.0/br/
URI: http://dspace.unipampa.edu.br/jspui/handle/riu/1580
Data do documento: 4-Mar-2013
Aparece nas coleções:Ciência da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
Extração de dados na web - transformando listas html em formato tabular.pdf3.24 MBAdobe PDFVisualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons