Use este identificador para citar ou linkar para este item:
https://repositorio.unipampa.edu.br/jspui/handle/riu/1605
Tipo: | Trabalho de Conclusão de Curso |
Título: | Dois modelos de aprendizagem profunda para análise morfossintática |
Autor(es): | Treviso, Marcos Vinícius |
Primeiro Orientador: | Kepler, Fábio Natanael |
Resumo: | Part-of-speech Tagging consiste em classificar uma palavra pertencente a um conjunto de textos em uma classe gramatical. Em Processamento de Linguagem Natural estamos sempre buscando métodos modernos para o processo de Part-of-speech Tagging, pois ele pode ser usado como pré-processamento de várias aplicações. Estudamos diferentes métodos para gerar representações de palavras (word embeddings). Propomos dois modelos baseado em aprendizagem profunda: um modelo neural recursivo e um modelo neural recorrente bidirecional. O modelo neural recursivo é guiado por palavras mais fáceis de serem classificadas. O treinamento foi feito sobre três diferentes córpus etiquetados para o português brasileiro. Para cada modelo, avaliamos a acurácia sobre esses córpus utilizando três tipos de representações de palavras, e fizemos uma análise dos erros cometidos por eles. Além disso, comparamos os resultados de acurácia com os trabalhos relacionados e constatamos que nosso modelo recorrente bidirecional conseguiu a segunda melhor acurácia sobre o Mac-Morpho original para palavras fora do vocabulário. Nossos experimentos mostram que o modelo neural recorrente bidirecional é mais eficiente que o recursivo em termos de acurácia e tempo de treinamento. Este trabalho contribui com a definição e implementação de dois etiquetadores que foram disponibilizados à comunidade e que podem ser usados livremente. |
Abstract: | Part-of-speech Tagging consists in classify a given word, that belongs to a collections of texts, with particular part of speech tag. Part-of-speech Tagging can be used as reprocessing of many applications, so, in Natural Language Processing we are always searching for improvement methods. We study different methods to generate words representations (word embeddings). We propose two deep learning models: a recursive neural network model and a bidirectional recurrent neural network model. The recursive neural model is guided, where easy words to predict are classified first. The training was made with three different corpora for Brazilian Portuguese. For each model, we evaluate the accuracy over those corpora using three types of word embeddings, and then we analysed the mistakes made by them. Furthermore, we compare our result with related works, and we found that our bidirectional recurrent model reached the second top accuracy over original Mac-Morpho for out-of-vocabulary words. Our experiments show that the bidirectional recurrent model is more efficient than recursive model in terms of accuracy and training time. This work contributes with a definition and an implementation of two taggers that were made available to the community and can be used freely. |
Palavras-chave: | Deep learning Computer science Natural language processing Part-of-speech Tagging Neural networks |
Editor: | Universidade Federal do Pampa |
Tipo de Acesso: | Attribution-NonCommercial-NoDerivs 3.0 Brazil |
Licença: | http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
URI: | http://dspace.unipampa.edu.br/jspui/handle/riu/1605 |
Data do documento: | 2015 |
Aparece nas coleções: | Ciência da Computação |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Dois modelos de aprendizagem profunda para análise morfossintática.pdf | 3.63 MB | Adobe PDF | Visualizar/Abrir |
Este item está licenciada sob uma Licença Creative Commons