Análise de sentimento usando a representação distribuída de parágrafos para o português

Araújo, Filipe Santos

???jsp.display-item.identifier??? https://repositorio.unipampa.edu.br/jspui/handle/riu/1601

???org.dspace.app.webui.jsptag.ItemTag.full???

???org.dspace.app.webui.jsptag.ItemTag.dcfield???	???org.dspace.app.webui.jsptag.ItemTag.value???	???org.dspace.app.webui.jsptag.ItemTag.lang???
dc.contributor.advisor1	Kepler, Fábio Natanael	-
dc.creator	Araújo, Filipe Santos	-
dc.date.accessioned	2017-06-07T14:26:08Z	-
dc.date.available	2017-06-07T14:26:08Z	-
dc.date.issued	2015	-
dc.identifier.uri	http://dspace.unipampa.edu.br/jspui/handle/riu/1601	-
dc.description.abstract	Distributed representation of words has been very discussed in the Natural Language Processing area (NLP). With the continuous growth of information on the Internet in recent decades, there is a need to in analysis tasks of this large volume of data to computers, tasks that were usually performed manually in order to make them more viable and efficient. Distributed representation of words consists of obtaining a richer modeling framework that considers relevant aspects like ordergin, semantics and compositionality of the words in a sentence. The difficulty increases when these sentences tend to grow in size, which is the case of texts with a large number paragraphs. Once you have all the sentences of a given text structured in vectors it is possible, for example, to sumarize an entire document, extract sentiment, recognize expressions, translate it into another language, among other various types of tasks. Recent studies, such as (LE; MIKOLOV, 2014) have presented techniques such as Word Vector and Paragraph Vector, which are able to take words, sentences and even paragraphs and distribute them into vectors. These techniques have shown significant gains in tasks such as Automatic Sentiment Analysis (SA) and Information Retrieval over traditional language models such as Bag-of-Words, N-gram and Skip-gram. This papaer aims to replicate the experiments made in SA task using a Brazilian Portuguese corpus.The experiments performed with the ReLi corpus in Brazilian Portuguese using the 10-fold Cross-validation method achieved a average combined accuracy of 82.99%. This higher than expected result was a consequence of an unequal number of sentences in this corpus. More experiments were performed with modified versions of the ReLi in attempt to make the number of sentences equal in the training and testing stages, resulting in a average combined accuracy 60.59% when the number of sentences with positive and negative polarity are equal.	en
dc.format.mimetype	pdf	pt_BR
dc.language.iso	por	pt_BR
dc.publisher	Universidade Federal do Pampa	pt_BR
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Brazil	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/br/	*
dc.subject	Computer science	en
dc.subject	Natural language processing	en
dc.subject	Paragraph Vector	en
dc.subject	Portuguese language	en
dc.subject	Sentiment	en
dc.title	Análise de sentimento usando a representação distribuída de parágrafos para o português	pt_BR
dc.type	Trabalho de Conclusão de Curso	pt_BR
dc.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA	-
dc.description.resumo	Muito vem sendo discutido dentro da área de Processamento de Linguagem Natural (PLN), sobre a representação distribuída de palavras de um determinado texto. Com o contínuo crescimento de informação na internet nas últimas décadas, surge a necessidade de passar tarefas de análise desse grande volume de informação para a máquina, tarefas estas que antes eram realizadas manualmente, de modo a torná-las mais viáveis e eficientes. A representação distribuída de palavras consiste em obter uma estrutura de modelagem mais rica, que considera aspectos relevantes como ordenação, semântica e a composicionalidade das palavras de uma sentença. A dificuldade se agrava quando estas sentenças tendem a crescer no tamanho, que é o caso de textos com um grande número de parágrafos. Uma vez que se tem todas as sentenças de um determinado texto estruturadas em vetores, é possível, por exemplo, sumarizar um documento por completo, extrair sentimento, reconhecer expressões, traduzi-lo para outro idioma, dentre outros diversos tipos de tarefas. Trabalhos recentes, como o de (LE; MIKOLOV, 2014) têm apresentado técnicas como Word Vector e Paragraph Vector, que são capazes de pegar palavras, sentenças e até parágrafos e distribuí-los em vetores. Essas técnicas têm mostrado ganhos significativos em tarefas como a Análise Automática de Sentimentos (AS) e Recuperação de Informações em relação aos tradicionais modelos de linguagens utilizados como o Bagof-Words, N-grama e Skip-grama. Esse trabalho tem como meta replicar os experimentos realizados na tarefa de AS utilizando córpus para o português brasileiro. Os experimentos realizados com o córpus em português brasileiro ReLi utilizando o método 10-fold Crossvalidation atingiram uma acurácia combinada média de 82,99%. Esse resultado acima do esperado foi consequência de uma desigualdade no número de sentenças presente no córpus. Foram realizados mais experimentos com versões modificadas do ReLi buscando igualar o número de sentenças nas etapas de treinamento e teste, o que resultou numa acurácia combinada média 60,59% quando se iguala o número de sentenças com polaridade positiva e negativa.	pt_BR
dc.subject.keyword	Ciência da computação	pt_BR
dc.subject.keyword	Processamento de linguagem natural	pt_BR
dc.subject.keyword	Paragraph Vector	pt_BR
dc.subject.keyword	Língua portuguesa	pt_BR
dc.subject.keyword	Sentimentos	pt_BR
dc.rights.licence	Acesso Aberto	pt_BR
???org.dspace.app.webui.jsptag.ItemTag.appears???	Ciência da Computação

???org.dspace.app.webui.jsptag.ItemTag.files???

???org.dspace.app.webui.jsptag.ItemTag.file???	???org.dspace.app.webui.jsptag.ItemTag.description???	???org.dspace.app.webui.jsptag.ItemTag.filesize???	???org.dspace.app.webui.jsptag.ItemTag.fileformat???
Análise de sentimento usando a representação distribuída de parágrafos para o português.pdf		690.03 kB	Adobe PDF	???org.dspace.app.webui.jsptag.ItemTag.view???

???jsp.display-item.text1??? ???jsp.display-item.display-statistics???

???jsp.display-item.text3??? ???jsp.display-item.license???