Análise comparativa do pré-processamento de dados na classificação de sementes

Lopes, Victor Hugo Schneider

Por favor, use este identificador para citar o enlazar este ítem: https://repositorio.unipampa.edu.br/jspui/handle/riu/9411

Tipo:	Trabalho de Conclusão de Curso
Título :	Análise comparativa do pré-processamento de dados na classificação de sementes
Autor(es):	Lopes, Victor Hugo Schneider
Primeiro Orientador:	Oliveira, Alessandro Bof de
Resumo:	Definir o tipo e a qualidade de uma semente antes do seu plantio é uma tarefa vital para a colheita, uma vez que o uso de sementes de baixa qualidade pode resultar em baixa produtividade, mesmo em condições de cultivo favoráveis. Essa tarefa tem sido realizada de maneira manual, tornando-a árdua, demorada e propensa a erros. Técnicas de aprendizado de máquina podem solucionar esse problema ao utilizar algoritmos de classificação para rotular sementes em diferentes classes, reduzindo a dificuldade, o tempo consumido e a quantidade de erros. No entanto, essas técnicas estão sujeitas à qualidade dos dados fornecidos a elas, como a presença de dados faltantes, outliers e dados não normalizados, impactando diretamente o desempenho da classificação, que geralmente é sensível à presença dessas características nos conjuntos de dados fornecidos. Para aumentar a qualidade dos dados fornecidos aos classificadores, técnicas de pré-processamento de dados podem ser aplicadas. Este trabalho investiga o impacto das técnicas de pré-processamento de dados no desempenho de modelos de aprendizado de máquina na classificação de sementes de feijão seco. Utilizando um conjunto de dados do Repositório de Aprendizado de Máquina da UCI, derivado de um experimento realizado por Koklu e Ozkan (KOKLU; OZKAN, 2020), foram aplicadas várias técnicas de pré-processamento, como imputação de valores faltantes, remoção de outliers e normalização de dados. Métodos de classificação k-Vizinhos Mais Próximos (kNN) e Perceptron Multicamadas (MLP) foram usados para avaliar a eficácia dessas técnicas de pré-processamento. Além disso, foi proposto um modelo MLP aprimorado com parâmetros otimizados, incluindo a taxa de aprendizado e a configuração das camadas ocultas. Os resultados experimentais demonstram o papel crítico do pré-processamento de dados, especialmente da normalização de dados. O modelo MLP aprimorado superou significativamente o modelo de base, destacando a importância da utilização de um modelo de rede neural otimizado para resolver o problema.
Resumen :	Defining the type and quality of a seed before planting is vital for the harvest, as the use of low-quality seeds can result in low productivity, even under favorable growing conditions. This task has traditionally been performed manually, making it arduous, time-consuming, and prone to errors. Machine learning techniques can solve this problem by using classification algorithms to label seeds into different classes, reducing difficulty, time consumption, and the number of errors. However, these techniques are subject to the quality of the data provided to them, such as the presence of missing data, outliers, and unnormalized data, which directly impact the performance of the classification, as it is generally sensitive to these characteristics in the datasets provided. To increase the quality of the data provided to the classifiers, data preprocessing techniques can be applied. This paper investigates the impact of data preprocessing techniques on the performance of machine learning models in the classification of dry bean seeds. Using a dataset from the UCI Machine Learning Repository, derived from an experiment by Koklu and Ozkan (KOKLU; OZKAN, 2020), various preprocessing techniques, such as missing value imputation, outlier removal, and data normalization, were applied. kNearest Neighbors (kNN) and Multi-Layer Perceptron (MLP) classification methods were used to evaluate the effectiveness of these preprocessing techniques. Additionally, an enhanced MLP model with optimized parameters, including the learning rate and hidden layer configuration, was proposed. The experimental results demonstrate the critical role of data preprocessing, especially data normalization. The enhanced MLP model significantly outperformed the baseline model, highlighting the importance of using an optimized neural network model to solve the problem.
Palabras clave :	Ciência da computação Aprendizado do computador Pré-processamento de dados Sementes - Classificação Computer science Computer learning Data preprocessing Seeds - Classification
CNPQ:	CNPQ::CIENCIAS EXATAS E DA TERRA
Idioma:	por
metadata.dc.publisher.country:	Brasil
Editorial :	Universidade Federal do Pampa
Sigla da Instituição:	UNIPAMPA
Campus:	Campus Alegrete
Citación :	LOPES, Victor Hugo Schneider. Análise comparativa do pré-processamento de dados na classificação de sementes. Orientador: Alessandro Bof de Oliveira. 2024. 116p. Trabalho de Conclusão de Curso (Bacharel em Ciência da Computação) - Universidade Federal do Pampa, Curso de Ciência da Computação, Alegrete, 2024.
Tipo de acesso:	Acesso Aberto
URI :	https://repositorio.unipampa.edu.br/jspui/handle/riu/9411
Fecha de publicación :	2-jul-2024
Aparece en las colecciones:	Ciência da Computação

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
TCC - Victor Hugo Schneider Lopes - 2024.pdf		3.55 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro Dublin Core completo del ítem ???jsp.display-item.display-statistics???