Categorização automática de produtos utilizando apenas o título e aprendizado profundo

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Paulucio, Leonardo Santos
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal do Espírito Santo
BR
Mestrado em Informática
Centro Tecnológico
UFES
Programa de Pós-Graduação em Informática
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://repositorio.ufes.br/handle/10/15983
Resumo: Natural Language Processing (NLP) has been receiving increasing attention in the past few years. In part, this is related to the huge flow of data being made available everyday on the internet, which increased the need for automatic tools capable of analyzing and extracting relevant information, especially from the text. In this context, text classification became one of the most studied tasks on the NLP domain. The objective is to assign predefined categories or labels to text or sentences. Important applications include sentence classification, sentiment analysis, spam detection, among many others. This work proposes an automatic system for product categorization using only their titles. The proposed system employs a state-of-the-art deep neural network as a tool to extract features from the titles to be used as input in different machine learning models. The system is evaluated in the large-scale Mercado Libre dataset, which has the common characteristics of real-world problems such as imbalanced classes, unreliable labels, besides having a large number of samples: 20,000,000 in total. The results showed that the proposed system was able to correctly categorize the products with a balanced accuracy of 86.57% on the local test split of the Mercado Libre dataset. It also surpassed the fourth place on the public rank of the MeLi Data Challenge with 91.19% of balanced accuracy, which represents less than 1% of the difference to the winner.
id UFES_44af310c9ddbbfd31880ca65ca808ac4
oai_identifier_str oai:repositorio.ufes.br:10/15983
network_acronym_str UFES
network_name_str Repositório Institucional da Universidade Federal do Espírito Santo (riUfes)
repository_id_str
spelling Categorização automática de produtos utilizando apenas o título e aprendizado profundoClassificação de textoAprendizado de máquinaInteligência artificialsubject.br-rjbnCiência da ComputaçãoNatural Language Processing (NLP) has been receiving increasing attention in the past few years. In part, this is related to the huge flow of data being made available everyday on the internet, which increased the need for automatic tools capable of analyzing and extracting relevant information, especially from the text. In this context, text classification became one of the most studied tasks on the NLP domain. The objective is to assign predefined categories or labels to text or sentences. Important applications include sentence classification, sentiment analysis, spam detection, among many others. This work proposes an automatic system for product categorization using only their titles. The proposed system employs a state-of-the-art deep neural network as a tool to extract features from the titles to be used as input in different machine learning models. The system is evaluated in the large-scale Mercado Libre dataset, which has the common characteristics of real-world problems such as imbalanced classes, unreliable labels, besides having a large number of samples: 20,000,000 in total. The results showed that the proposed system was able to correctly categorize the products with a balanced accuracy of 86.57% on the local test split of the Mercado Libre dataset. It also surpassed the fourth place on the public rank of the MeLi Data Challenge with 91.19% of balanced accuracy, which represents less than 1% of the difference to the winner.O Processamento de Linguagem Natural (PLN) tem recebido uma atenção cada vez maior nos últimos anos. Em parte, isso está relacionado ao enorme fluxo de dados disponibilizados todos os dias na internet, o que aumentou a necessidade de ferramentas automáticas capazes de analisar e extrair informações relevantes, principalmente do texto. Nesse contexto, a classificação de textos tornou-se uma das tarefas mais estudadas no domínio do PLN. O objetivo é atribuir categorias ou rótulos predefinidos a textos ou frases. Aplicativos importantes incluem classificação de frases, análise de sentimento, detecção de spam, entre muitos outros. Este trabalho propõe um sistema automático de categorização de produtos utilizando apenas seus títulos. O sistema proposto emprega uma rede neural profunda de última geração como uma ferramenta para extrair recursos dos títulos a serem usados como entrada em diferentes modelos de aprendizado de máquina. O sistema é avaliado no conjunto de dados do Mercado Libre de larga escala, que possui características comuns a problemas do mundo real, como classes desequilibradas, rótulos não confiáveis, além de possuir um grande número de amostras: 20.000.000 no total. Os resultados mostraram que o sistema proposto foi capaz de categorizar corretamente os produtos com uma precisão balanceada de 86,57% na divisão de teste local do conjunto de dados do Mercado Libre. Também ultrapassou o quarto lugar no ranking público do MeLi Data Challenge com 91,19% de precisão balanceada, o que representa menos de 1% da diferença para o vencedor.Universidade Federal do Espírito SantoBRMestrado em InformáticaCentro TecnológicoUFESPrograma de Pós-Graduação em InformáticaSantos, Thiago Oliveira doshttps://orcid.org/0000-0001-7607-635XCiarelli, Patrick Marqueshttps://orcid.org/0000000331774028http://lattes.cnpq.br/1267950518719423Varejão, Flavio Miguelhttp://lattes.cnpq.br/6501574961643171Paulucio, Leonardo Santos2024-05-30T00:53:25Z2024-05-30T00:53:25Z2022-02-14info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisTextapplication/pdfhttp://repositorio.ufes.br/handle/10/15983porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da Universidade Federal do Espírito Santo (riUfes)instname:Universidade Federal do Espírito Santo (UFES)instacron:UFES2025-02-06T14:24:12Zoai:repositorio.ufes.br:10/15983Repositório InstitucionalPUBhttp://repositorio.ufes.br/oai/requestriufes@ufes.bropendoar:21082025-02-06T14:24:12Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) - Universidade Federal do Espírito Santo (UFES)false
dc.title.none.fl_str_mv Categorização automática de produtos utilizando apenas o título e aprendizado profundo
title Categorização automática de produtos utilizando apenas o título e aprendizado profundo
spellingShingle Categorização automática de produtos utilizando apenas o título e aprendizado profundo
Paulucio, Leonardo Santos
Classificação de texto
Aprendizado de máquina
Inteligência artificial
subject.br-rjbn
Ciência da Computação
title_short Categorização automática de produtos utilizando apenas o título e aprendizado profundo
title_full Categorização automática de produtos utilizando apenas o título e aprendizado profundo
title_fullStr Categorização automática de produtos utilizando apenas o título e aprendizado profundo
title_full_unstemmed Categorização automática de produtos utilizando apenas o título e aprendizado profundo
title_sort Categorização automática de produtos utilizando apenas o título e aprendizado profundo
author Paulucio, Leonardo Santos
author_facet Paulucio, Leonardo Santos
author_role author
dc.contributor.none.fl_str_mv Santos, Thiago Oliveira dos
https://orcid.org/0000-0001-7607-635X
Ciarelli, Patrick Marques
https://orcid.org/0000000331774028
http://lattes.cnpq.br/1267950518719423
Varejão, Flavio Miguel
http://lattes.cnpq.br/6501574961643171
dc.contributor.author.fl_str_mv Paulucio, Leonardo Santos
dc.subject.por.fl_str_mv Classificação de texto
Aprendizado de máquina
Inteligência artificial
subject.br-rjbn
Ciência da Computação
topic Classificação de texto
Aprendizado de máquina
Inteligência artificial
subject.br-rjbn
Ciência da Computação
description Natural Language Processing (NLP) has been receiving increasing attention in the past few years. In part, this is related to the huge flow of data being made available everyday on the internet, which increased the need for automatic tools capable of analyzing and extracting relevant information, especially from the text. In this context, text classification became one of the most studied tasks on the NLP domain. The objective is to assign predefined categories or labels to text or sentences. Important applications include sentence classification, sentiment analysis, spam detection, among many others. This work proposes an automatic system for product categorization using only their titles. The proposed system employs a state-of-the-art deep neural network as a tool to extract features from the titles to be used as input in different machine learning models. The system is evaluated in the large-scale Mercado Libre dataset, which has the common characteristics of real-world problems such as imbalanced classes, unreliable labels, besides having a large number of samples: 20,000,000 in total. The results showed that the proposed system was able to correctly categorize the products with a balanced accuracy of 86.57% on the local test split of the Mercado Libre dataset. It also surpassed the fourth place on the public rank of the MeLi Data Challenge with 91.19% of balanced accuracy, which represents less than 1% of the difference to the winner.
publishDate 2022
dc.date.none.fl_str_mv 2022-02-14
2024-05-30T00:53:25Z
2024-05-30T00:53:25Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://repositorio.ufes.br/handle/10/15983
url http://repositorio.ufes.br/handle/10/15983
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv Text
application/pdf
dc.publisher.none.fl_str_mv Universidade Federal do Espírito Santo
BR
Mestrado em Informática
Centro Tecnológico
UFES
Programa de Pós-Graduação em Informática
publisher.none.fl_str_mv Universidade Federal do Espírito Santo
BR
Mestrado em Informática
Centro Tecnológico
UFES
Programa de Pós-Graduação em Informática
dc.source.none.fl_str_mv reponame:Repositório Institucional da Universidade Federal do Espírito Santo (riUfes)
instname:Universidade Federal do Espírito Santo (UFES)
instacron:UFES
instname_str Universidade Federal do Espírito Santo (UFES)
instacron_str UFES
institution UFES
reponame_str Repositório Institucional da Universidade Federal do Espírito Santo (riUfes)
collection Repositório Institucional da Universidade Federal do Espírito Santo (riUfes)
repository.name.fl_str_mv Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) - Universidade Federal do Espírito Santo (UFES)
repository.mail.fl_str_mv riufes@ufes.br
_version_ 1834479037585555456