Algoritmo de Fatoração de Matrizes Não-negativas para Aprendizado positivo não-supervisionado

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Nunes, Lucas Souza Sampaio
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://repositorio.unb.br/handle/10482/51222
Resumo: Dissertação (Mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2024.
id UNB_7113cf711c8604716b94bc0b57bc0db0
oai_identifier_str oai:repositorio.unb.br:10482/51222
network_acronym_str UNB
network_name_str Repositório Institucional da UnB
repository_id_str
spelling Algoritmo de Fatoração de Matrizes Não-negativas para Aprendizado positivo não-supervisionadoClassificação de textoPositive Unlabeled Learning (PUL)Aprendizagem de máquinaFatoração de Matriz Não-NegativaDissertação (Mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2024.A rotulagem de dados para treinamento de modelos de aprendizado de máquina está se tornando cada vez mais inviável devido ao alto volume de dados disponíveis e continuamente sendo produzidos. Portanto, pesquisas atuais se concentram na análise e investigação de técnicas de resolução do problema de Positive Unlabeled Learning (PUL), que podem produzir um desempenho satisfatório de classificação, mesmo com uma pequena porção de dados rotulados. Neste trabalho, é proposta uma adaptação estrutural do algoritmo de Non-negative Matrix Factorization (NMF), aplicada a problemas de PUL e denominada NMFPUL, a fim de aprimorar o desempenho da classificação de dados textuais. O NMF é uma técnica usada para a fatoração de matrizes e geralmente é utilizada para redução de dimensionalidade. Além disso, foi investigada uma variação do algoritmo NMF no aprendizado profundo, o Deep Non-Negative Matrix Factorization ou Deep NMF. Esta pesquisa aplica o algoritmo proposto em vários conjuntos de dados textuais, contendo milhares de documentos e termos, considerando diferentes quantidades de dados rotulados, variando de 1 a 30 documentos rotulados na classe positiva. Para os conjuntos de dados menores, o algoritmo proposto apresentou desempenho de classificação próximo às outras técnicas de ponta, enquanto, nos conjuntos de dados maiores, o desempenho do NMFPUL se destacou, obtendo uma melhoria de 10% a 30% em relação às outras técnicas, sendo a maior diferença observada quando há uma menor quantidade de documentos rotulados. O uso do NMF envolve a aplicação de uma função objetivo para convergir a matriz documentopalavra ao produto das matrizes documento-tópico e tópico-palavra. Essas técnicas de convergência podem ser utilizadas em métodos de aprendizado profundo, desdobrando as iterações do algoritmo em camadas da rede.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES).The data labeling for machine learning models training is more and more impracticable, in a manual way, due to the high volume of data available and that is continuously produced. So, the current research stick to the analysis and investigation of Positive Unlabeled Learning (PUL) problem solving techniques, which can produces satisfactory classification performance, even having a small portion of data labeled. In this work, a structural adaptation to the Non-Negative Matrix Factorization (NMF) algorithm applied to PUL, denominated NMFPUL, is proposed in order to enhance the performance of text data classification. NMF is a technique used for matrix factorization and usually used to reduce dimensionality. This research applies the algorithm proposed in several text datasets, containing thousands of documents and terms, considering different amount of labeled data, varying from 1 to 30 labeled documents on the positive class. For the smallest datasets, the proposed algorithm had performance of classification close to those other state-of-the-art techniques, while, on larger datasets, the performance of NMFPUL stood out, having a 10% to 30% over other techniques, having the biggest difference when there are less quantity of labeled documents. The use of NMF involves applying a objective function to converge the matrix document-term to the product of document-topic and topic-term matrices. Those convergence techniques could be used in deep learning methods, unrolling the algorithm iterations into layers of the network. So, also, in this work, a variation of NMF for deep learning, the Deep Non-Negative Matrix Factorization or Deep NMF, is developed and applied to PU data, to compare with others state-ofthe-art techniques in order to identify improvements to the performance of textual data classification.Instituto de Ciências Exatas (IE)Departamento de Ciência da Computação (IE CIC)Programa de Pós-Graduação em InformáticaFaleiros, Thiago de PauloNunes, Lucas Souza Sampaio2024-12-18T17:48:00Z2024-12-18T17:48:00Z2024-12-182024-09-02info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfNUNES, Lucas Souza Sampaio. Algoritmo de Fatoração de Matrizes Não-negativas para Aprendizado positivo não-supervisionado. 2024. 103 f., il. Dissertação (Mestrado em Informática) — Universidade de Brasília, Brasília, 2024.http://repositorio.unb.br/handle/10482/51222porA concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UnBinstname:Universidade de Brasília (UnB)instacron:UNB2025-03-19T16:48:05Zoai:repositorio.unb.br:10482/51222Repositório InstitucionalPUBhttps://repositorio.unb.br/oai/requestrepositorio@unb.bropendoar:2025-03-19T16:48:05Repositório Institucional da UnB - Universidade de Brasília (UnB)false
dc.title.none.fl_str_mv Algoritmo de Fatoração de Matrizes Não-negativas para Aprendizado positivo não-supervisionado
title Algoritmo de Fatoração de Matrizes Não-negativas para Aprendizado positivo não-supervisionado
spellingShingle Algoritmo de Fatoração de Matrizes Não-negativas para Aprendizado positivo não-supervisionado
Nunes, Lucas Souza Sampaio
Classificação de texto
Positive Unlabeled Learning (PUL)
Aprendizagem de máquina
Fatoração de Matriz Não-Negativa
title_short Algoritmo de Fatoração de Matrizes Não-negativas para Aprendizado positivo não-supervisionado
title_full Algoritmo de Fatoração de Matrizes Não-negativas para Aprendizado positivo não-supervisionado
title_fullStr Algoritmo de Fatoração de Matrizes Não-negativas para Aprendizado positivo não-supervisionado
title_full_unstemmed Algoritmo de Fatoração de Matrizes Não-negativas para Aprendizado positivo não-supervisionado
title_sort Algoritmo de Fatoração de Matrizes Não-negativas para Aprendizado positivo não-supervisionado
author Nunes, Lucas Souza Sampaio
author_facet Nunes, Lucas Souza Sampaio
author_role author
dc.contributor.none.fl_str_mv Faleiros, Thiago de Paulo
dc.contributor.author.fl_str_mv Nunes, Lucas Souza Sampaio
dc.subject.por.fl_str_mv Classificação de texto
Positive Unlabeled Learning (PUL)
Aprendizagem de máquina
Fatoração de Matriz Não-Negativa
topic Classificação de texto
Positive Unlabeled Learning (PUL)
Aprendizagem de máquina
Fatoração de Matriz Não-Negativa
description Dissertação (Mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2024.
publishDate 2024
dc.date.none.fl_str_mv 2024-12-18T17:48:00Z
2024-12-18T17:48:00Z
2024-12-18
2024-09-02
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv NUNES, Lucas Souza Sampaio. Algoritmo de Fatoração de Matrizes Não-negativas para Aprendizado positivo não-supervisionado. 2024. 103 f., il. Dissertação (Mestrado em Informática) — Universidade de Brasília, Brasília, 2024.
http://repositorio.unb.br/handle/10482/51222
identifier_str_mv NUNES, Lucas Souza Sampaio. Algoritmo de Fatoração de Matrizes Não-negativas para Aprendizado positivo não-supervisionado. 2024. 103 f., il. Dissertação (Mestrado em Informática) — Universidade de Brasília, Brasília, 2024.
url http://repositorio.unb.br/handle/10482/51222
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UnB
instname:Universidade de Brasília (UnB)
instacron:UNB
instname_str Universidade de Brasília (UnB)
instacron_str UNB
institution UNB
reponame_str Repositório Institucional da UnB
collection Repositório Institucional da UnB
repository.name.fl_str_mv Repositório Institucional da UnB - Universidade de Brasília (UnB)
repository.mail.fl_str_mv repositorio@unb.br
_version_ 1839083922308202496