Optimizations and applications of the t-distributed stochastic neighbor embedding algorithm : an approach based on high scalability solutions

Detalhes bibliográficos
Ano de defesa: 2021
Autor(a) principal: Meyer, Bruno Henrique
Orientador(a): Zola, Wagner Machado Nunan, 1961-
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://hdl.handle.net/1884/97537
Resumo: Orientador: Wagner M. Nunan Zola
id UFPR_47e3c8a96c1bb4276cd0a2fd7444c3d0
oai_identifier_str oai:acervodigital.ufpr.br:1884/97537
network_acronym_str UFPR
network_name_str Repositório Institucional da UFPR
repository_id_str
spelling Ramirez Pozo, Aurora Trinidad, 1959-Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em InformáticaZola, Wagner Machado Nunan, 1961-Meyer, Bruno Henrique2025-07-25T14:17:09Z2025-07-25T14:17:09Z2021https://hdl.handle.net/1884/97537Orientador: Wagner M. Nunan ZolaCoorientador: Aurora Trinidad Ramirez PozoDissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa : Curitiba, 20/04/2021Inclui referênciasÁrea de concentração: Ciência da ComputaçãoResumo: O t-Distributed Stochastic Neighbor Embedding (t-SNE) é uma técnica amplamente usada para redução de dimensionalidade, mas é limitada por sua escalabilidade quando aplicada a grandes conjuntos de dados. Uma aproximação bem-sucedida do t-SNE chamada BH-tSNE foi recentemente proposta, a qual transforma uma etapa do algoritmo original em um problema de simulação de N-Corpos, que pode ser resolvido pelo algoritmo Barnes-Hut. No entanto, essa melhoria ainda tem limitações para processar grandes volumes de dados (milhões de registros). Estudos posteriores como t-SNE-CUDA usaram GPUs para paralelizar a execução do BH-tSNE. A pesquisa desta dissertação desenvolveu uma nova implementação em GPU do BH-tSNE que produz resultados em duas e três dimensões. Examinamos os problemas de escalabilidade em duas das etapas mais caras do GPU BH-tSNE usando estratégias eficientes de acesso à memória, técnicas de aceleração recentes para GPU e uma nova abordagem para calcular a estrutura de grafos de K-Vizinhos mais próximos (KNN Graph) usada no GPU BH-tSNE. Nosso design permite uma aceleração do tempo de execução em até 460% quando comparado à implementação t-SNE-CUDA. Considerando as tecnologias emergentes de Inteligência Artificial (IA) aplicadas a conjuntos de dados em grande escala, vários estudos focam ou usam a redução de dimensionalidade como t-SNE para visualizar os dados. A literatura conta com vários métodos de redução de dimensionalidade para processar grandes conjuntos de dados. Esta pesquisa também comparou diferentes técnicas para realizar a redução de dimensionalidade usando conjuntos de dados em grande escala obtidos de aplicações do mundo real. A comparação enfocou na relação entre as características dos algoritmos, a qualidade dos resultados e a interpretação dos pontos de dados de baixa dimensão. Nossos experimentos concluíram que estratégias como o método denominado AtSNE podem melhorar a qualidade da redução de dimensionalidade, considerando a preservação da informação global. No entanto, não pode obter resultados melhores do que outras práticas, como usar a Análise de Componentes Principais na inicialização do t-SNE. Ainda assim, as idéias de ambos os métodos podem ser combinadas em uma única técnica por estudos futuros. Comparamos sete métodos considerando duas aplicações de IA: Aprendizagem por Reforço e Redes Adversariais Gerativas (GAN). As principais contribuições desta pesquisa consistem na proposta de duas técnicas denominadas SWW-tSNE (Simulated Wide-Warp t-SNE) e SWW-AtSNE (Simulated Wide-Warp AtSNE) para realizar a redução da dimensionalidade em duas ou três dimensões. Esta dissertação também propôs um algoritmo denominado RSFK (Random Sample Forest KNN) que utiliza GPU para calcular uma estrutura denominada Approximate KNN Graph, necessária no algoritmo BH t-SNE. A preservação de estruturas globais foi medida com uma nova métrica chamada Preservação de Vizinhança Média.Abstract: The t-Distributed Stochastic Neighbor Embedding (t-SNE) is a widely used technique for dimensionality reduction but is limited by its scalability when applied to large datasets. A successful approximation of t-SNE called BH-tSNE was recently proposed, which transforms a step of the original algorithm into an N-Body simulation problem that a modified Barnes-Hut algorithm can solve. However, this improvement still has limitations to process large data volumes (millions of records). Late studies such as t-SNE-CUDA have used GPUs to implement highly parallel BH-tSNE. The research of this thesis has developed a new GPU BH-tSNE implementation that produces the embedding of multidimensional data points into three-dimensional space. We examine scalability issues in two of the most expensive steps of GPU BH-tSNE by using efficient memory access strategies, recent acceleration techniques, and a new approach to compute the KNN graph structure used in BH-tSNE with GPU. Our design allows an acceleration of the execution time in up to 460% when compared to the t-SNE-CUDA implementation. Considering the emergent technologies of Artificial Intelligence (AI) applied to large-scale datasets, numerous studies focus on or use dimensionality reduction like t-SNE to visualize the data. The literature counts with various dimensionality reduction methods to process large datasets. This research also compared different techniques to perform dimensionality reduction using large-scale datasets obtained from real-world applications. The comparison focused on the relation between the characteristics of the algorithms, the quality of the results, and the interpretation of the low dimensional data points. Our experiments conclude that strategies like a method called AtSNE could improve dimensionality reduction quality, considering global information preservation. However, it cannot achieve better results than other practices like using the Principal Component Analysis in the initialization of t-SNE. Still, the ideas of both methods could be merged into a unique technique in future studies. We have compared seven methods considering two AI applications: Reinforcement Learning and Generative Adversarial Networks (GAN). The major contributions of this research consist in the proposal of two techniques named SWW-tSNE (Simulated Wide-Warp t-SNE) and SWW-AtSNE (Simulated Wide-Warp AtSNE) to perform dimensionality reduction in two or three dimensions. This thesis also proposes an algorithm named RSFK (Random Sample Forest KNN) that uses GPU to compute a structure called Approximate KNN Graph, required in BH t-SNE algorithm. The preservation of global structures was measured with a new metric called Medium Neighborhood Preservation (MNP).1 recurso online : PDF.application/pdfAlgorítmosCiência da ComputaçãoOptimizations and applications of the t-distributed stochastic neighbor embedding algorithm : an approach based on high scalability solutionsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisengreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessORIGINALR - D - BRUNO HENRIQUE MEYER.pdfapplication/pdf9984000https://acervodigital.ufpr.br/bitstream/1884/97537/1/R%20-%20D%20-%20BRUNO%20HENRIQUE%20MEYER.pdf74d5a390a9ad1d751cf2350c6cc20187MD51open access1884/975372025-07-25 11:17:09.345open accessoai:acervodigital.ufpr.br:1884/97537Repositório InstitucionalPUBhttp://acervodigital.ufpr.br/oai/requestinformacaodigital@ufpr.bropendoar:3082025-07-25T14:17:09Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false
dc.title.pt_BR.fl_str_mv Optimizations and applications of the t-distributed stochastic neighbor embedding algorithm : an approach based on high scalability solutions
title Optimizations and applications of the t-distributed stochastic neighbor embedding algorithm : an approach based on high scalability solutions
spellingShingle Optimizations and applications of the t-distributed stochastic neighbor embedding algorithm : an approach based on high scalability solutions
Meyer, Bruno Henrique
Algorítmos
Ciência da Computação
title_short Optimizations and applications of the t-distributed stochastic neighbor embedding algorithm : an approach based on high scalability solutions
title_full Optimizations and applications of the t-distributed stochastic neighbor embedding algorithm : an approach based on high scalability solutions
title_fullStr Optimizations and applications of the t-distributed stochastic neighbor embedding algorithm : an approach based on high scalability solutions
title_full_unstemmed Optimizations and applications of the t-distributed stochastic neighbor embedding algorithm : an approach based on high scalability solutions
title_sort Optimizations and applications of the t-distributed stochastic neighbor embedding algorithm : an approach based on high scalability solutions
author Meyer, Bruno Henrique
author_facet Meyer, Bruno Henrique
author_role author
dc.contributor.other.pt_BR.fl_str_mv Ramirez Pozo, Aurora Trinidad, 1959-
Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informática
dc.contributor.advisor1.fl_str_mv Zola, Wagner Machado Nunan, 1961-
dc.contributor.author.fl_str_mv Meyer, Bruno Henrique
contributor_str_mv Zola, Wagner Machado Nunan, 1961-
dc.subject.por.fl_str_mv Algorítmos
Ciência da Computação
topic Algorítmos
Ciência da Computação
description Orientador: Wagner M. Nunan Zola
publishDate 2021
dc.date.issued.fl_str_mv 2021
dc.date.accessioned.fl_str_mv 2025-07-25T14:17:09Z
dc.date.available.fl_str_mv 2025-07-25T14:17:09Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1884/97537
url https://hdl.handle.net/1884/97537
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 1 recurso online : PDF.
application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPR
instname:Universidade Federal do Paraná (UFPR)
instacron:UFPR
instname_str Universidade Federal do Paraná (UFPR)
instacron_str UFPR
institution UFPR
reponame_str Repositório Institucional da UFPR
collection Repositório Institucional da UFPR
bitstream.url.fl_str_mv https://acervodigital.ufpr.br/bitstream/1884/97537/1/R%20-%20D%20-%20BRUNO%20HENRIQUE%20MEYER.pdf
bitstream.checksum.fl_str_mv 74d5a390a9ad1d751cf2350c6cc20187
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)
repository.mail.fl_str_mv informacaodigital@ufpr.br
_version_ 1847526218985897984