Enhancing classification with hybrid feature selection : a multi-objective genetic algorithm for high-dimensional data

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Bohrer, Jonas da Silveira
Orientador(a): Dorn, Márcio
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Link de acesso: http://hdl.handle.net/10183/278661
Resumo: A seleção de variáveis é um passo fundamental no aprendizado de máquina, servindo para reduzir a redundância do conjunto de dados, acelerar a velocidade de treinamento e melhorar a qualidade de modelos. Isto é particularmente crucial em conjuntos de dados de alta dimensionalidade, onde o excesso de variáveis representa desafios para tarefas de reconhecimento de padrões e análise de dados. Os métodos recentes propostos para dados de alta dimensionalidade são frequentemente desenvolvidos para domínios específicos, gerando uma falta de consenso sobre uma solução universalmente recomendada para casos de uso gerais. Este artigo propõe uma abordagem híbrida de seleção de variá- veis usando um algoritmo genético multiobjetivo para melhorar o desempenho da classificação e reduzir a dimensionalidade em diversas tarefas de classificação. A abordagem proposta restringe o espaço de busca de possíveis variáveis relevantes através da exploração dos resultados combinados de métodos clássicos de seleção de variáveis através de novos operadores de algoritmo genético. Isto permite a evolução de soluções combinadas potencialmente não exploradas pelos métodos originais, gerando conjuntos de variáveis otimizados em um processo que se adapta a diferentes condições de dados. Os resultados experimentais demonstram a eficácia do método proposto em casos de uso de alta dimensionalidade, oferecendo melhor desempenho de classificação com conjuntos de variáveis reduzidos. Em resumo, o método híbrido proposto oferece uma solução promissora para lidar com os desafios de conjuntos de dados de alta dimensionalidade, melhorando o desempenho da classificação em diversos domínios e condições de dados.
id URGS_3d27da7ff952f2056eb3c3d08b06b1ba
oai_identifier_str oai:www.lume.ufrgs.br:10183/278661
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str
spelling Bohrer, Jonas da SilveiraDorn, Márcio2024-09-10T06:43:34Z2024http://hdl.handle.net/10183/278661001210012A seleção de variáveis é um passo fundamental no aprendizado de máquina, servindo para reduzir a redundância do conjunto de dados, acelerar a velocidade de treinamento e melhorar a qualidade de modelos. Isto é particularmente crucial em conjuntos de dados de alta dimensionalidade, onde o excesso de variáveis representa desafios para tarefas de reconhecimento de padrões e análise de dados. Os métodos recentes propostos para dados de alta dimensionalidade são frequentemente desenvolvidos para domínios específicos, gerando uma falta de consenso sobre uma solução universalmente recomendada para casos de uso gerais. Este artigo propõe uma abordagem híbrida de seleção de variá- veis usando um algoritmo genético multiobjetivo para melhorar o desempenho da classificação e reduzir a dimensionalidade em diversas tarefas de classificação. A abordagem proposta restringe o espaço de busca de possíveis variáveis relevantes através da exploração dos resultados combinados de métodos clássicos de seleção de variáveis através de novos operadores de algoritmo genético. Isto permite a evolução de soluções combinadas potencialmente não exploradas pelos métodos originais, gerando conjuntos de variáveis otimizados em um processo que se adapta a diferentes condições de dados. Os resultados experimentais demonstram a eficácia do método proposto em casos de uso de alta dimensionalidade, oferecendo melhor desempenho de classificação com conjuntos de variáveis reduzidos. Em resumo, o método híbrido proposto oferece uma solução promissora para lidar com os desafios de conjuntos de dados de alta dimensionalidade, melhorando o desempenho da classificação em diversos domínios e condições de dados.Feature selection is a fundamental step in machine learning, serving to reduce dataset redundancy, accelerate training speed, and improve model quality. This is particularly crucial in high-dimensional datasets, where the excess of features presents challenges for pattern recognition and data analysis. Recent methods proposed for high-dimensional data are often tailored for specific domains, leaving a lack of consensus on a universally recommended solution for general use cases. This paper proposes a hybrid feature selection approach using a multi-objective genetic algorithm to enhance classification performance and reduce dimensionality across diverse classification tasks. The proposed approach narrows the search space of possible relevant features by exploring the combined outputs of classical feature selection methods with novel genetic algorithm operators. This enables the evolution of combined solutions potentially not explored by the original methods, generating optimized feature sets in a process that adapts to different data conditions. Experimental results demonstrate the effectiveness of the proposed method in high-dimensional use cases, offering improved classification performance with reduced feature sets. In summary, our hybrid method offers a promising solution for addressing the challenges of high-dimensional datasets by enhancing classification performance in varying domains and data conditions.application/pdfengAprendizado de máquinaAlgoritmo genéticoOtimização multiobjetivoDados de alta dimensãoClassificação : DadosFeature selectionDimensionality reductionHigh-dimensionalEnhancing classification with hybrid feature selection : a multi-objective genetic algorithm for high-dimensional dataAprimorando a classificação com seleção híbrida de variáveis : um algoritmo genético multi-objetivo para dados de alta dimensionalidadeinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2024mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001210012.pdf.txt001210012.pdf.txtExtracted Texttext/plain178718http://www.lume.ufrgs.br/bitstream/10183/278661/2/001210012.pdf.txt56302b51c825acd15b2ff03d6563c761MD52ORIGINAL001210012.pdfTexto completo (inglês)application/pdf1014217http://www.lume.ufrgs.br/bitstream/10183/278661/1/001210012.pdf28aaadd1bd97e1b7944806083e9ef43eMD5110183/2786612024-09-12 06:00:45.11139oai:www.lume.ufrgs.br:10183/278661Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532024-09-12T09:00:45Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Enhancing classification with hybrid feature selection : a multi-objective genetic algorithm for high-dimensional data
dc.title.alternative.pt.fl_str_mv Aprimorando a classificação com seleção híbrida de variáveis : um algoritmo genético multi-objetivo para dados de alta dimensionalidade
title Enhancing classification with hybrid feature selection : a multi-objective genetic algorithm for high-dimensional data
spellingShingle Enhancing classification with hybrid feature selection : a multi-objective genetic algorithm for high-dimensional data
Bohrer, Jonas da Silveira
Aprendizado de máquina
Algoritmo genético
Otimização multiobjetivo
Dados de alta dimensão
Classificação : Dados
Feature selection
Dimensionality reduction
High-dimensional
title_short Enhancing classification with hybrid feature selection : a multi-objective genetic algorithm for high-dimensional data
title_full Enhancing classification with hybrid feature selection : a multi-objective genetic algorithm for high-dimensional data
title_fullStr Enhancing classification with hybrid feature selection : a multi-objective genetic algorithm for high-dimensional data
title_full_unstemmed Enhancing classification with hybrid feature selection : a multi-objective genetic algorithm for high-dimensional data
title_sort Enhancing classification with hybrid feature selection : a multi-objective genetic algorithm for high-dimensional data
author Bohrer, Jonas da Silveira
author_facet Bohrer, Jonas da Silveira
author_role author
dc.contributor.author.fl_str_mv Bohrer, Jonas da Silveira
dc.contributor.advisor1.fl_str_mv Dorn, Márcio
contributor_str_mv Dorn, Márcio
dc.subject.por.fl_str_mv Aprendizado de máquina
Algoritmo genético
Otimização multiobjetivo
Dados de alta dimensão
Classificação : Dados
topic Aprendizado de máquina
Algoritmo genético
Otimização multiobjetivo
Dados de alta dimensão
Classificação : Dados
Feature selection
Dimensionality reduction
High-dimensional
dc.subject.eng.fl_str_mv Feature selection
Dimensionality reduction
High-dimensional
description A seleção de variáveis é um passo fundamental no aprendizado de máquina, servindo para reduzir a redundância do conjunto de dados, acelerar a velocidade de treinamento e melhorar a qualidade de modelos. Isto é particularmente crucial em conjuntos de dados de alta dimensionalidade, onde o excesso de variáveis representa desafios para tarefas de reconhecimento de padrões e análise de dados. Os métodos recentes propostos para dados de alta dimensionalidade são frequentemente desenvolvidos para domínios específicos, gerando uma falta de consenso sobre uma solução universalmente recomendada para casos de uso gerais. Este artigo propõe uma abordagem híbrida de seleção de variá- veis usando um algoritmo genético multiobjetivo para melhorar o desempenho da classificação e reduzir a dimensionalidade em diversas tarefas de classificação. A abordagem proposta restringe o espaço de busca de possíveis variáveis relevantes através da exploração dos resultados combinados de métodos clássicos de seleção de variáveis através de novos operadores de algoritmo genético. Isto permite a evolução de soluções combinadas potencialmente não exploradas pelos métodos originais, gerando conjuntos de variáveis otimizados em um processo que se adapta a diferentes condições de dados. Os resultados experimentais demonstram a eficácia do método proposto em casos de uso de alta dimensionalidade, oferecendo melhor desempenho de classificação com conjuntos de variáveis reduzidos. Em resumo, o método híbrido proposto oferece uma solução promissora para lidar com os desafios de conjuntos de dados de alta dimensionalidade, melhorando o desempenho da classificação em diversos domínios e condições de dados.
publishDate 2024
dc.date.accessioned.fl_str_mv 2024-09-10T06:43:34Z
dc.date.issued.fl_str_mv 2024
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/278661
dc.identifier.nrb.pt_BR.fl_str_mv 001210012
url http://hdl.handle.net/10183/278661
identifier_str_mv 001210012
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/278661/2/001210012.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/278661/1/001210012.pdf
bitstream.checksum.fl_str_mv 56302b51c825acd15b2ff03d6563c761
28aaadd1bd97e1b7944806083e9ef43e
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br||lume@ufrgs.br
_version_ 1831316185576112128