BioF4C-frame: a framework for feature preparation and selection applied to ecological data classification

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Delponte, Luma Rios
Orientador(a): Dorneles, Carina Friedrich
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Link de acesso: https://repositorio.ufsc.br/handle/123456789/265521
Resumo: Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2025.
id UFSC_8dbf5674b7eb34a31e92c6d609b27aed
oai_identifier_str oai:repositorio.ufsc.br:123456789/265521
network_acronym_str UFSC
network_name_str Repositório Institucional da UFSC
repository_id_str
spelling Universidade Federal de Santa CatarinaDelponte, Luma RiosDorneles, Carina FriedrichWerner, Simone Silmara2025-06-03T23:29:00Z2025-06-03T23:29:00Z2025392114https://repositorio.ufsc.br/handle/123456789/265521Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2025.A seleção de atributos é essencial para aprimorar modelos de classificação aplicados a bases de dados biológicas, especialmente aquelas com alta dimensionalidade e inconsistências nos dados, como registros de incidência de espécies de plantas, algas e fungos. Esses conjuntos de dados frequentemente apresentam variáveis redundantes, desequilíbrio entre classes e inconsistências taxonômicas, fatores que podem comprometer o desempenho e a interpretabilidade dos modelos. Apesar de seu reconhecido potencial, a seleção de atributos ainda é pouco explorada em contextos ecológicos e botânicos, especialmente em regiões de alta biodiversidade, como a Mata Atlântica brasileira. Este estudo apresenta o BioF4C-Frame (Framework de Seleção de Atributos e Classificação Biológica), um framework modular projetado para enfrentar esses desafios ao integrar técnicas de pré-processamento, funções de similaridade, estratégias de seleção de atributos e modelos de classificação. Por meio de uma análise empírica, o framework avalia como diferentes métodos de seleção de atributos, como o LASSO, interagem com classificadores como Random Forest, Árvores de Decisão, Naïve Bayes, Redes Neurais Artificiais e Regressão Logística. Os resultados indicam que o Random Forest apresentou o melhor desempenho geral, demonstrando robustez ao lidar com dados ecológicos complexos e desbalanceados. Por sua vez, o LASSO e as Redes Neurais apresentaram melhorias modestas, porém significativas, no reconhecimento de padrões, especialmente após a aplicação de pré-processamento de deduplicação em campos de autoria taxonômica utilizando funções de similaridade. Esta pesquisa propõe práticas para aplicação da seleção de atributos em conjuntos de dados de biodiversidade, oferece recomendações para aprimorar a confiabilidade da classificação e identifica lacunas para investigações futuras.Abstract: Feature selection is essential for improving classification models applied to biological databases, particularly those with high dimensionality and data inconsistencies, such as species incidence data for plants, algae, and fungi. These datasets often suffer from redundant variables, class imbalances, and taxonomic inconsistencies, all of which can hinder model performance and interpretability. Despite its recognized potential, feature selection remains underexplored in ecological and botanical con- texts?especially in biodiversity hotspot regions like the Brazilian Atlantic Forest. This study presents BioF4C-Frame (Biological Feature Selection and Classification Framework), a modular framework designed to address these challenges by integrat- ing preprocessing techniques, similarity functions, feature selection strategies, and classification models. Through empirical analysis, the framework evaluates how different FS methods, such as LASSO, interact with classifiers including Random Forest, Decision Trees, Naïve Bayes, Artificial Neural Networks, and Logistic Re- gression. Results show that Random Forest achieved the best overall performance, demonstrating robustness in handling imbalanced and complex ecological data. Meanwhile, LASSO and ANN exhibited small yet meaningful improvements in pattern recognition, especially after applying deduplication preprocessing to taxo- nomic authorship fields using similarity functions. This research proposes practices for applying FS in biodiversity datasets, offers recommendations for improving classification reliability, and identifies gaps for future investigation.107 p.| il., gráfs.engComputaçãoBotânicaAprendizado do computadorBanco de dadosProcessamento eletrônico de dadosBioF4C-frame: a framework for feature preparation and selection applied to ecological data classificationinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSCinfo:eu-repo/semantics/openAccessORIGINALPGCC1302-D.pdfPGCC1302-D.pdfapplication/pdf7719975https://repositorio.ufsc.br/bitstream/123456789/265521/-1/PGCC1302-D.pdfc73cef00d16bbeb6a32dd3ab8596b96eMD5-1123456789/2655212025-06-03 20:29:00.281oai:repositorio.ufsc.br:123456789/265521Repositório InstitucionalPUBhttp://150.162.242.35/oai/requestsandra.sobrera@ufsc.bropendoar:23732025-06-03T23:29Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false
dc.title.none.fl_str_mv BioF4C-frame: a framework for feature preparation and selection applied to ecological data classification
title BioF4C-frame: a framework for feature preparation and selection applied to ecological data classification
spellingShingle BioF4C-frame: a framework for feature preparation and selection applied to ecological data classification
Delponte, Luma Rios
Computação
Botânica
Aprendizado do computador
Banco de dados
Processamento eletrônico de dados
title_short BioF4C-frame: a framework for feature preparation and selection applied to ecological data classification
title_full BioF4C-frame: a framework for feature preparation and selection applied to ecological data classification
title_fullStr BioF4C-frame: a framework for feature preparation and selection applied to ecological data classification
title_full_unstemmed BioF4C-frame: a framework for feature preparation and selection applied to ecological data classification
title_sort BioF4C-frame: a framework for feature preparation and selection applied to ecological data classification
author Delponte, Luma Rios
author_facet Delponte, Luma Rios
author_role author
dc.contributor.none.fl_str_mv Universidade Federal de Santa Catarina
dc.contributor.author.fl_str_mv Delponte, Luma Rios
dc.contributor.advisor1.fl_str_mv Dorneles, Carina Friedrich
dc.contributor.advisor-co1.fl_str_mv Werner, Simone Silmara
contributor_str_mv Dorneles, Carina Friedrich
Werner, Simone Silmara
dc.subject.classification.none.fl_str_mv Computação
Botânica
Aprendizado do computador
Banco de dados
Processamento eletrônico de dados
topic Computação
Botânica
Aprendizado do computador
Banco de dados
Processamento eletrônico de dados
description Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2025.
publishDate 2025
dc.date.accessioned.fl_str_mv 2025-06-03T23:29:00Z
dc.date.available.fl_str_mv 2025-06-03T23:29:00Z
dc.date.issued.fl_str_mv 2025
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufsc.br/handle/123456789/265521
dc.identifier.other.none.fl_str_mv 392114
identifier_str_mv 392114
url https://repositorio.ufsc.br/handle/123456789/265521
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 107 p.| il., gráfs.
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSC
instname:Universidade Federal de Santa Catarina (UFSC)
instacron:UFSC
instname_str Universidade Federal de Santa Catarina (UFSC)
instacron_str UFSC
institution UFSC
reponame_str Repositório Institucional da UFSC
collection Repositório Institucional da UFSC
bitstream.url.fl_str_mv https://repositorio.ufsc.br/bitstream/123456789/265521/-1/PGCC1302-D.pdf
bitstream.checksum.fl_str_mv c73cef00d16bbeb6a32dd3ab8596b96e
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)
repository.mail.fl_str_mv sandra.sobrera@ufsc.br
_version_ 1851758840826036224