Comparação e avaliação de técnicas de aprendizado de máquina para modelagem de distribuição de espécies na região da Bacia Amazônica.

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Miyaji, Renato Okabayashi
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/3/3141/tde-26082024-110959/
Resumo: Uma das técnicas mais utilizadas para o monitoramento da biodiversidade é a Modelagem de Distribuição de Espécies. Através dela, é possível identificar as variáveis que mais influenciam na ocorrência de uma espécie e seu nicho ecológico. Como desenvolvimento de modelos de Aprendizado de Máquina que apresentam uma acurácia mais elevada, essa abordagem passou a ser amplamente adotada. Entretanto, existem desafios relacionados à aplicação dessas técnicas por contadas incertezas relacionadas à classe negativa, do desbalanceamento entre classes e de sua capacidade de interpretação. Dessa forma, nesta pesquisa buscou-se avaliar melhorias no procedimento metodológico e realizar uma comparação entre as técnicas de Aprendizado de Máquina, como a Regressão Logística, as Árvores de Decisão, as Florestas Aleatórias, Gradient Boosting, Extreme Gradient Boosting, as Máquinas de Vetores de Suporte (Support Vector Machines) e o Modelo de Máxima Entropia, de modo a avaliar a viabilidade do uso dessas técnicas para a Modelagem de Distribuição de Espécies. O melhor desempenho para ROC-AUC foi obtido pelo Gradient Boosting com 94%, considerando a métrica de Sensibilidade, o melhor foi o de Máxima Entropia com 85%. O modelo que apresentou os melhores ROC-AUC e Sensibilidade ao mesmo tempo foi o de Florestas Aleatórias. Essas técnicas foram avaliadas não só em relação ao desempenho de previsão, mas também a sua capacidade de explicação, utilizando técnicas de Inteligência Artificial Explicável. No centro da Floresta Amazônica, Manaus (AM) é considerada um laboratório ideal para o estudo dos efeitos da ação antrópica nos ecossistemas terrestres. Por isso, foram utilizados os dados de ocorrência de espécies da região, em conjunto com dados meteorológicos e de aerossóis obtidos por meio de coletas realizadas pelo projeto Go Amazon 2014/2015. A partir deles, foi aplicada uma técnica de interpolação espacial para aumentar sua resolução, gerando um novo conjunto de dados. Assim, foi possível validar as melhorias propostas na metodologia em um estudo de caso, concluindo que a aplicação de métodos de reamostragem, em conjunto com classificadores e técnicas de Inteligência Artificial Explicável possibilitam a realização dos experimentos de Modelagem de Distribuição de Espécies com sucesso.
id USP_2c03d0b349cab93e0e0874178a43190a
oai_identifier_str oai:teses.usp.br:tde-26082024-110959
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Comparação e avaliação de técnicas de aprendizado de máquina para modelagem de distribuição de espécies na região da Bacia Amazônica.Comparison and evaluation of machine learning techniques for species distribution modeling in the Amazon.Aprendizado computacionalEcologiaEcologyInterpolação espacialMachine learningSpatial interpolationUma das técnicas mais utilizadas para o monitoramento da biodiversidade é a Modelagem de Distribuição de Espécies. Através dela, é possível identificar as variáveis que mais influenciam na ocorrência de uma espécie e seu nicho ecológico. Como desenvolvimento de modelos de Aprendizado de Máquina que apresentam uma acurácia mais elevada, essa abordagem passou a ser amplamente adotada. Entretanto, existem desafios relacionados à aplicação dessas técnicas por contadas incertezas relacionadas à classe negativa, do desbalanceamento entre classes e de sua capacidade de interpretação. Dessa forma, nesta pesquisa buscou-se avaliar melhorias no procedimento metodológico e realizar uma comparação entre as técnicas de Aprendizado de Máquina, como a Regressão Logística, as Árvores de Decisão, as Florestas Aleatórias, Gradient Boosting, Extreme Gradient Boosting, as Máquinas de Vetores de Suporte (Support Vector Machines) e o Modelo de Máxima Entropia, de modo a avaliar a viabilidade do uso dessas técnicas para a Modelagem de Distribuição de Espécies. O melhor desempenho para ROC-AUC foi obtido pelo Gradient Boosting com 94%, considerando a métrica de Sensibilidade, o melhor foi o de Máxima Entropia com 85%. O modelo que apresentou os melhores ROC-AUC e Sensibilidade ao mesmo tempo foi o de Florestas Aleatórias. Essas técnicas foram avaliadas não só em relação ao desempenho de previsão, mas também a sua capacidade de explicação, utilizando técnicas de Inteligência Artificial Explicável. No centro da Floresta Amazônica, Manaus (AM) é considerada um laboratório ideal para o estudo dos efeitos da ação antrópica nos ecossistemas terrestres. Por isso, foram utilizados os dados de ocorrência de espécies da região, em conjunto com dados meteorológicos e de aerossóis obtidos por meio de coletas realizadas pelo projeto Go Amazon 2014/2015. A partir deles, foi aplicada uma técnica de interpolação espacial para aumentar sua resolução, gerando um novo conjunto de dados. Assim, foi possível validar as melhorias propostas na metodologia em um estudo de caso, concluindo que a aplicação de métodos de reamostragem, em conjunto com classificadores e técnicas de Inteligência Artificial Explicável possibilitam a realização dos experimentos de Modelagem de Distribuição de Espécies com sucesso.One of the most common techniques used to monitor biodiversityis Species Distribution Modeling. Throughit, one is able to identify the variables that have the greater effect on the occurrence of species and its ecological niche. With the development of Machine Learning models with high accuracy, these methods began to be widely used. However, there are several challenges to applyt hese techniques related to uncertainties of the negative class, class imbalance and interpretability. Therefore, this research aimed to evaluate improvements in the methodological process and compare different Machine Learning methods, such as Logistic Regression, DecisionTrees, Random Forests, Gradient Boosting, Extreme Gradient Boosting, Support Vector Machines and Maximum Entropy Model, to evaluate the viability of these techniques for Species Distribution Modeling. The model with the highest ROC-AUC was Gradient Boosting with 94%. Considering Recall, the best model was Maximum Entropy with 85%.The model with the best trade- off between ROC-AU CandRecallwasRandomForests.The methods were evaluated not only by its prediction performance, bus also by its interpretability with the use of Explainable Artificial Intelligence techniques. In the center of the Amazon Forest, the city of Manaus (AM) is considered as na unique laboratory to study the effect of the anthropic action on the terrestrial ecosystems.Therefore, species occurrence data were used with meteorological and aerossol data collected by the GoAmazon 2014/15 project. The spatial resoluti of the data was improved with spatial interpolation techniques, generating a new dataset.Thus, it was possible to validate the proposed improvements in the methodology with a study case, concluding that resampling techniques applied with Machine Learning classifiers and Artificial Intelligence techniques enable successful Species Distribution Modeling experiments.Biblioteca Digitais de Teses e Dissertações da USPCorrêa, Pedro Luiz PizzigattiMiyaji, Renato Okabayashi2024-05-08info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/3/3141/tde-26082024-110959/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-10-09T12:45:11Zoai:teses.usp.br:tde-26082024-110959Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-10-09T12:45:11Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Comparação e avaliação de técnicas de aprendizado de máquina para modelagem de distribuição de espécies na região da Bacia Amazônica.
Comparison and evaluation of machine learning techniques for species distribution modeling in the Amazon.
title Comparação e avaliação de técnicas de aprendizado de máquina para modelagem de distribuição de espécies na região da Bacia Amazônica.
spellingShingle Comparação e avaliação de técnicas de aprendizado de máquina para modelagem de distribuição de espécies na região da Bacia Amazônica.
Miyaji, Renato Okabayashi
Aprendizado computacional
Ecologia
Ecology
Interpolação espacial
Machine learning
Spatial interpolation
title_short Comparação e avaliação de técnicas de aprendizado de máquina para modelagem de distribuição de espécies na região da Bacia Amazônica.
title_full Comparação e avaliação de técnicas de aprendizado de máquina para modelagem de distribuição de espécies na região da Bacia Amazônica.
title_fullStr Comparação e avaliação de técnicas de aprendizado de máquina para modelagem de distribuição de espécies na região da Bacia Amazônica.
title_full_unstemmed Comparação e avaliação de técnicas de aprendizado de máquina para modelagem de distribuição de espécies na região da Bacia Amazônica.
title_sort Comparação e avaliação de técnicas de aprendizado de máquina para modelagem de distribuição de espécies na região da Bacia Amazônica.
author Miyaji, Renato Okabayashi
author_facet Miyaji, Renato Okabayashi
author_role author
dc.contributor.none.fl_str_mv Corrêa, Pedro Luiz Pizzigatti
dc.contributor.author.fl_str_mv Miyaji, Renato Okabayashi
dc.subject.por.fl_str_mv Aprendizado computacional
Ecologia
Ecology
Interpolação espacial
Machine learning
Spatial interpolation
topic Aprendizado computacional
Ecologia
Ecology
Interpolação espacial
Machine learning
Spatial interpolation
description Uma das técnicas mais utilizadas para o monitoramento da biodiversidade é a Modelagem de Distribuição de Espécies. Através dela, é possível identificar as variáveis que mais influenciam na ocorrência de uma espécie e seu nicho ecológico. Como desenvolvimento de modelos de Aprendizado de Máquina que apresentam uma acurácia mais elevada, essa abordagem passou a ser amplamente adotada. Entretanto, existem desafios relacionados à aplicação dessas técnicas por contadas incertezas relacionadas à classe negativa, do desbalanceamento entre classes e de sua capacidade de interpretação. Dessa forma, nesta pesquisa buscou-se avaliar melhorias no procedimento metodológico e realizar uma comparação entre as técnicas de Aprendizado de Máquina, como a Regressão Logística, as Árvores de Decisão, as Florestas Aleatórias, Gradient Boosting, Extreme Gradient Boosting, as Máquinas de Vetores de Suporte (Support Vector Machines) e o Modelo de Máxima Entropia, de modo a avaliar a viabilidade do uso dessas técnicas para a Modelagem de Distribuição de Espécies. O melhor desempenho para ROC-AUC foi obtido pelo Gradient Boosting com 94%, considerando a métrica de Sensibilidade, o melhor foi o de Máxima Entropia com 85%. O modelo que apresentou os melhores ROC-AUC e Sensibilidade ao mesmo tempo foi o de Florestas Aleatórias. Essas técnicas foram avaliadas não só em relação ao desempenho de previsão, mas também a sua capacidade de explicação, utilizando técnicas de Inteligência Artificial Explicável. No centro da Floresta Amazônica, Manaus (AM) é considerada um laboratório ideal para o estudo dos efeitos da ação antrópica nos ecossistemas terrestres. Por isso, foram utilizados os dados de ocorrência de espécies da região, em conjunto com dados meteorológicos e de aerossóis obtidos por meio de coletas realizadas pelo projeto Go Amazon 2014/2015. A partir deles, foi aplicada uma técnica de interpolação espacial para aumentar sua resolução, gerando um novo conjunto de dados. Assim, foi possível validar as melhorias propostas na metodologia em um estudo de caso, concluindo que a aplicação de métodos de reamostragem, em conjunto com classificadores e técnicas de Inteligência Artificial Explicável possibilitam a realização dos experimentos de Modelagem de Distribuição de Espécies com sucesso.
publishDate 2024
dc.date.none.fl_str_mv 2024-05-08
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/3/3141/tde-26082024-110959/
url https://www.teses.usp.br/teses/disponiveis/3/3141/tde-26082024-110959/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1865491647652954112