Comparação e avaliação de técnicas de aprendizado de máquina para modelagem de distribuição de espécies na região da Bacia Amazônica.
| Ano de defesa: | 2024 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.teses.usp.br/teses/disponiveis/3/3141/tde-26082024-110959/ |
Resumo: | Uma das técnicas mais utilizadas para o monitoramento da biodiversidade é a Modelagem de Distribuição de Espécies. Através dela, é possível identificar as variáveis que mais influenciam na ocorrência de uma espécie e seu nicho ecológico. Como desenvolvimento de modelos de Aprendizado de Máquina que apresentam uma acurácia mais elevada, essa abordagem passou a ser amplamente adotada. Entretanto, existem desafios relacionados à aplicação dessas técnicas por contadas incertezas relacionadas à classe negativa, do desbalanceamento entre classes e de sua capacidade de interpretação. Dessa forma, nesta pesquisa buscou-se avaliar melhorias no procedimento metodológico e realizar uma comparação entre as técnicas de Aprendizado de Máquina, como a Regressão Logística, as Árvores de Decisão, as Florestas Aleatórias, Gradient Boosting, Extreme Gradient Boosting, as Máquinas de Vetores de Suporte (Support Vector Machines) e o Modelo de Máxima Entropia, de modo a avaliar a viabilidade do uso dessas técnicas para a Modelagem de Distribuição de Espécies. O melhor desempenho para ROC-AUC foi obtido pelo Gradient Boosting com 94%, considerando a métrica de Sensibilidade, o melhor foi o de Máxima Entropia com 85%. O modelo que apresentou os melhores ROC-AUC e Sensibilidade ao mesmo tempo foi o de Florestas Aleatórias. Essas técnicas foram avaliadas não só em relação ao desempenho de previsão, mas também a sua capacidade de explicação, utilizando técnicas de Inteligência Artificial Explicável. No centro da Floresta Amazônica, Manaus (AM) é considerada um laboratório ideal para o estudo dos efeitos da ação antrópica nos ecossistemas terrestres. Por isso, foram utilizados os dados de ocorrência de espécies da região, em conjunto com dados meteorológicos e de aerossóis obtidos por meio de coletas realizadas pelo projeto Go Amazon 2014/2015. A partir deles, foi aplicada uma técnica de interpolação espacial para aumentar sua resolução, gerando um novo conjunto de dados. Assim, foi possível validar as melhorias propostas na metodologia em um estudo de caso, concluindo que a aplicação de métodos de reamostragem, em conjunto com classificadores e técnicas de Inteligência Artificial Explicável possibilitam a realização dos experimentos de Modelagem de Distribuição de Espécies com sucesso. |
| id |
USP_2c03d0b349cab93e0e0874178a43190a |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-26082024-110959 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Comparação e avaliação de técnicas de aprendizado de máquina para modelagem de distribuição de espécies na região da Bacia Amazônica.Comparison and evaluation of machine learning techniques for species distribution modeling in the Amazon.Aprendizado computacionalEcologiaEcologyInterpolação espacialMachine learningSpatial interpolationUma das técnicas mais utilizadas para o monitoramento da biodiversidade é a Modelagem de Distribuição de Espécies. Através dela, é possível identificar as variáveis que mais influenciam na ocorrência de uma espécie e seu nicho ecológico. Como desenvolvimento de modelos de Aprendizado de Máquina que apresentam uma acurácia mais elevada, essa abordagem passou a ser amplamente adotada. Entretanto, existem desafios relacionados à aplicação dessas técnicas por contadas incertezas relacionadas à classe negativa, do desbalanceamento entre classes e de sua capacidade de interpretação. Dessa forma, nesta pesquisa buscou-se avaliar melhorias no procedimento metodológico e realizar uma comparação entre as técnicas de Aprendizado de Máquina, como a Regressão Logística, as Árvores de Decisão, as Florestas Aleatórias, Gradient Boosting, Extreme Gradient Boosting, as Máquinas de Vetores de Suporte (Support Vector Machines) e o Modelo de Máxima Entropia, de modo a avaliar a viabilidade do uso dessas técnicas para a Modelagem de Distribuição de Espécies. O melhor desempenho para ROC-AUC foi obtido pelo Gradient Boosting com 94%, considerando a métrica de Sensibilidade, o melhor foi o de Máxima Entropia com 85%. O modelo que apresentou os melhores ROC-AUC e Sensibilidade ao mesmo tempo foi o de Florestas Aleatórias. Essas técnicas foram avaliadas não só em relação ao desempenho de previsão, mas também a sua capacidade de explicação, utilizando técnicas de Inteligência Artificial Explicável. No centro da Floresta Amazônica, Manaus (AM) é considerada um laboratório ideal para o estudo dos efeitos da ação antrópica nos ecossistemas terrestres. Por isso, foram utilizados os dados de ocorrência de espécies da região, em conjunto com dados meteorológicos e de aerossóis obtidos por meio de coletas realizadas pelo projeto Go Amazon 2014/2015. A partir deles, foi aplicada uma técnica de interpolação espacial para aumentar sua resolução, gerando um novo conjunto de dados. Assim, foi possível validar as melhorias propostas na metodologia em um estudo de caso, concluindo que a aplicação de métodos de reamostragem, em conjunto com classificadores e técnicas de Inteligência Artificial Explicável possibilitam a realização dos experimentos de Modelagem de Distribuição de Espécies com sucesso.One of the most common techniques used to monitor biodiversityis Species Distribution Modeling. Throughit, one is able to identify the variables that have the greater effect on the occurrence of species and its ecological niche. With the development of Machine Learning models with high accuracy, these methods began to be widely used. However, there are several challenges to applyt hese techniques related to uncertainties of the negative class, class imbalance and interpretability. Therefore, this research aimed to evaluate improvements in the methodological process and compare different Machine Learning methods, such as Logistic Regression, DecisionTrees, Random Forests, Gradient Boosting, Extreme Gradient Boosting, Support Vector Machines and Maximum Entropy Model, to evaluate the viability of these techniques for Species Distribution Modeling. The model with the highest ROC-AUC was Gradient Boosting with 94%. Considering Recall, the best model was Maximum Entropy with 85%.The model with the best trade- off between ROC-AU CandRecallwasRandomForests.The methods were evaluated not only by its prediction performance, bus also by its interpretability with the use of Explainable Artificial Intelligence techniques. In the center of the Amazon Forest, the city of Manaus (AM) is considered as na unique laboratory to study the effect of the anthropic action on the terrestrial ecosystems.Therefore, species occurrence data were used with meteorological and aerossol data collected by the GoAmazon 2014/15 project. The spatial resoluti of the data was improved with spatial interpolation techniques, generating a new dataset.Thus, it was possible to validate the proposed improvements in the methodology with a study case, concluding that resampling techniques applied with Machine Learning classifiers and Artificial Intelligence techniques enable successful Species Distribution Modeling experiments.Biblioteca Digitais de Teses e Dissertações da USPCorrêa, Pedro Luiz PizzigattiMiyaji, Renato Okabayashi2024-05-08info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/3/3141/tde-26082024-110959/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-10-09T12:45:11Zoai:teses.usp.br:tde-26082024-110959Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-10-09T12:45:11Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Comparação e avaliação de técnicas de aprendizado de máquina para modelagem de distribuição de espécies na região da Bacia Amazônica. Comparison and evaluation of machine learning techniques for species distribution modeling in the Amazon. |
| title |
Comparação e avaliação de técnicas de aprendizado de máquina para modelagem de distribuição de espécies na região da Bacia Amazônica. |
| spellingShingle |
Comparação e avaliação de técnicas de aprendizado de máquina para modelagem de distribuição de espécies na região da Bacia Amazônica. Miyaji, Renato Okabayashi Aprendizado computacional Ecologia Ecology Interpolação espacial Machine learning Spatial interpolation |
| title_short |
Comparação e avaliação de técnicas de aprendizado de máquina para modelagem de distribuição de espécies na região da Bacia Amazônica. |
| title_full |
Comparação e avaliação de técnicas de aprendizado de máquina para modelagem de distribuição de espécies na região da Bacia Amazônica. |
| title_fullStr |
Comparação e avaliação de técnicas de aprendizado de máquina para modelagem de distribuição de espécies na região da Bacia Amazônica. |
| title_full_unstemmed |
Comparação e avaliação de técnicas de aprendizado de máquina para modelagem de distribuição de espécies na região da Bacia Amazônica. |
| title_sort |
Comparação e avaliação de técnicas de aprendizado de máquina para modelagem de distribuição de espécies na região da Bacia Amazônica. |
| author |
Miyaji, Renato Okabayashi |
| author_facet |
Miyaji, Renato Okabayashi |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Corrêa, Pedro Luiz Pizzigatti |
| dc.contributor.author.fl_str_mv |
Miyaji, Renato Okabayashi |
| dc.subject.por.fl_str_mv |
Aprendizado computacional Ecologia Ecology Interpolação espacial Machine learning Spatial interpolation |
| topic |
Aprendizado computacional Ecologia Ecology Interpolação espacial Machine learning Spatial interpolation |
| description |
Uma das técnicas mais utilizadas para o monitoramento da biodiversidade é a Modelagem de Distribuição de Espécies. Através dela, é possível identificar as variáveis que mais influenciam na ocorrência de uma espécie e seu nicho ecológico. Como desenvolvimento de modelos de Aprendizado de Máquina que apresentam uma acurácia mais elevada, essa abordagem passou a ser amplamente adotada. Entretanto, existem desafios relacionados à aplicação dessas técnicas por contadas incertezas relacionadas à classe negativa, do desbalanceamento entre classes e de sua capacidade de interpretação. Dessa forma, nesta pesquisa buscou-se avaliar melhorias no procedimento metodológico e realizar uma comparação entre as técnicas de Aprendizado de Máquina, como a Regressão Logística, as Árvores de Decisão, as Florestas Aleatórias, Gradient Boosting, Extreme Gradient Boosting, as Máquinas de Vetores de Suporte (Support Vector Machines) e o Modelo de Máxima Entropia, de modo a avaliar a viabilidade do uso dessas técnicas para a Modelagem de Distribuição de Espécies. O melhor desempenho para ROC-AUC foi obtido pelo Gradient Boosting com 94%, considerando a métrica de Sensibilidade, o melhor foi o de Máxima Entropia com 85%. O modelo que apresentou os melhores ROC-AUC e Sensibilidade ao mesmo tempo foi o de Florestas Aleatórias. Essas técnicas foram avaliadas não só em relação ao desempenho de previsão, mas também a sua capacidade de explicação, utilizando técnicas de Inteligência Artificial Explicável. No centro da Floresta Amazônica, Manaus (AM) é considerada um laboratório ideal para o estudo dos efeitos da ação antrópica nos ecossistemas terrestres. Por isso, foram utilizados os dados de ocorrência de espécies da região, em conjunto com dados meteorológicos e de aerossóis obtidos por meio de coletas realizadas pelo projeto Go Amazon 2014/2015. A partir deles, foi aplicada uma técnica de interpolação espacial para aumentar sua resolução, gerando um novo conjunto de dados. Assim, foi possível validar as melhorias propostas na metodologia em um estudo de caso, concluindo que a aplicação de métodos de reamostragem, em conjunto com classificadores e técnicas de Inteligência Artificial Explicável possibilitam a realização dos experimentos de Modelagem de Distribuição de Espécies com sucesso. |
| publishDate |
2024 |
| dc.date.none.fl_str_mv |
2024-05-08 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/3/3141/tde-26082024-110959/ |
| url |
https://www.teses.usp.br/teses/disponiveis/3/3141/tde-26082024-110959/ |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1865491647652954112 |