Estimativa de produtividade da cana-de-açúcar a partir de imagens do satélite Sentinel-2A e o algoritmo de aprendizagem de máquina Random Forest

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Amaro, Rafaella Pironato
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/11/11152/tde-02102023-163947/
Resumo: A cana-de-açúcar é uma das culturas mais importantes para a economia brasileira, por isso, técnicas de aprendizado de máquina são utilizadas como importantes ferramentas de estimativa da produtividade. O objetivo deste trabalho foi criar modelos empíricos utilizando dados agronômicos, climáticos e de imagens de satélite, a partir do algoritmo Random Forest, para estimar a produtividade da cana-de-açúcar antes da colheita, no estado de São Paulo (SP). Para isso, foram utilizadas imagens Sentinel-2A; dados agronômicos; balanço hídrico da cultura e dados climáticos. Para selecionar as variáveis preditoras mais importantes foram criados modelos de estimativa de produtividade com três conjuntos de dados de uma usina: i) o primeiro conjunto de dados utilizou as variáveis agronômicas, climáticas, o balanço hídrico da cultura, índices de vegetação e bandas espectrais; ii) no segundo conjunto de dados, as variáveis fortemente correlacionadas foram removidas; e iii) o terceiro conjunto de dados foi criado com base na seleção de varáveis mais importantes pelo índice de Gini. Os modelos criados com o conjuntos de dados i, ii, iii apresentaram R2 entre 0,77 e 0,8, RMSE entre 8,2 e 8,6 ton ha-1, MAE entre 4,9 e 5,26 ton ha-1 e d-Willmott entre 0,93 e 0,94, sendo o melhor modelo com o conjunto de dados iii. As variáveis mais relevantes para estimar a produtividade da cana-de-açúcar foram o estágio de corte, o déficit hídrico, os índices NDVIRE e CIRE, além das bandas Red-edge, NIR-8A e SWIR1. A seleção das variáveis importantes reduziu a dimensionalidade dos dados e melhorou o desempenho do modelo. Após a identificação das variáveis preditoras mais importantes, foram criados três modelos operacionais para aplicação em escala regional, com 70% de dados para treino e 30% para teste. Para isso, foram utilizados dados de 3 usinas localizadas no estado de SP. O Modelo I (geral) considerou os dados de todas as usinas para treino e teste; o Modelo II foi similar ao I para o treino, porém foi testado em cada uma das usinas de forma separada; para o Modelo III o treinamento e teste foi feito com base em dois ciclos de produção da cana de açúcar (cana-planta e cana-soca). O Modelo I apresentou R2 igual a 0,72 enquanto os R2 do Modelo II ficaram entre 0,60 e 0,78, o RMSE para o Modelo I foi igual a 11,7 ton ha-1 enquanto o Modelo II de 8,62 a 15,56 ton ha-1, rRMSE foi igual a 16,5% para o Modelo I e 12,4 a 21,6%, para o Modelo II. O Modelo III apresentou R2 maior que 0,61, e RMSE entre 9,6 e 13,5 ton ha-1. Quando se comparou o rendimento médio com os erros RMSE, obtém-se um melhor desempenho para o modelo III com rRMSE inferior a 15,3%. A utilização do Random Forest para a criação de modelos globais para estimativa da cana-de-açúcar no estado de São Paulo mostrou-se promissora quando calibrado com três usinas e, separados em ciclos de produção da cana-de-açúcar (cana-planta e cana-soca).
id USP_8d32b91036837d8eabd218ef7986e64c
oai_identifier_str oai:teses.usp.br:tde-02102023-163947
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Estimativa de produtividade da cana-de-açúcar a partir de imagens do satélite Sentinel-2A e o algoritmo de aprendizagem de máquina Random ForestSugarcane yield estimation from Sentinel-2A satellite imagery and Random Forest machine learning algorithmsBorda vermelhaÍndices de vegetaçãoMonitoramento da cana-de-açúcarRed-edgeRemote sensingSeleção de variáveisSensoriamento remotoSugarcane monitoringVariable selectionVegetation indicesA cana-de-açúcar é uma das culturas mais importantes para a economia brasileira, por isso, técnicas de aprendizado de máquina são utilizadas como importantes ferramentas de estimativa da produtividade. O objetivo deste trabalho foi criar modelos empíricos utilizando dados agronômicos, climáticos e de imagens de satélite, a partir do algoritmo Random Forest, para estimar a produtividade da cana-de-açúcar antes da colheita, no estado de São Paulo (SP). Para isso, foram utilizadas imagens Sentinel-2A; dados agronômicos; balanço hídrico da cultura e dados climáticos. Para selecionar as variáveis preditoras mais importantes foram criados modelos de estimativa de produtividade com três conjuntos de dados de uma usina: i) o primeiro conjunto de dados utilizou as variáveis agronômicas, climáticas, o balanço hídrico da cultura, índices de vegetação e bandas espectrais; ii) no segundo conjunto de dados, as variáveis fortemente correlacionadas foram removidas; e iii) o terceiro conjunto de dados foi criado com base na seleção de varáveis mais importantes pelo índice de Gini. Os modelos criados com o conjuntos de dados i, ii, iii apresentaram R2 entre 0,77 e 0,8, RMSE entre 8,2 e 8,6 ton ha-1, MAE entre 4,9 e 5,26 ton ha-1 e d-Willmott entre 0,93 e 0,94, sendo o melhor modelo com o conjunto de dados iii. As variáveis mais relevantes para estimar a produtividade da cana-de-açúcar foram o estágio de corte, o déficit hídrico, os índices NDVIRE e CIRE, além das bandas Red-edge, NIR-8A e SWIR1. A seleção das variáveis importantes reduziu a dimensionalidade dos dados e melhorou o desempenho do modelo. Após a identificação das variáveis preditoras mais importantes, foram criados três modelos operacionais para aplicação em escala regional, com 70% de dados para treino e 30% para teste. Para isso, foram utilizados dados de 3 usinas localizadas no estado de SP. O Modelo I (geral) considerou os dados de todas as usinas para treino e teste; o Modelo II foi similar ao I para o treino, porém foi testado em cada uma das usinas de forma separada; para o Modelo III o treinamento e teste foi feito com base em dois ciclos de produção da cana de açúcar (cana-planta e cana-soca). O Modelo I apresentou R2 igual a 0,72 enquanto os R2 do Modelo II ficaram entre 0,60 e 0,78, o RMSE para o Modelo I foi igual a 11,7 ton ha-1 enquanto o Modelo II de 8,62 a 15,56 ton ha-1, rRMSE foi igual a 16,5% para o Modelo I e 12,4 a 21,6%, para o Modelo II. O Modelo III apresentou R2 maior que 0,61, e RMSE entre 9,6 e 13,5 ton ha-1. Quando se comparou o rendimento médio com os erros RMSE, obtém-se um melhor desempenho para o modelo III com rRMSE inferior a 15,3%. A utilização do Random Forest para a criação de modelos globais para estimativa da cana-de-açúcar no estado de São Paulo mostrou-se promissora quando calibrado com três usinas e, separados em ciclos de produção da cana-de-açúcar (cana-planta e cana-soca).Sugarcane is a very important crop for the Brazilian economy, so machine learning techniques are being used as an important tool to improve yield estimation. This study aimed to create an empirical model using agronomic, climatic, and satellite images, by Random Forest algorithm, to estimated sugarcane yield before the harvest, in São Paulo state (SP). We used radiometric bands and vegetation indices from Sentinel-2 images; agronomic data; crop water balance and climatic data. To select the most important variables it were builted yield estimation models based on three datasets from one mill: i) the first dataset used agronomic data, climatic data, crop water balance, and remote sensing data); ii) in the second dataset, the most strongly correlated variables were removed; and iii) the third dataset was created with the variables selected by feature selection using the Gini index. The models created with the datasets i, ii, and iii showed R2 from 0.77 to 0.8, RMSE from 8.2 to 8.6 ton ha-1, MAE from 4.9 to 5.26 ton ha-1 and d-Willmott from 0.93 to 0.94, where the best result was using dataset 3 (iii). The most relevant variables to estimated sugarcane productivity were number of harvests, water deficit, NDRE and CIRE vegetation indices and Red-edge, NIR-8A and SWIR1 bands. The variable selection reduced the dimensionality of the data and improved the models\' performance. After the selection of the most important predictor variables, it was created three operational models for application on the regional scale, using 70% of data to train and 30% to test. For this, we used data from three mills located in SP. The Model I (general) considered data from all mills for training and testing; Model II was similar to I for training, however, it was tested in each mill independently; for Model III the training and testing were made based on two groups of the sugarcane production cycles (plant cane and sugarcane ratoons). The results for Model I showed R2 equal to 0.72 while the R2 of Model II were between 0.60 and 0.78, RMSE for Model I was equal to 11.7 ton ha-1 while Model II from 8.62 to 15.56 ton ha-1, rRMSE was equal to 16.5% for Model I and 12.4 to 21.6%, for Model II. Model III showed R2 greater than 0.61, and RMSE between 9.6 and 13.5 ton ha-1. When average yield was compared with RMSE errors, better performance is obtained for Model III with rRMSE less than 15.3%.The use of Random Forest to create general models for sugarcane yield estimation in the state of Sao Paulo showed promise when calibrated with three mills and, separated by sugarcane production cycles.Biblioteca Digitais de Teses e Dissertações da USPLuciano, Ana Claudia dos SantosAmaro, Rafaella Pironato2023-08-03info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/11/11152/tde-02102023-163947/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPReter o conteúdo por motivos de patente, publicação e/ou direitos autoriais.info:eu-repo/semantics/openAccesspor2023-10-03T14:22:03Zoai:teses.usp.br:tde-02102023-163947Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212023-10-03T14:22:03Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Estimativa de produtividade da cana-de-açúcar a partir de imagens do satélite Sentinel-2A e o algoritmo de aprendizagem de máquina Random Forest
Sugarcane yield estimation from Sentinel-2A satellite imagery and Random Forest machine learning algorithms
title Estimativa de produtividade da cana-de-açúcar a partir de imagens do satélite Sentinel-2A e o algoritmo de aprendizagem de máquina Random Forest
spellingShingle Estimativa de produtividade da cana-de-açúcar a partir de imagens do satélite Sentinel-2A e o algoritmo de aprendizagem de máquina Random Forest
Amaro, Rafaella Pironato
Borda vermelha
Índices de vegetação
Monitoramento da cana-de-açúcar
Red-edge
Remote sensing
Seleção de variáveis
Sensoriamento remoto
Sugarcane monitoring
Variable selection
Vegetation indices
title_short Estimativa de produtividade da cana-de-açúcar a partir de imagens do satélite Sentinel-2A e o algoritmo de aprendizagem de máquina Random Forest
title_full Estimativa de produtividade da cana-de-açúcar a partir de imagens do satélite Sentinel-2A e o algoritmo de aprendizagem de máquina Random Forest
title_fullStr Estimativa de produtividade da cana-de-açúcar a partir de imagens do satélite Sentinel-2A e o algoritmo de aprendizagem de máquina Random Forest
title_full_unstemmed Estimativa de produtividade da cana-de-açúcar a partir de imagens do satélite Sentinel-2A e o algoritmo de aprendizagem de máquina Random Forest
title_sort Estimativa de produtividade da cana-de-açúcar a partir de imagens do satélite Sentinel-2A e o algoritmo de aprendizagem de máquina Random Forest
author Amaro, Rafaella Pironato
author_facet Amaro, Rafaella Pironato
author_role author
dc.contributor.none.fl_str_mv Luciano, Ana Claudia dos Santos
dc.contributor.author.fl_str_mv Amaro, Rafaella Pironato
dc.subject.por.fl_str_mv Borda vermelha
Índices de vegetação
Monitoramento da cana-de-açúcar
Red-edge
Remote sensing
Seleção de variáveis
Sensoriamento remoto
Sugarcane monitoring
Variable selection
Vegetation indices
topic Borda vermelha
Índices de vegetação
Monitoramento da cana-de-açúcar
Red-edge
Remote sensing
Seleção de variáveis
Sensoriamento remoto
Sugarcane monitoring
Variable selection
Vegetation indices
description A cana-de-açúcar é uma das culturas mais importantes para a economia brasileira, por isso, técnicas de aprendizado de máquina são utilizadas como importantes ferramentas de estimativa da produtividade. O objetivo deste trabalho foi criar modelos empíricos utilizando dados agronômicos, climáticos e de imagens de satélite, a partir do algoritmo Random Forest, para estimar a produtividade da cana-de-açúcar antes da colheita, no estado de São Paulo (SP). Para isso, foram utilizadas imagens Sentinel-2A; dados agronômicos; balanço hídrico da cultura e dados climáticos. Para selecionar as variáveis preditoras mais importantes foram criados modelos de estimativa de produtividade com três conjuntos de dados de uma usina: i) o primeiro conjunto de dados utilizou as variáveis agronômicas, climáticas, o balanço hídrico da cultura, índices de vegetação e bandas espectrais; ii) no segundo conjunto de dados, as variáveis fortemente correlacionadas foram removidas; e iii) o terceiro conjunto de dados foi criado com base na seleção de varáveis mais importantes pelo índice de Gini. Os modelos criados com o conjuntos de dados i, ii, iii apresentaram R2 entre 0,77 e 0,8, RMSE entre 8,2 e 8,6 ton ha-1, MAE entre 4,9 e 5,26 ton ha-1 e d-Willmott entre 0,93 e 0,94, sendo o melhor modelo com o conjunto de dados iii. As variáveis mais relevantes para estimar a produtividade da cana-de-açúcar foram o estágio de corte, o déficit hídrico, os índices NDVIRE e CIRE, além das bandas Red-edge, NIR-8A e SWIR1. A seleção das variáveis importantes reduziu a dimensionalidade dos dados e melhorou o desempenho do modelo. Após a identificação das variáveis preditoras mais importantes, foram criados três modelos operacionais para aplicação em escala regional, com 70% de dados para treino e 30% para teste. Para isso, foram utilizados dados de 3 usinas localizadas no estado de SP. O Modelo I (geral) considerou os dados de todas as usinas para treino e teste; o Modelo II foi similar ao I para o treino, porém foi testado em cada uma das usinas de forma separada; para o Modelo III o treinamento e teste foi feito com base em dois ciclos de produção da cana de açúcar (cana-planta e cana-soca). O Modelo I apresentou R2 igual a 0,72 enquanto os R2 do Modelo II ficaram entre 0,60 e 0,78, o RMSE para o Modelo I foi igual a 11,7 ton ha-1 enquanto o Modelo II de 8,62 a 15,56 ton ha-1, rRMSE foi igual a 16,5% para o Modelo I e 12,4 a 21,6%, para o Modelo II. O Modelo III apresentou R2 maior que 0,61, e RMSE entre 9,6 e 13,5 ton ha-1. Quando se comparou o rendimento médio com os erros RMSE, obtém-se um melhor desempenho para o modelo III com rRMSE inferior a 15,3%. A utilização do Random Forest para a criação de modelos globais para estimativa da cana-de-açúcar no estado de São Paulo mostrou-se promissora quando calibrado com três usinas e, separados em ciclos de produção da cana-de-açúcar (cana-planta e cana-soca).
publishDate 2023
dc.date.none.fl_str_mv 2023-08-03
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/11/11152/tde-02102023-163947/
url https://www.teses.usp.br/teses/disponiveis/11/11152/tde-02102023-163947/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Reter o conteúdo por motivos de patente, publicação e/ou direitos autoriais.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Reter o conteúdo por motivos de patente, publicação e/ou direitos autoriais.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815257821041655808