Técnicas de aprendizado estatístico aplicadas à seleção entre famílias de cana-de-açúcar

Detalhes bibliográficos
Ano de defesa: 2017
Autor(a) principal: Moreira, Édimo Fernando Alves
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Viçosa
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://www.locus.ufv.br/handle/123456789/19214
Resumo: Uma das grandes dificuldades dos programas de melhoramento de cana-de-açúcar é a seleção de genótipos nas fases iniciais. O uso de métodos estatísticos que visam a predição com base em informações tomadas a nível de campo pode contribuir para aumentar a probabilidade de identificação de genótipos potencialmente superiores. O objetivo deste trabalho é comparar as técnicas de classificação regressão logística (LR), análise discriminante linear (LDA), análise discriminante quadrática (QDA), K-nearest neighboor (KNN), rede neural artificial (ANN) de única camada intermediária, árvores de decisão com random forests (RF) e máquinas de vetor de suporte (SVM) como alternativas para seleção entre famílias de cana-de-açúcar. Os dados utilizados neste trabalho foram provenientes de 5 experimentos, com 22 famílias cada, no delineamento em blocos casualizados, com 5 repetições. Nestes experimentos foram coletados os caracteres de produção, número de colmos (NC), diâmetro de colmos (DC) e a altura de colmos (AC), bem como a produtividade real, expressa em tonelada de cana por hectare (TCHr). Para o treinamento dos métodos de classificação foram utilizados, como variáveis explicativas, os caracteres indiretos de produção NC, DC e AC. A variável resposta utilizada no treinamento foi a indicadora Y = 0 , se a família não foi selecionada via TCHr, e Y = 1 , caso contrário. Previamente à obtenção das regras de classificação, os valores de NC, DC e AC foram padronizados para média 0 e variância 1. Além disso, visando maior eficiência no treinamento dos modelos, foram produzidos dados sintéticos com base na simulação de valores de NC, DC, AC e TCHr para 1.000 famílias. A simulação foi feita utilizando a estrutura de médias e covariâncias fenotípicas de cada i-ésimo experimento. As análises foram processadas em 5 diferentes cenários de acordo com o experimento utilizado para simulação e treinamento dos dados. Foram ainda considerados dois modelos, um completo, com todos os preditores, NC, DC e AC, e um reduzido, onde foi excluída a variável AC. Para avaliação dos classificadores foram utilizadas a taxa de erro aparente (AER) e a taxa de verdadeiros positivos (TPR). Todas as técnicas apresentam alta concordância com a seleção via TCHr (AER média < 0,14), em ambos os modelos, completo e reduzido. No modelo completo, o melhor desempenho, menor AER média (AER=0,0886) e maior TPR média (TPR=0,9831), foi observado no classificador SVM. No modelo reduzido, os classificadores ANN (AER média=0,0932; TPR média=0,9210), SVM (AER média=0,0977; TPR média=0,9417) e k-nearest neighboor (AER=0,1000, TPR=0,9167) apresentam os melhores resultados. O modelo reduzido pode ser preferido, pois apresenta resultados similares ao completo e tem a vantagem de ser operacionalmente mais simples
id UFV_298bd666f1001ab03bf4dfd836f66bdb
oai_identifier_str oai:locus.ufv.br:123456789/19214
network_acronym_str UFV
network_name_str LOCUS Repositório Institucional da UFV
repository_id_str
spelling Técnicas de aprendizado estatístico aplicadas à seleção entre famílias de cana-de-açúcarTechniques of statistical learning applied the selecting among families of sugarcaneAmostragem (Estatística)Cana-de-açúcar - Melhoramento genéticoCana-de-açúcar - SeleçãoCana-de-açúcar - ClassificaçãoEstatísticaUma das grandes dificuldades dos programas de melhoramento de cana-de-açúcar é a seleção de genótipos nas fases iniciais. O uso de métodos estatísticos que visam a predição com base em informações tomadas a nível de campo pode contribuir para aumentar a probabilidade de identificação de genótipos potencialmente superiores. O objetivo deste trabalho é comparar as técnicas de classificação regressão logística (LR), análise discriminante linear (LDA), análise discriminante quadrática (QDA), K-nearest neighboor (KNN), rede neural artificial (ANN) de única camada intermediária, árvores de decisão com random forests (RF) e máquinas de vetor de suporte (SVM) como alternativas para seleção entre famílias de cana-de-açúcar. Os dados utilizados neste trabalho foram provenientes de 5 experimentos, com 22 famílias cada, no delineamento em blocos casualizados, com 5 repetições. Nestes experimentos foram coletados os caracteres de produção, número de colmos (NC), diâmetro de colmos (DC) e a altura de colmos (AC), bem como a produtividade real, expressa em tonelada de cana por hectare (TCHr). Para o treinamento dos métodos de classificação foram utilizados, como variáveis explicativas, os caracteres indiretos de produção NC, DC e AC. A variável resposta utilizada no treinamento foi a indicadora Y = 0 , se a família não foi selecionada via TCHr, e Y = 1 , caso contrário. Previamente à obtenção das regras de classificação, os valores de NC, DC e AC foram padronizados para média 0 e variância 1. Além disso, visando maior eficiência no treinamento dos modelos, foram produzidos dados sintéticos com base na simulação de valores de NC, DC, AC e TCHr para 1.000 famílias. A simulação foi feita utilizando a estrutura de médias e covariâncias fenotípicas de cada i-ésimo experimento. As análises foram processadas em 5 diferentes cenários de acordo com o experimento utilizado para simulação e treinamento dos dados. Foram ainda considerados dois modelos, um completo, com todos os preditores, NC, DC e AC, e um reduzido, onde foi excluída a variável AC. Para avaliação dos classificadores foram utilizadas a taxa de erro aparente (AER) e a taxa de verdadeiros positivos (TPR). Todas as técnicas apresentam alta concordância com a seleção via TCHr (AER média < 0,14), em ambos os modelos, completo e reduzido. No modelo completo, o melhor desempenho, menor AER média (AER=0,0886) e maior TPR média (TPR=0,9831), foi observado no classificador SVM. No modelo reduzido, os classificadores ANN (AER média=0,0932; TPR média=0,9210), SVM (AER média=0,0977; TPR média=0,9417) e k-nearest neighboor (AER=0,1000, TPR=0,9167) apresentam os melhores resultados. O modelo reduzido pode ser preferido, pois apresenta resultados similares ao completo e tem a vantagem de ser operacionalmente mais simplesOne of the great difficulties of breeding programs is the selection of genotypes in the early stages. The use of statistical methods for the prediction based on information taken at the field level can contribute to increase the probability of identifying potentially superior genotypes. The objective of this study is to compare the classification techniques, logistic regression (LR), linear discriminant analysis (LDA), quadratic discriminant analysis (QDA), K-nearest neighboor (KNN), single-layer neural network (ANN), decision trees (DT) with random forests and support vector machines (SVM) as alternatives for selection of sugarcane families. The data used in this study were from five experiments with 22 families each, in randomized block design with 5 repetitions. In these experiments were collected production traits, number of stalks (NS), stalk diameter (SD) and the stalk height (SH) and the real production, expressed in tons of cane per hectare (TCHr). For training of methods were used as explanatory variables the indirect production traits, NS, SD and SH. The output variable used in training was the indicator, Y = 0 , if the family was not selected by real ton cane per hectare, and Y = 1 , if the family has been selected. Prior to obtaining the classification rules, the values of NS, SD and SH were standardized for mean 0 e variance 1. Moreover, aiming at greater efficiency in training of models were produced synthetic data based on simulation values of NS, SD, SH and TCHr for 1,000 families. The simulation was done using the structure of phenotypic mean and covariance of each ith experiment. The analyzes were performed in five different scenarios according to the experiment used for simulation and training data. In addition to the different scenarios they were considered two models, full, with all the explanatory variables and reduced, which was excluded from the variable SH. All the techniques of statistical learning feature high agreement with the selection via TCHr (AER mean < 0.14), in both models, full and reduced. For the full model, the best performance, lower AER mean (AER=0.0886) and higher TPR mean (0.9831), was observed in the classifier SVM. In the reduced model, the ANN (AER mean=0.0932; TPR mean=0.9210), the SVM (AER mean=0.0977; TPR mean=0.9417) and the k-nearest neighboor (AER=0.1000, TPR=0.9167) how the best results. The reduced model may be preferred because it presents similar results to the complete model and has the advantage of being operationally simpler.Universidade Federal de ViçosaPeternelli, Luiz Alexandrehttp://lattes.cnpq.br/0290811195300476Moreira, Édimo Fernando Alves2018-04-27T13:16:35Z2018-04-27T13:16:35Z2017-10-03info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfMOREIRA, Édimo Fernando Alves. Técnicas de aprendizado estatístico aplicadas à seleção entre famílias de cana-de-açúcar. 2017. 33f. Tese (Doutorado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2017.http://www.locus.ufv.br/handle/123456789/19214porinfo:eu-repo/semantics/openAccessreponame:LOCUS Repositório Institucional da UFVinstname:Universidade Federal de Viçosa (UFV)instacron:UFV2024-07-12T06:22:10Zoai:locus.ufv.br:123456789/19214Repositório InstitucionalPUBhttps://www.locus.ufv.br/oai/requestfabiojreis@ufv.bropendoar:21452024-07-12T06:22:10LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)false
dc.title.none.fl_str_mv Técnicas de aprendizado estatístico aplicadas à seleção entre famílias de cana-de-açúcar
Techniques of statistical learning applied the selecting among families of sugarcane
title Técnicas de aprendizado estatístico aplicadas à seleção entre famílias de cana-de-açúcar
spellingShingle Técnicas de aprendizado estatístico aplicadas à seleção entre famílias de cana-de-açúcar
Moreira, Édimo Fernando Alves
Amostragem (Estatística)
Cana-de-açúcar - Melhoramento genético
Cana-de-açúcar - Seleção
Cana-de-açúcar - Classificação
Estatística
title_short Técnicas de aprendizado estatístico aplicadas à seleção entre famílias de cana-de-açúcar
title_full Técnicas de aprendizado estatístico aplicadas à seleção entre famílias de cana-de-açúcar
title_fullStr Técnicas de aprendizado estatístico aplicadas à seleção entre famílias de cana-de-açúcar
title_full_unstemmed Técnicas de aprendizado estatístico aplicadas à seleção entre famílias de cana-de-açúcar
title_sort Técnicas de aprendizado estatístico aplicadas à seleção entre famílias de cana-de-açúcar
author Moreira, Édimo Fernando Alves
author_facet Moreira, Édimo Fernando Alves
author_role author
dc.contributor.none.fl_str_mv Peternelli, Luiz Alexandre
http://lattes.cnpq.br/0290811195300476
dc.contributor.author.fl_str_mv Moreira, Édimo Fernando Alves
dc.subject.por.fl_str_mv Amostragem (Estatística)
Cana-de-açúcar - Melhoramento genético
Cana-de-açúcar - Seleção
Cana-de-açúcar - Classificação
Estatística
topic Amostragem (Estatística)
Cana-de-açúcar - Melhoramento genético
Cana-de-açúcar - Seleção
Cana-de-açúcar - Classificação
Estatística
description Uma das grandes dificuldades dos programas de melhoramento de cana-de-açúcar é a seleção de genótipos nas fases iniciais. O uso de métodos estatísticos que visam a predição com base em informações tomadas a nível de campo pode contribuir para aumentar a probabilidade de identificação de genótipos potencialmente superiores. O objetivo deste trabalho é comparar as técnicas de classificação regressão logística (LR), análise discriminante linear (LDA), análise discriminante quadrática (QDA), K-nearest neighboor (KNN), rede neural artificial (ANN) de única camada intermediária, árvores de decisão com random forests (RF) e máquinas de vetor de suporte (SVM) como alternativas para seleção entre famílias de cana-de-açúcar. Os dados utilizados neste trabalho foram provenientes de 5 experimentos, com 22 famílias cada, no delineamento em blocos casualizados, com 5 repetições. Nestes experimentos foram coletados os caracteres de produção, número de colmos (NC), diâmetro de colmos (DC) e a altura de colmos (AC), bem como a produtividade real, expressa em tonelada de cana por hectare (TCHr). Para o treinamento dos métodos de classificação foram utilizados, como variáveis explicativas, os caracteres indiretos de produção NC, DC e AC. A variável resposta utilizada no treinamento foi a indicadora Y = 0 , se a família não foi selecionada via TCHr, e Y = 1 , caso contrário. Previamente à obtenção das regras de classificação, os valores de NC, DC e AC foram padronizados para média 0 e variância 1. Além disso, visando maior eficiência no treinamento dos modelos, foram produzidos dados sintéticos com base na simulação de valores de NC, DC, AC e TCHr para 1.000 famílias. A simulação foi feita utilizando a estrutura de médias e covariâncias fenotípicas de cada i-ésimo experimento. As análises foram processadas em 5 diferentes cenários de acordo com o experimento utilizado para simulação e treinamento dos dados. Foram ainda considerados dois modelos, um completo, com todos os preditores, NC, DC e AC, e um reduzido, onde foi excluída a variável AC. Para avaliação dos classificadores foram utilizadas a taxa de erro aparente (AER) e a taxa de verdadeiros positivos (TPR). Todas as técnicas apresentam alta concordância com a seleção via TCHr (AER média < 0,14), em ambos os modelos, completo e reduzido. No modelo completo, o melhor desempenho, menor AER média (AER=0,0886) e maior TPR média (TPR=0,9831), foi observado no classificador SVM. No modelo reduzido, os classificadores ANN (AER média=0,0932; TPR média=0,9210), SVM (AER média=0,0977; TPR média=0,9417) e k-nearest neighboor (AER=0,1000, TPR=0,9167) apresentam os melhores resultados. O modelo reduzido pode ser preferido, pois apresenta resultados similares ao completo e tem a vantagem de ser operacionalmente mais simples
publishDate 2017
dc.date.none.fl_str_mv 2017-10-03
2018-04-27T13:16:35Z
2018-04-27T13:16:35Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv MOREIRA, Édimo Fernando Alves. Técnicas de aprendizado estatístico aplicadas à seleção entre famílias de cana-de-açúcar. 2017. 33f. Tese (Doutorado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2017.
http://www.locus.ufv.br/handle/123456789/19214
identifier_str_mv MOREIRA, Édimo Fernando Alves. Técnicas de aprendizado estatístico aplicadas à seleção entre famílias de cana-de-açúcar. 2017. 33f. Tese (Doutorado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2017.
url http://www.locus.ufv.br/handle/123456789/19214
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de Viçosa
publisher.none.fl_str_mv Universidade Federal de Viçosa
dc.source.none.fl_str_mv reponame:LOCUS Repositório Institucional da UFV
instname:Universidade Federal de Viçosa (UFV)
instacron:UFV
instname_str Universidade Federal de Viçosa (UFV)
instacron_str UFV
institution UFV
reponame_str LOCUS Repositório Institucional da UFV
collection LOCUS Repositório Institucional da UFV
repository.name.fl_str_mv LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)
repository.mail.fl_str_mv fabiojreis@ufv.br
_version_ 1855045580222365696