Técnicas de aprendizado estatístico aplicadas à seleção entre famílias de cana-de-açúcar

Moreira, Édimo Fernando Alves

Técnicas de aprendizado estatístico aplicadas à seleção entre famílias de cana-de-açúcar

Detalhes bibliográficos
Ano de defesa:	2017
Autor(a) principal:	Moreira, Édimo Fernando Alves
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Tese
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade Federal de Viçosa
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Amostragem (Estatística) Cana-de-açúcar - Melhoramento genético Cana-de-açúcar - Seleção Cana-de-açúcar - Classificação Estatística
Link de acesso:	http://www.locus.ufv.br/handle/123456789/19214
Resumo:	Uma das grandes dificuldades dos programas de melhoramento de cana-de-açúcar é a seleção de genótipos nas fases iniciais. O uso de métodos estatísticos que visam a predição com base em informações tomadas a nível de campo pode contribuir para aumentar a probabilidade de identificação de genótipos potencialmente superiores. O objetivo deste trabalho é comparar as técnicas de classificação regressão logística (LR), análise discriminante linear (LDA), análise discriminante quadrática (QDA), K-nearest neighboor (KNN), rede neural artificial (ANN) de única camada intermediária, árvores de decisão com random forests (RF) e máquinas de vetor de suporte (SVM) como alternativas para seleção entre famílias de cana-de-açúcar. Os dados utilizados neste trabalho foram provenientes de 5 experimentos, com 22 famílias cada, no delineamento em blocos casualizados, com 5 repetições. Nestes experimentos foram coletados os caracteres de produção, número de colmos (NC), diâmetro de colmos (DC) e a altura de colmos (AC), bem como a produtividade real, expressa em tonelada de cana por hectare (TCHr). Para o treinamento dos métodos de classificação foram utilizados, como variáveis explicativas, os caracteres indiretos de produção NC, DC e AC. A variável resposta utilizada no treinamento foi a indicadora Y = 0 , se a família não foi selecionada via TCHr, e Y = 1 , caso contrário. Previamente à obtenção das regras de classificação, os valores de NC, DC e AC foram padronizados para média 0 e variância 1. Além disso, visando maior eficiência no treinamento dos modelos, foram produzidos dados sintéticos com base na simulação de valores de NC, DC, AC e TCHr para 1.000 famílias. A simulação foi feita utilizando a estrutura de médias e covariâncias fenotípicas de cada i-ésimo experimento. As análises foram processadas em 5 diferentes cenários de acordo com o experimento utilizado para simulação e treinamento dos dados. Foram ainda considerados dois modelos, um completo, com todos os preditores, NC, DC e AC, e um reduzido, onde foi excluída a variável AC. Para avaliação dos classificadores foram utilizadas a taxa de erro aparente (AER) e a taxa de verdadeiros positivos (TPR). Todas as técnicas apresentam alta concordância com a seleção via TCHr (AER média < 0,14), em ambos os modelos, completo e reduzido. No modelo completo, o melhor desempenho, menor AER média (AER=0,0886) e maior TPR média (TPR=0,9831), foi observado no classificador SVM. No modelo reduzido, os classificadores ANN (AER média=0,0932; TPR média=0,9210), SVM (AER média=0,0977; TPR média=0,9417) e k-nearest neighboor (AER=0,1000, TPR=0,9167) apresentam os melhores resultados. O modelo reduzido pode ser preferido, pois apresenta resultados similares ao completo e tem a vantagem de ser operacionalmente mais simples

Metadados do item

id	UFV_298bd666f1001ab03bf4dfd836f66bdb
oai_identifier_str	oai:locus.ufv.br:123456789/19214
network_acronym_str	UFV
network_name_str	LOCUS Repositório Institucional da UFV
repository_id_str
spelling	Técnicas de aprendizado estatístico aplicadas à seleção entre famílias de cana-de-açúcarTechniques of statistical learning applied the selecting among families of sugarcaneAmostragem (Estatística)Cana-de-açúcar - Melhoramento genéticoCana-de-açúcar - SeleçãoCana-de-açúcar - ClassificaçãoEstatísticaUma das grandes dificuldades dos programas de melhoramento de cana-de-açúcar é a seleção de genótipos nas fases iniciais. O uso de métodos estatísticos que visam a predição com base em informações tomadas a nível de campo pode contribuir para aumentar a probabilidade de identificação de genótipos potencialmente superiores. O objetivo deste trabalho é comparar as técnicas de classificação regressão logística (LR), análise discriminante linear (LDA), análise discriminante quadrática (QDA), K-nearest neighboor (KNN), rede neural artificial (ANN) de única camada intermediária, árvores de decisão com random forests (RF) e máquinas de vetor de suporte (SVM) como alternativas para seleção entre famílias de cana-de-açúcar. Os dados utilizados neste trabalho foram provenientes de 5 experimentos, com 22 famílias cada, no delineamento em blocos casualizados, com 5 repetições. Nestes experimentos foram coletados os caracteres de produção, número de colmos (NC), diâmetro de colmos (DC) e a altura de colmos (AC), bem como a produtividade real, expressa em tonelada de cana por hectare (TCHr). Para o treinamento dos métodos de classificação foram utilizados, como variáveis explicativas, os caracteres indiretos de produção NC, DC e AC. A variável resposta utilizada no treinamento foi a indicadora Y = 0 , se a família não foi selecionada via TCHr, e Y = 1 , caso contrário. Previamente à obtenção das regras de classificação, os valores de NC, DC e AC foram padronizados para média 0 e variância 1. Além disso, visando maior eficiência no treinamento dos modelos, foram produzidos dados sintéticos com base na simulação de valores de NC, DC, AC e TCHr para 1.000 famílias. A simulação foi feita utilizando a estrutura de médias e covariâncias fenotípicas de cada i-ésimo experimento. As análises foram processadas em 5 diferentes cenários de acordo com o experimento utilizado para simulação e treinamento dos dados. Foram ainda considerados dois modelos, um completo, com todos os preditores, NC, DC e AC, e um reduzido, onde foi excluída a variável AC. Para avaliação dos classificadores foram utilizadas a taxa de erro aparente (AER) e a taxa de verdadeiros positivos (TPR). Todas as técnicas apresentam alta concordância com a seleção via TCHr (AER média < 0,14), em ambos os modelos, completo e reduzido. No modelo completo, o melhor desempenho, menor AER média (AER=0,0886) e maior TPR média (TPR=0,9831), foi observado no classificador SVM. No modelo reduzido, os classificadores ANN (AER média=0,0932; TPR média=0,9210), SVM (AER média=0,0977; TPR média=0,9417) e k-nearest neighboor (AER=0,1000, TPR=0,9167) apresentam os melhores resultados. O modelo reduzido pode ser preferido, pois apresenta resultados similares ao completo e tem a vantagem de ser operacionalmente mais simplesOne of the great difficulties of breeding programs is the selection of genotypes in the early stages. The use of statistical methods for the prediction based on information taken at the field level can contribute to increase the probability of identifying potentially superior genotypes. The objective of this study is to compare the classification techniques, logistic regression (LR), linear discriminant analysis (LDA), quadratic discriminant analysis (QDA), K-nearest neighboor (KNN), single-layer neural network (ANN), decision trees (DT) with random forests and support vector machines (SVM) as alternatives for selection of sugarcane families. The data used in this study were from five experiments with 22 families each, in randomized block design with 5 repetitions. In these experiments were collected production traits, number of stalks (NS), stalk diameter (SD) and the stalk height (SH) and the real production, expressed in tons of cane per hectare (TCHr). For training of methods were used as explanatory variables the indirect production traits, NS, SD and SH. The output variable used in training was the indicator, Y = 0 , if the family was not selected by real ton cane per hectare, and Y = 1 , if the family has been selected. Prior to obtaining the classification rules, the values of NS, SD and SH were standardized for mean 0 e variance 1. Moreover, aiming at greater efficiency in training of models were produced synthetic data based on simulation values of NS, SD, SH and TCHr for 1,000 families. The simulation was done using the structure of phenotypic mean and covariance of each ith experiment. The analyzes were performed in five different scenarios according to the experiment used for simulation and training data. In addition to the different scenarios they were considered two models, full, with all the explanatory variables and reduced, which was excluded from the variable SH. All the techniques of statistical learning feature high agreement with the selection via TCHr (AER mean < 0.14), in both models, full and reduced. For the full model, the best performance, lower AER mean (AER=0.0886) and higher TPR mean (0.9831), was observed in the classifier SVM. In the reduced model, the ANN (AER mean=0.0932; TPR mean=0.9210), the SVM (AER mean=0.0977; TPR mean=0.9417) and the k-nearest neighboor (AER=0.1000, TPR=0.9167) how the best results. The reduced model may be preferred because it presents similar results to the complete model and has the advantage of being operationally simpler.Universidade Federal de ViçosaPeternelli, Luiz Alexandrehttp://lattes.cnpq.br/0290811195300476Moreira, Édimo Fernando Alves2018-04-27T13:16:35Z2018-04-27T13:16:35Z2017-10-03info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfMOREIRA, Édimo Fernando Alves. Técnicas de aprendizado estatístico aplicadas à seleção entre famílias de cana-de-açúcar. 2017. 33f. Tese (Doutorado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2017.http://www.locus.ufv.br/handle/123456789/19214porinfo:eu-repo/semantics/openAccessreponame:LOCUS Repositório Institucional da UFVinstname:Universidade Federal de Viçosa (UFV)instacron:UFV2024-07-12T06:22:10Zoai:locus.ufv.br:123456789/19214Repositório InstitucionalPUBhttps://www.locus.ufv.br/oai/requestfabiojreis@ufv.bropendoar:21452024-07-12T06:22:10LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)false
dc.title.none.fl_str_mv	Técnicas de aprendizado estatístico aplicadas à seleção entre famílias de cana-de-açúcar Techniques of statistical learning applied the selecting among families of sugarcane
title	Técnicas de aprendizado estatístico aplicadas à seleção entre famílias de cana-de-açúcar
spellingShingle	Técnicas de aprendizado estatístico aplicadas à seleção entre famílias de cana-de-açúcar Moreira, Édimo Fernando Alves Amostragem (Estatística) Cana-de-açúcar - Melhoramento genético Cana-de-açúcar - Seleção Cana-de-açúcar - Classificação Estatística
title_short	Técnicas de aprendizado estatístico aplicadas à seleção entre famílias de cana-de-açúcar
title_full	Técnicas de aprendizado estatístico aplicadas à seleção entre famílias de cana-de-açúcar
title_fullStr	Técnicas de aprendizado estatístico aplicadas à seleção entre famílias de cana-de-açúcar
title_full_unstemmed	Técnicas de aprendizado estatístico aplicadas à seleção entre famílias de cana-de-açúcar
title_sort	Técnicas de aprendizado estatístico aplicadas à seleção entre famílias de cana-de-açúcar
author	Moreira, Édimo Fernando Alves
author_facet	Moreira, Édimo Fernando Alves
author_role	author
dc.contributor.none.fl_str_mv	Peternelli, Luiz Alexandre http://lattes.cnpq.br/0290811195300476
dc.contributor.author.fl_str_mv	Moreira, Édimo Fernando Alves
dc.subject.por.fl_str_mv	Amostragem (Estatística) Cana-de-açúcar - Melhoramento genético Cana-de-açúcar - Seleção Cana-de-açúcar - Classificação Estatística
topic	Amostragem (Estatística) Cana-de-açúcar - Melhoramento genético Cana-de-açúcar - Seleção Cana-de-açúcar - Classificação Estatística
description	Uma das grandes dificuldades dos programas de melhoramento de cana-de-açúcar é a seleção de genótipos nas fases iniciais. O uso de métodos estatísticos que visam a predição com base em informações tomadas a nível de campo pode contribuir para aumentar a probabilidade de identificação de genótipos potencialmente superiores. O objetivo deste trabalho é comparar as técnicas de classificação regressão logística (LR), análise discriminante linear (LDA), análise discriminante quadrática (QDA), K-nearest neighboor (KNN), rede neural artificial (ANN) de única camada intermediária, árvores de decisão com random forests (RF) e máquinas de vetor de suporte (SVM) como alternativas para seleção entre famílias de cana-de-açúcar. Os dados utilizados neste trabalho foram provenientes de 5 experimentos, com 22 famílias cada, no delineamento em blocos casualizados, com 5 repetições. Nestes experimentos foram coletados os caracteres de produção, número de colmos (NC), diâmetro de colmos (DC) e a altura de colmos (AC), bem como a produtividade real, expressa em tonelada de cana por hectare (TCHr). Para o treinamento dos métodos de classificação foram utilizados, como variáveis explicativas, os caracteres indiretos de produção NC, DC e AC. A variável resposta utilizada no treinamento foi a indicadora Y = 0 , se a família não foi selecionada via TCHr, e Y = 1 , caso contrário. Previamente à obtenção das regras de classificação, os valores de NC, DC e AC foram padronizados para média 0 e variância 1. Além disso, visando maior eficiência no treinamento dos modelos, foram produzidos dados sintéticos com base na simulação de valores de NC, DC, AC e TCHr para 1.000 famílias. A simulação foi feita utilizando a estrutura de médias e covariâncias fenotípicas de cada i-ésimo experimento. As análises foram processadas em 5 diferentes cenários de acordo com o experimento utilizado para simulação e treinamento dos dados. Foram ainda considerados dois modelos, um completo, com todos os preditores, NC, DC e AC, e um reduzido, onde foi excluída a variável AC. Para avaliação dos classificadores foram utilizadas a taxa de erro aparente (AER) e a taxa de verdadeiros positivos (TPR). Todas as técnicas apresentam alta concordância com a seleção via TCHr (AER média < 0,14), em ambos os modelos, completo e reduzido. No modelo completo, o melhor desempenho, menor AER média (AER=0,0886) e maior TPR média (TPR=0,9831), foi observado no classificador SVM. No modelo reduzido, os classificadores ANN (AER média=0,0932; TPR média=0,9210), SVM (AER média=0,0977; TPR média=0,9417) e k-nearest neighboor (AER=0,1000, TPR=0,9167) apresentam os melhores resultados. O modelo reduzido pode ser preferido, pois apresenta resultados similares ao completo e tem a vantagem de ser operacionalmente mais simples
publishDate	2017
dc.date.none.fl_str_mv	2017-10-03 2018-04-27T13:16:35Z 2018-04-27T13:16:35Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	MOREIRA, Édimo Fernando Alves. Técnicas de aprendizado estatístico aplicadas à seleção entre famílias de cana-de-açúcar. 2017. 33f. Tese (Doutorado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2017. http://www.locus.ufv.br/handle/123456789/19214
identifier_str_mv	MOREIRA, Édimo Fernando Alves. Técnicas de aprendizado estatístico aplicadas à seleção entre famílias de cana-de-açúcar. 2017. 33f. Tese (Doutorado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2017.
url	http://www.locus.ufv.br/handle/123456789/19214
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidade Federal de Viçosa
publisher.none.fl_str_mv	Universidade Federal de Viçosa
dc.source.none.fl_str_mv	reponame:LOCUS Repositório Institucional da UFV instname:Universidade Federal de Viçosa (UFV) instacron:UFV
instname_str	Universidade Federal de Viçosa (UFV)
instacron_str	UFV
institution	UFV
reponame_str	LOCUS Repositório Institucional da UFV
collection	LOCUS Repositório Institucional da UFV
repository.name.fl_str_mv	LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)
repository.mail.fl_str_mv	fabiojreis@ufv.br
_version_	1855045580222365696

Técnicas de aprendizado estatístico aplicadas à seleção entre famílias de cana-de-açúcar

Registros relacionados