Seleção de SNPs em culturas de arroz utilizando aprendizado de máquina

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Funicheli, Breno Osvaldo
Orientador(a): Cerri, Ricardo lattes
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de São Carlos
Câmpus São Carlos
Programa de Pós-Graduação: Programa de Pós-Graduação em Ciência da Computação - PPGCC
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
SNP
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: https://repositorio.ufscar.br/handle/20.500.14289/19636
Resumo: Rice (Oryza sativa) is one of the largest collections of genetic resources among plant species of economic interest. To increase the productivity of this cultivar, several genetic variability studies have been developed. In this context, single nucleotide polymorphisms (SNPs), which are single base variations in DNA sequences, have been widely studied, as they act as molecular markers linked to productivity and resistance in rice cultivation. However, due to the ineffectiveness of conventional methods in the task of selecting SNPs, methods based on Machine Learning (ML) have been used. For this purpose, the selection of SNPs is modeled as a Feature Selection (FS) problem. Although the use of FS is widespread in the literature, there are still gaps regarding its use in the context of rice genetic improvement. In conjunction with this, there is a need to investigate the SNPs selected by these methods in genetic improvement studies, to offer possible biological explanations linked to the results generated. To advance interesting points regarding this discussion, this work proposes some ensemble methods for selecting SNPs, to combine several FS algorithms to generate a robust result. These methods were implemented such as to create a pipeline for SNPs selection. The pipeline was applied to a dataset with multiple phenotypes linked to rice productivity. The proposed methods were compared to other methods present in the literature, demonstrating the best results in some cases. Furthermore, the use of functional enrichment as a strategy to explain the results was explored. The dataset used belongs to the Coleção Nuclear de Arroz of Embrapa Arroz e Feijão and was provided with the intention that the results generated in the present work would be subsequently investigated and used in the genetic improvement of rice
id SCAR_5e0a1dadb16f5c2c75c65e7eba340ffb
oai_identifier_str oai:repositorio.ufscar.br:20.500.14289/19636
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str
spelling Funicheli, Breno OsvaldoCerri, Ricardohttp://lattes.cnpq.br/6266519868438512http://lattes.cnpq.br/1264469349936693https://orcid.org/0000-0002-2582-16952024-04-05T19:17:27Z2024-04-05T19:17:27Z2024-02-02FUNICHELI, Breno Osvaldo. Seleção de SNPs em culturas de arroz utilizando aprendizado de máquina. 2024. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/19636.https://repositorio.ufscar.br/handle/20.500.14289/19636Rice (Oryza sativa) is one of the largest collections of genetic resources among plant species of economic interest. To increase the productivity of this cultivar, several genetic variability studies have been developed. In this context, single nucleotide polymorphisms (SNPs), which are single base variations in DNA sequences, have been widely studied, as they act as molecular markers linked to productivity and resistance in rice cultivation. However, due to the ineffectiveness of conventional methods in the task of selecting SNPs, methods based on Machine Learning (ML) have been used. For this purpose, the selection of SNPs is modeled as a Feature Selection (FS) problem. Although the use of FS is widespread in the literature, there are still gaps regarding its use in the context of rice genetic improvement. In conjunction with this, there is a need to investigate the SNPs selected by these methods in genetic improvement studies, to offer possible biological explanations linked to the results generated. To advance interesting points regarding this discussion, this work proposes some ensemble methods for selecting SNPs, to combine several FS algorithms to generate a robust result. These methods were implemented such as to create a pipeline for SNPs selection. The pipeline was applied to a dataset with multiple phenotypes linked to rice productivity. The proposed methods were compared to other methods present in the literature, demonstrating the best results in some cases. Furthermore, the use of functional enrichment as a strategy to explain the results was explored. The dataset used belongs to the Coleção Nuclear de Arroz of Embrapa Arroz e Feijão and was provided with the intention that the results generated in the present work would be subsequently investigated and used in the genetic improvement of riceO arroz (Oryza sativa) é uma das maiores coleções de recursos genéticos entre as espécies vegetais de interesse econômico. Com o intuito de aumentar a produtividade desse cultivar, diversos estudos de variabilidade genética vêm sendo desenvolvidos. Nesse contexto, os polimorfismos de nucleotídeo único (SNPs), que são variações de base única nas sequências de DNA, têm sido amplamente estudados, pois atuam como marcadores moleculares vinculados à produtividade e resistência na cultura de arroz. No entanto, devido a não efetividade de métodos convencionais na tarefa de seleção de SNPs, métodos baseados em Aprendizado de Máquina (do inglês, "Machine Learning") (ML) vêm sendo utilizados. Para isso a seleção de SNPs é modelada como um problema de seleção de Atributos (do inglês, “Feature Selection”) (FS). Embora a utilização de FS seja amplamente difundida na literatura, ainda há lacunas quanto à sua utilização no contexto de melhoramento genético de arroz. Em conjunto a isso, observa-se a necessidade de investigação dos SNPs selecionados por esses métodos em estudos de melhoramento genético, de modo a oferecer possíveis explicações biológicas vinculadas aos resultados gerados. Com o intuito de avançar nuances referentes a essa discussão, o presente trabalho propôs alguns métodos de ensemble para seleção de SNPs, a fim de combinar diversos algoritmos de FS para geração de um resultado robusto. Os métodos foram implementados de maneira a criar um pipeline para seleção de SNPs. O pipeline foi aplicado a um conjunto de dados com múltiplos fenótipos ligados à produtividade do arroz. Os métodos propostos foram contrastados a outros métodos presentes na literatura, demonstrando resultados superiores em alguns casos. Além disso, foi explorada a utilização do enriquecimento funcional como estratégia de explicação dos resultados. O conjunto de dados utilizado pertence à Coleção Nuclear de Arroz da Embrapa Arroz e Feijão, e foi cedido com o intuito de que os resultados gerados no presente trabalho fossem posteriormente investigados e utilizados no melhoramento genético de arroz.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)porUniversidade Federal de São CarlosCâmpus São CarlosPrograma de Pós-Graduação em Ciência da Computação - PPGCCUFSCarAttribution-ShareAlike 3.0 Brazilhttp://creativecommons.org/licenses/by-sa/3.0/br/info:eu-repo/semantics/openAccessSNPSeleção de atributosAprendizado de máquinaArrozFeature selectionMachine learningCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOSeleção de SNPs em culturas de arroz utilizando aprendizado de máquinaSelection of SNPs in rice crops using machine learninginfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALDissertacao_Mestrado_Breno_2023.pdfDissertacao_Mestrado_Breno_2023.pdfDissertação de Mestradoapplication/pdf4799834https://repositorio.ufscar.br/bitstreams/76975da0-d93a-4aa0-97c3-800dd612ec00/download5c74c92b6e20ea5d4206ebc44685163aMD51trueAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81030https://repositorio.ufscar.br/bitstreams/1f970733-8e88-4840-ad3c-d46790802f0c/downloadc6e5ca9ee4112329286834c9257d9d4cMD52falseAnonymousREADTEXTDissertacao_Mestrado_Breno_2023.pdf.txtDissertacao_Mestrado_Breno_2023.pdf.txtExtracted texttext/plain259971https://repositorio.ufscar.br/bitstreams/5e4ccd27-cb7a-4021-9892-28b6eee193bd/download010b89b8de3b0f576576285fecf4369fMD53falseAnonymousREADTHUMBNAILDissertacao_Mestrado_Breno_2023.pdf.jpgDissertacao_Mestrado_Breno_2023.pdf.jpgIM Thumbnailimage/jpeg6679https://repositorio.ufscar.br/bitstreams/e3097a11-82d9-4771-9899-4e40263c52fe/downloadc2c62d3b60d0421428f35be0b9bb61cfMD54falseAnonymousREAD20.500.14289/196362025-02-06 01:51:58.252http://creativecommons.org/licenses/by-sa/3.0/br/Attribution-ShareAlike 3.0 Brazilopen.accessoai:repositorio.ufscar.br:20.500.14289/19636https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-02-06T04:51:58Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.por.fl_str_mv Seleção de SNPs em culturas de arroz utilizando aprendizado de máquina
dc.title.alternative.eng.fl_str_mv Selection of SNPs in rice crops using machine learning
title Seleção de SNPs em culturas de arroz utilizando aprendizado de máquina
spellingShingle Seleção de SNPs em culturas de arroz utilizando aprendizado de máquina
Funicheli, Breno Osvaldo
SNP
Seleção de atributos
Aprendizado de máquina
Arroz
Feature selection
Machine learning
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short Seleção de SNPs em culturas de arroz utilizando aprendizado de máquina
title_full Seleção de SNPs em culturas de arroz utilizando aprendizado de máquina
title_fullStr Seleção de SNPs em culturas de arroz utilizando aprendizado de máquina
title_full_unstemmed Seleção de SNPs em culturas de arroz utilizando aprendizado de máquina
title_sort Seleção de SNPs em culturas de arroz utilizando aprendizado de máquina
author Funicheli, Breno Osvaldo
author_facet Funicheli, Breno Osvaldo
author_role author
dc.contributor.authorlattes.por.fl_str_mv http://lattes.cnpq.br/1264469349936693
dc.contributor.advisor1orcid.por.fl_str_mv https://orcid.org/0000-0002-2582-1695
dc.contributor.author.fl_str_mv Funicheli, Breno Osvaldo
dc.contributor.advisor1.fl_str_mv Cerri, Ricardo
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/6266519868438512
contributor_str_mv Cerri, Ricardo
dc.subject.por.fl_str_mv SNP
Seleção de atributos
Aprendizado de máquina
Arroz
topic SNP
Seleção de atributos
Aprendizado de máquina
Arroz
Feature selection
Machine learning
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.subject.eng.fl_str_mv Feature selection
Machine learning
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description Rice (Oryza sativa) is one of the largest collections of genetic resources among plant species of economic interest. To increase the productivity of this cultivar, several genetic variability studies have been developed. In this context, single nucleotide polymorphisms (SNPs), which are single base variations in DNA sequences, have been widely studied, as they act as molecular markers linked to productivity and resistance in rice cultivation. However, due to the ineffectiveness of conventional methods in the task of selecting SNPs, methods based on Machine Learning (ML) have been used. For this purpose, the selection of SNPs is modeled as a Feature Selection (FS) problem. Although the use of FS is widespread in the literature, there are still gaps regarding its use in the context of rice genetic improvement. In conjunction with this, there is a need to investigate the SNPs selected by these methods in genetic improvement studies, to offer possible biological explanations linked to the results generated. To advance interesting points regarding this discussion, this work proposes some ensemble methods for selecting SNPs, to combine several FS algorithms to generate a robust result. These methods were implemented such as to create a pipeline for SNPs selection. The pipeline was applied to a dataset with multiple phenotypes linked to rice productivity. The proposed methods were compared to other methods present in the literature, demonstrating the best results in some cases. Furthermore, the use of functional enrichment as a strategy to explain the results was explored. The dataset used belongs to the Coleção Nuclear de Arroz of Embrapa Arroz e Feijão and was provided with the intention that the results generated in the present work would be subsequently investigated and used in the genetic improvement of rice
publishDate 2024
dc.date.accessioned.fl_str_mv 2024-04-05T19:17:27Z
dc.date.available.fl_str_mv 2024-04-05T19:17:27Z
dc.date.issued.fl_str_mv 2024-02-02
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv FUNICHELI, Breno Osvaldo. Seleção de SNPs em culturas de arroz utilizando aprendizado de máquina. 2024. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/19636.
dc.identifier.uri.fl_str_mv https://repositorio.ufscar.br/handle/20.500.14289/19636
identifier_str_mv FUNICHELI, Breno Osvaldo. Seleção de SNPs em culturas de arroz utilizando aprendizado de máquina. 2024. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/19636.
url https://repositorio.ufscar.br/handle/20.500.14289/19636
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-ShareAlike 3.0 Brazil
http://creativecommons.org/licenses/by-sa/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-ShareAlike 3.0 Brazil
http://creativecommons.org/licenses/by-sa/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Ciência da Computação - PPGCC
dc.publisher.initials.fl_str_mv UFSCar
publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstreams/76975da0-d93a-4aa0-97c3-800dd612ec00/download
https://repositorio.ufscar.br/bitstreams/1f970733-8e88-4840-ad3c-d46790802f0c/download
https://repositorio.ufscar.br/bitstreams/5e4ccd27-cb7a-4021-9892-28b6eee193bd/download
https://repositorio.ufscar.br/bitstreams/e3097a11-82d9-4771-9899-4e40263c52fe/download
bitstream.checksum.fl_str_mv 5c74c92b6e20ea5d4206ebc44685163a
c6e5ca9ee4112329286834c9257d9d4c
010b89b8de3b0f576576285fecf4369f
c2c62d3b60d0421428f35be0b9bb61cf
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv repositorio.sibi@ufscar.br
_version_ 1851688931391700992