Análise comparativa de modelos machine learning para a predição de cor de olhos, cabelo e pele em uma amostra da população brasileira

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Oliveira, Bruna Damasco de
Orientador(a): Silva, Guilherme de Toledo e
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Link de acesso: https://repositorio.ufsc.br/handle/123456789/247448
Resumo: Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro de Ciências Biológicas, Programa de Pós-Graduação em Biologia Celular e do Desenvolvimento, Florianópolis, 2022.
id UFSC_a2603e69127dbfe87000bb8f1bd568ec
oai_identifier_str oai:repositorio.ufsc.br:123456789/247448
network_acronym_str UFSC
network_name_str Repositório Institucional da UFSC
repository_id_str
spelling Universidade Federal de Santa CatarinaOliveira, Bruna Damasco deSilva, Guilherme de Toledo eDuarte, Elisa Cristiana Winkelmann2023-06-28T18:25:26Z2023-06-28T18:25:26Z2022381465https://repositorio.ufsc.br/handle/123456789/247448Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro de Ciências Biológicas, Programa de Pós-Graduação em Biologia Celular e do Desenvolvimento, Florianópolis, 2022.A predição fenotípica apresenta-se como uma alternativa para investigações forenses onde a tradicional obtenção de perfis de marcadores do tipo microssatélite não é possível. Tal técnica consiste na análise polimorfismos de nucleotídeo único a fim de predizer as características externamente visíveis (EVC) de um indivíduo, os quais podem ser divididos em traços relacionados ou não à pigmentação de estruturas. Ao longo das duas últimas décadas foram propostos sistemas de predição que correlacionam um conjunto específico de marcadores moleculares com a cor de olhos, cabelos e pele; como por exemplo o HIrisPlex-S (baseado em uma equação de regressão logística multinomial) e o Snipper (construído por meio de classificadores Bayesianos). Essas metodologias, contudo, foram formuladas em estudos com populações europeias e geraram resultados conflitantes quando testadas em países com histórico de ampla miscigenação, tal como o Brasil. Levando esse fato em consideração, e utilizando a abordagem de Machine Learning (ML) para a resolução de problemas de classificação e clustering por meio de modelos matemáticos, o objetivo deste trabalho foi calibrar e aplicar modelos para a predição de cor de olhos, cabelo e pele especificamente em um recorte da população brasileira (composta por 611 indivíduos e 49 marcadores) cedido pelo Laboratório de Imuno-Hematologia e Hematologia Forense da Universidade de São Paulo. O pré-processamento dos dados foi a etapa inicial das análises. Os genótipos foram convertidos em valores numéricos de acordo com os alelos da variante de cada marcador. Indivíduos que continham ao menos uma observação de genótipo NA foram eliminados, assim como SNPs com menos de 1% de variação dentro da amostra. Em seguida, a relação dos marcadores com os fenótipos foi aferida estatisticamente, de forma a prover três grupos de marcadores. Finalmente, os classificadores foram calibrados e aplicados em cada um dos três grupos de acordo com cinco tipos de modelos matemáticos. Seis variantes foram identificadas como não-polimórficas na amostra. Dois marcadores apresentaram resultados inexpressivos nos filtros estatísticos aplicados. Todas as variantes que passaram pelas etapas de triagem estão associadas a pelo menos um dos EVCs analisados. O efeito de variantes do gene HERC2 na cor de olhos, amplamente discutido na literatura, foi corroborado neste estudo. Observou-se também que a definição do tom de pele de um indivíduo parece estar mais diluída entre os vários marcadores estudados. Marcadores dos genes SLC24A5 e SLC45A2 apresentaram bons resultados para a associação com todos os fenótipos. Houve pouca variação na acurácia e sensibilidade dos modelos, independente do conjunto de marcadores e do algoritmo aplicado. Em suma, pode-se afirmar que a metodologia empregada está bem adaptada à amostra utilizada. Salienta-se também a necessidade de que mais estudos sejam realizados na área, principalmente em regiões de alta miscigenação, a fim de estabelecer um sistema de predição que contemple as particularidades genéticas de diferentes populações.Abstract: Phenotype prediction has emerged as an alternative in forensic investigations where the traditional microsatellite profiling is not possible. This technique consists in the analysis of single nucleotide polymorphisms (SNP) in order to predict an individual?s externally visible characteristics (EVC), which can be divided into pigmentation traits and non-pigmentation traits. Over the course of the past two decades prediction systems correlating an specific set of molecular markers and eye, hair and skin color have been proposed; such as the HIrisPlex-S model (based on multinomial logistic regression) and Snipper (built on Bayesian classifiers). These methodologies, however, were established in studies with European populations and have yielded conflicting results when tested in countries with a history of high admixture, like Brazil. Considering that, and with the aid of Machine Learning approaches aimed for the resolution of classification and clustering problems, the goal of this study was to calibrate and apply models for the prediction of eye, hair and skin color in a sample of the brazilian population (composed of 611 individuals and 49 markers) provided by the Laboratório de Imuno-Hematologia e Hematologia Forense of the University of São Paulo. Data preprocessing was the first step of the analysis. Genotypes were converted into numeric values considering the variant allele of each marker. Individuals that had at least one missing observation were eliminated, as well as SNPs with less than 1% of variation in the sample. Next, the association between markers and phenotypes was statistically determined with the intention of separating three groups of makers. Lastly, the classifiers were calibrated and applied in each of the three groups under different mathematical models. Six SNPs were identified as non-polymorphic in the sample. Two markers have yielded poor results in the statistical filters applied. All of the variants that have passed the triage stage are associated with at least one of the EVCs analyzed. The effect of SNPs of the HERC2 gene in eye color, amply discussed in the literature, have been corroborated in this study. It was also observed that the definition of skin tone seems to be diluted in the many studied variants. Markers from the genes SLC24A5 and SLC45A2 have been associated with all the phenotypes. There was little variation in accuracy and sensibility of the models, regardless of the marker subset or the algorithm applied. In conclusion, the employed methodology is well adapted to the analyzed sample. It is also worth mentioning the necessity of further studies in the area, especially in regions of high admixture, with the intent of establishing a prediction system that contemplates the genetic particularities of different populations.86 p.| il., gráfs.porBiologia celularGenética forenseFenótipoAprendizado do computadorAnálise comparativa de modelos machine learning para a predição de cor de olhos, cabelo e pele em uma amostra da população brasileirainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSCinfo:eu-repo/semantics/openAccessORIGINALPBCD0146-D.pdfPBCD0146-D.pdfapplication/pdf2647745https://repositorio.ufsc.br/bitstream/123456789/247448/1/PBCD0146-D.pdfa36f41c5e2ac58e984011c9ecbc8f311MD51123456789/2474482023-06-28 15:25:26.545oai:repositorio.ufsc.br:123456789/247448Repositório InstitucionalPUBhttp://150.162.242.35/oai/requestsandra.sobrera@ufsc.bropendoar:23732023-06-28T18:25:26Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false
dc.title.none.fl_str_mv Análise comparativa de modelos machine learning para a predição de cor de olhos, cabelo e pele em uma amostra da população brasileira
title Análise comparativa de modelos machine learning para a predição de cor de olhos, cabelo e pele em uma amostra da população brasileira
spellingShingle Análise comparativa de modelos machine learning para a predição de cor de olhos, cabelo e pele em uma amostra da população brasileira
Oliveira, Bruna Damasco de
Biologia celular
Genética forense
Fenótipo
Aprendizado do computador
title_short Análise comparativa de modelos machine learning para a predição de cor de olhos, cabelo e pele em uma amostra da população brasileira
title_full Análise comparativa de modelos machine learning para a predição de cor de olhos, cabelo e pele em uma amostra da população brasileira
title_fullStr Análise comparativa de modelos machine learning para a predição de cor de olhos, cabelo e pele em uma amostra da população brasileira
title_full_unstemmed Análise comparativa de modelos machine learning para a predição de cor de olhos, cabelo e pele em uma amostra da população brasileira
title_sort Análise comparativa de modelos machine learning para a predição de cor de olhos, cabelo e pele em uma amostra da população brasileira
author Oliveira, Bruna Damasco de
author_facet Oliveira, Bruna Damasco de
author_role author
dc.contributor.none.fl_str_mv Universidade Federal de Santa Catarina
dc.contributor.author.fl_str_mv Oliveira, Bruna Damasco de
dc.contributor.advisor1.fl_str_mv Silva, Guilherme de Toledo e
dc.contributor.advisor-co1.fl_str_mv Duarte, Elisa Cristiana Winkelmann
contributor_str_mv Silva, Guilherme de Toledo e
Duarte, Elisa Cristiana Winkelmann
dc.subject.classification.none.fl_str_mv Biologia celular
Genética forense
Fenótipo
Aprendizado do computador
topic Biologia celular
Genética forense
Fenótipo
Aprendizado do computador
description Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro de Ciências Biológicas, Programa de Pós-Graduação em Biologia Celular e do Desenvolvimento, Florianópolis, 2022.
publishDate 2022
dc.date.issued.fl_str_mv 2022
dc.date.accessioned.fl_str_mv 2023-06-28T18:25:26Z
dc.date.available.fl_str_mv 2023-06-28T18:25:26Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufsc.br/handle/123456789/247448
dc.identifier.other.none.fl_str_mv 381465
identifier_str_mv 381465
url https://repositorio.ufsc.br/handle/123456789/247448
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 86 p.| il., gráfs.
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSC
instname:Universidade Federal de Santa Catarina (UFSC)
instacron:UFSC
instname_str Universidade Federal de Santa Catarina (UFSC)
instacron_str UFSC
institution UFSC
reponame_str Repositório Institucional da UFSC
collection Repositório Institucional da UFSC
bitstream.url.fl_str_mv https://repositorio.ufsc.br/bitstream/123456789/247448/1/PBCD0146-D.pdf
bitstream.checksum.fl_str_mv a36f41c5e2ac58e984011c9ecbc8f311
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)
repository.mail.fl_str_mv sandra.sobrera@ufsc.br
_version_ 1851759136434290688