Autogating em dados de citometria de fluxo utilizando classificadores SVM para identificação de bacterioplâncton

Neste trabalho é apresentada a proposta de desenvolvimento de uma metodologia - juntamente com a apresentação dos resultados de sua aplicação - que utiliza uma técnica de aprendizagem de máquina, SVM, para análise automatizada de dados de citometria de fluxo em amostras de ambientes aquáticos, na id...

Nível de Acesso:openAccess
Publication Date:2018
Main Author: Cordeiro, Elionai Moura
Orientador/a: Doria Neto, Adrião Duarte
Format: Dissertação
Language:por
Programa: PROGRAMA DE PÓS-GRADUAÇÃO EM BIOINFORMÁTICA
Assuntos em Português:
Áreas de Conhecimento:
Online Access:https://repositorio.ufrn.br/jspui/handle/123456789/25565
Citação:CORDEIRO, Elionai Moura. Autogating em dados de citometria de fluxo utilizando classificadores SVM para identificação de bacterioplâncton. 2018. 94f. Dissertação (Mestrado em Bioinformática) - Instituto Metrópole Digital, Universidade Federal do Rio Grande do Norte, Natal, 2018.
Resumo Português:Neste trabalho é apresentada a proposta de desenvolvimento de uma metodologia - juntamente com a apresentação dos resultados de sua aplicação - que utiliza uma técnica de aprendizagem de máquina, SVM, para análise automatizada de dados de citometria de fluxo em amostras de ambientes aquáticos, na identificação de bacterioplâncton. As amostras utilizadas na execução desta metodologia foram coletadas em 19 lagos de montanhas de elevada altitude que foram classificados manualmente no Laboratório de Limnologia do Departamento de Oceanografia e Limnologia da UFRN. Previamente, iniciou-se com alguns testes de configuração da função kernel e uma análise quantitativa com base no número médio de acertos na classificação automatizada, na qual percebeu-se que a taxa de erro de predição variou entre 1,86% e 3,35%, em média. Foram realizadas duas etapas de desenvolvimento da metodologia proposta, onde foram criados modelos de predição e realizados uma série de testes com as bases de dados criadas a partir das informações disponíveis. Os resultados obtidos foram expostos a uma série de análises quantitativas e qualitativas, inclusive utilizando PCA para entender a importância de cada variável nos conjuntos de dados das mostras. Para uma avaliação qualitativa da metodologia proposta, foi aplicada uma análise estatística para comparar ambas estratégias de modelos de predição, que tem por base a classificação final apontada pelo algoritmo de Support Vector Machine.
This master tesis shows the proposal to develop a methodology - together with the presentation of the results of its application - that uses a machine learning technique, SVM, for automated analysis of flow cytometry data in samples of aquatic environments, identification of bacterioplankton. The samples used in the execution of this methodology were collected in 19 high altitude mountain lakes that were manually classified in the Laboratory of Limnology of the Department of Oceanography and Limnology of UFRN. Previously, it started with some tests of kernel configuration and a quantitative analysis based on the average number of hits in the automated classification, in which it was noticed that the prediction error rate varied between 1.86 % and 3, 35 % on average. Two stages of development of the proposed methodology were carried out, where prediction models were created and a series of tests were carried out with the databases created from the available information. The results were exposed to a series of quantitative and qualitative analyzes, including using PCA to understand the importance of each variable in the sample data sets. For a qualitative evaluation of the proposed methodology, a statistical analysis was applied to compare both strategies of prediction models, which is based on the final classification indicated by the algorithm of Support Vector Machine.