Desenvolvimento de técnicas de classificação supervisionada para dados químicos multivariados

Esta dissertação consiste de um aporte teórico sobre a construção de técnicas de classificação supervisionada para aplicações em dados químicos multivariados. Para isso, técnicas quimiométricas baseadas em análise discriminante quadrática (QDA) e máquinas de vetores suporte (SVM) foram construídas e...

Nível de Acesso:openAccess
Publication Date:2017
Main Author: Morais, Camilo de Lelis Medeiros de
Orientador/a: Lima, Kassio Michell Gomes de
Format: Dissertação
Language:por
Programa: PROGRAMA DE PÓS-GRADUAÇÃO EM QUÍMICA
Assuntos em Português:
Áreas de Conhecimento:
Online Access:https://repositorio.ufrn.br/jspui/handle/123456789/24217
Citação:MORAIS, Camilo de Lelis Medeiros de. Desenvolvimento de técnicas de classificação supervisionada para dados químicos multivariados. 2017. 95f. Dissertação (Mestrado em Química) - Centro de Ciências Exatas e da Terra, Universidade Federal do Rio Grande do Norte, Natal, 2017.
Resumo Português:Esta dissertação consiste de um aporte teórico sobre a construção de técnicas de classificação supervisionada para aplicações em dados químicos multivariados. Para isso, técnicas quimiométricas baseadas em análise discriminante quadrática (QDA) e máquinas de vetores suporte (SVM) foram construídas em conjunto com análise de componentes principais (PCA), algoritmo de projeções sucessivas (SPA) e algoritmo genético (GA) para classificação supervisionada utilizando redução de dados e seleção de variáveis. Essas técnicas foram empregadas na análise de dados de primeira ordem, constituídos de espectros na região do infravermelho médio com transformada de Fourier e reflectância total atenuada (ATR-FTIR); espectros de massas obtidos por cromatografia líquida com um detector por tempo de vôo (LC/TOF); e espectros de massas obtidos por desorção/ionização por laser de superfície acoplado a um detector por tempo de vôo (SELDI-TOF). Os dados de ATR-FTIR foram utilizados para diferenciar duas classes de fungos do gênero Cryptococcus, enquanto que os dados de espectrometria de massas foram utilizados para identificar câncer de ovário e de próstata em soro sanguíneo. Além disso, novas técnicas de análise discriminante bidimensionais utilizando análise de componentes principais com análise discriminante linear (2D-PCA-LDA), análise discriminante quadrática (2D-PCA-QDA) e máquinas de vetores suporte (2D-PCA-SVM) foram desenvolvidas para aplicações em dados químicos de segunda ordem compostos por matrizes de excitação-emissão (EEM) por fluorescência molecular em amostras simuladas e reais. Os resultados obtidos mostraram que as técnicas desenvolvidas tiveram alto desempenho classificatório tanto para os dados de primeira quanto de segunda ordem, com taxas de acerto, sensibilidade e especificidade atingindo valores entre 90 a 100%. Além disso, as técnicas bidimensionais desenvolvidas tiveram, no geral, desempenho superior do que os métodos tradicionais de classificação multivariada utilizando dados desdobrados, o que mostra seu potencial para outras futuras aplicações analíticas.
This dissertation is composed by a theoretical contribution about the development of supervised classification techniques for application using multivariate chemical data. For this, chemometric techniques based on quadratic discriminant analysis (QDA) and support vector machines (SVM) were built combined with principal component analysis (PCA), successive projections algorithm (SPA) and genetic algorithm (GA) for supervised classification using data reduction and feature selection. These techniques were employed in analyzing first-order data, composed by attenuated total reflectance Fourier transform infrared spectroscopy (ATRFTIR) and mass spectra obtained from liquid chromatography time of flight (LC/TOF) and surface-enhanced laser desorption/ionization time of flight (SELDI/TOF). ATR-FTIR data were used to differentiate two classes of fungus of Cryptococcus gene, whereas the mass spectra data was used to identify ovarian and prostate cancer in blood serum. In addition, new twodimensional discriminant analysis techniques based on principal component analysis linear discriminant analysis (2D-PCA-LDA), quadratic discriminant analysis (2D-PCA-QDA) and support vectors machine (2D-PCA-SVM) were developed for applications in second-order chemical data composed by excitation-emission matrices (EEM) molecular fluorescence of simulated and real samples. The results show that the developed techniques had better classification performance for both first and second-order data, with classification rates, sensitivity and specificity reaching values between 90 to 100%. Also, the developed twodimensional techniques had overall performance superior than traditional multivariate classification methods using unfolded data, showing its potential to other future analytical applications.