Exportação concluída — 

Classificação de assinaturas manuscritas com quantificadores não paramétricos

Detalhes bibliográficos
Ano de defesa: 2020
Autor(a) principal: COSTA, Ranah Duarte
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso embargado
Idioma: por
Instituição de defesa: Universidade Federal de Pernambuco
UFPE
Brasil
Programa de Pos Graduacao em Estatistica
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpe.br/handle/123456789/37774
Resumo: Essa dissertação tem como objetivo utilizar quantificadores não paramétricos no processo de classificação binária de assinaturas manuscritas. Os dados representam as informações das assinaturas de 100 indivíduos da base de dados MCYT (MCYT Fingerprint subcorpus), sendo que para cada indivíduo apresenta-se réplicas com 25 assinaturas falsas e 25 assinaturas verdadeiras. Aqui, as assinaturas falsas e verdadeiras são rotuladas com zeros e uns no problema de classificação binária, respectivamente. Para o processamento da cada assinatura é extraída a série temporal correspondente a cada coordenada do plano xy. Adicionalmente, para cada uma das séries temporais obtidas, foram calculadas a primeira e a segunda derivada a fim de avaliar a dinâmica em termos de sua velocidade e a aceleração, respectivamente. Também, em cada uma das séries temporais foram extraídos quantificadores de informação não paramétricos a partir da distribuição de padrões (feature extraction), a saber: entropia, complexidade, informação de Fisher e tendência. De posse dos quantificadores extraídos, uma nova base de dados foi construída a fim de avaliar a capacidade dessas informações para separar as assinaturas falsas e verdadeiras. Dessa maneira, foram usados critérios de seleção de variáveis para a classificação, sendo esses: Ganho de informação, análise de variância (ANOVA) e fator de inflação da variância. No que tange aos classificadores, foram utilizados a Regressão Logística, Máquinas de Vetores de Suporte (SVM), Florestas aleatórias (Random Forest), XGBoost (Extreme Gradient Boosting) e regressão regularizada tipo LASSO e Ridge. Neste trabalho, as métricas de avaliação de performance dos classificadores foram a acurácia, sensibilidade, especificidade, área sob a curva ROC (AUC) e taxa de erro de classificação. Os resultados mostram que, entre os quantificadores utilizados, a complexidade, a Informação de Fisher e a estatística de Wallis e Moore foram os quantificadores não paramétricos que conseguem melhorar a performance dos classificadores. Adicionalmente, os classificadores SVM e Florestas aleatórias apresentaram melhor desempenho no grupo de teste quando comparados aos demais segundos as métricas usadas. Por outro lado, a etapa de classificação usando a regressão regularizada tipo LASSO e Ridge e a Regressão Logística não regularizada mostrou que, para esse conjunto de dados, a regressão não regularizada apresenta melhor desempenho.
id UFPE_c3af30f2b3815965be43d688bdbc0d40
oai_identifier_str oai:repositorio.ufpe.br:123456789/37774
network_acronym_str UFPE
network_name_str Repositório Institucional da UFPE
repository_id_str
spelling Classificação de assinaturas manuscritas com quantificadores não paramétricosEstatística aplicadaClassificação bináriaEssa dissertação tem como objetivo utilizar quantificadores não paramétricos no processo de classificação binária de assinaturas manuscritas. Os dados representam as informações das assinaturas de 100 indivíduos da base de dados MCYT (MCYT Fingerprint subcorpus), sendo que para cada indivíduo apresenta-se réplicas com 25 assinaturas falsas e 25 assinaturas verdadeiras. Aqui, as assinaturas falsas e verdadeiras são rotuladas com zeros e uns no problema de classificação binária, respectivamente. Para o processamento da cada assinatura é extraída a série temporal correspondente a cada coordenada do plano xy. Adicionalmente, para cada uma das séries temporais obtidas, foram calculadas a primeira e a segunda derivada a fim de avaliar a dinâmica em termos de sua velocidade e a aceleração, respectivamente. Também, em cada uma das séries temporais foram extraídos quantificadores de informação não paramétricos a partir da distribuição de padrões (feature extraction), a saber: entropia, complexidade, informação de Fisher e tendência. De posse dos quantificadores extraídos, uma nova base de dados foi construída a fim de avaliar a capacidade dessas informações para separar as assinaturas falsas e verdadeiras. Dessa maneira, foram usados critérios de seleção de variáveis para a classificação, sendo esses: Ganho de informação, análise de variância (ANOVA) e fator de inflação da variância. No que tange aos classificadores, foram utilizados a Regressão Logística, Máquinas de Vetores de Suporte (SVM), Florestas aleatórias (Random Forest), XGBoost (Extreme Gradient Boosting) e regressão regularizada tipo LASSO e Ridge. Neste trabalho, as métricas de avaliação de performance dos classificadores foram a acurácia, sensibilidade, especificidade, área sob a curva ROC (AUC) e taxa de erro de classificação. Os resultados mostram que, entre os quantificadores utilizados, a complexidade, a Informação de Fisher e a estatística de Wallis e Moore foram os quantificadores não paramétricos que conseguem melhorar a performance dos classificadores. Adicionalmente, os classificadores SVM e Florestas aleatórias apresentaram melhor desempenho no grupo de teste quando comparados aos demais segundos as métricas usadas. Por outro lado, a etapa de classificação usando a regressão regularizada tipo LASSO e Ridge e a Regressão Logística não regularizada mostrou que, para esse conjunto de dados, a regressão não regularizada apresenta melhor desempenho.CNPqThis work explores the use of nonparametric quantifiers in the binary classification process of handwritten signatures. We use the MCYT (MCYT Fingerprint subcorpus) database with 100 subjects, where each one contains 25 genuine and 25 skilled forged signatures. Here, false and true signatures are labeled with zeros and ones for the binary classification problem, respectively. We work with the discrete-time sequences position xt in the x-axis and position yt in the y-axis provided in the database. We pre-process each time series and employ time causal information based on nonparametrics quantifiers such as an entropy, complexity, Fisher information, and trend. Also, we evaluate these quantifiers with the time series obtained by applying the first and second order derivatives of each sequence position to evaluate the dynamic behaviour looking their velocity and acceleration, respectively. To assess the ability of nonparametrics quantifiers information to separate false and true signatures, we used criteria selection variables, such as: Information gain, analysis of variance (ANOVA), and variance inflation factor. In the next, we classify the signatures in the MCYT-100 database with nonparametrics quantifiers via Logistic Regression, Support Vector Machines (SVM), Random Forest (Random Forest), regularized regression type Lasso, and Extreme Gradient Boosting (XGBoost). We evaluate the performance of the classifiers by analyzing the accuracy, sensitivity, specificity, area under the ROC curve (AUC), and the Error Rate (ER). The results show that, among the quantifiers used, the Complexity, Fisher Information, and the Wallis and Moore information are the nonparametric quantifiers that improve the performance of the classifiers. Additionally, the SVM and Random Forest classifiers perform better in the test group compared to the others, according to the metrics used. In the classification step, we use LASSO and Ridge regularized regression and the non-regularized Logistic Regression, and the results show that, for this data set, the non-regularized regression presents better performance.Universidade Federal de PernambucoUFPEBrasilPrograma de Pos Graduacao em EstatisticaMARTÍNEZ, Raydonal Ospinahttp://lattes.cnpq.br/4835002979010369http://lattes.cnpq.br/6357960802605841COSTA, Ranah Duarte2020-08-31T17:29:13Z2020-08-31T17:29:13Z2020-02-20info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfCOSTA, Ranah Duarte. Classificação de assinaturas manuscritas com quantificadores não paramétricos. 2020. Dissertação (Mestrado em Estatística) - Universidade Federal de Pernambuco, Recife, 2020.https://repositorio.ufpe.br/handle/123456789/37774porAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/embargoedAccessreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPE2020-09-01T05:10:11Zoai:repositorio.ufpe.br:123456789/37774Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212020-09-01T05:10:11Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false
dc.title.none.fl_str_mv Classificação de assinaturas manuscritas com quantificadores não paramétricos
title Classificação de assinaturas manuscritas com quantificadores não paramétricos
spellingShingle Classificação de assinaturas manuscritas com quantificadores não paramétricos
COSTA, Ranah Duarte
Estatística aplicada
Classificação binária
title_short Classificação de assinaturas manuscritas com quantificadores não paramétricos
title_full Classificação de assinaturas manuscritas com quantificadores não paramétricos
title_fullStr Classificação de assinaturas manuscritas com quantificadores não paramétricos
title_full_unstemmed Classificação de assinaturas manuscritas com quantificadores não paramétricos
title_sort Classificação de assinaturas manuscritas com quantificadores não paramétricos
author COSTA, Ranah Duarte
author_facet COSTA, Ranah Duarte
author_role author
dc.contributor.none.fl_str_mv MARTÍNEZ, Raydonal Ospina
http://lattes.cnpq.br/4835002979010369
http://lattes.cnpq.br/6357960802605841
dc.contributor.author.fl_str_mv COSTA, Ranah Duarte
dc.subject.por.fl_str_mv Estatística aplicada
Classificação binária
topic Estatística aplicada
Classificação binária
description Essa dissertação tem como objetivo utilizar quantificadores não paramétricos no processo de classificação binária de assinaturas manuscritas. Os dados representam as informações das assinaturas de 100 indivíduos da base de dados MCYT (MCYT Fingerprint subcorpus), sendo que para cada indivíduo apresenta-se réplicas com 25 assinaturas falsas e 25 assinaturas verdadeiras. Aqui, as assinaturas falsas e verdadeiras são rotuladas com zeros e uns no problema de classificação binária, respectivamente. Para o processamento da cada assinatura é extraída a série temporal correspondente a cada coordenada do plano xy. Adicionalmente, para cada uma das séries temporais obtidas, foram calculadas a primeira e a segunda derivada a fim de avaliar a dinâmica em termos de sua velocidade e a aceleração, respectivamente. Também, em cada uma das séries temporais foram extraídos quantificadores de informação não paramétricos a partir da distribuição de padrões (feature extraction), a saber: entropia, complexidade, informação de Fisher e tendência. De posse dos quantificadores extraídos, uma nova base de dados foi construída a fim de avaliar a capacidade dessas informações para separar as assinaturas falsas e verdadeiras. Dessa maneira, foram usados critérios de seleção de variáveis para a classificação, sendo esses: Ganho de informação, análise de variância (ANOVA) e fator de inflação da variância. No que tange aos classificadores, foram utilizados a Regressão Logística, Máquinas de Vetores de Suporte (SVM), Florestas aleatórias (Random Forest), XGBoost (Extreme Gradient Boosting) e regressão regularizada tipo LASSO e Ridge. Neste trabalho, as métricas de avaliação de performance dos classificadores foram a acurácia, sensibilidade, especificidade, área sob a curva ROC (AUC) e taxa de erro de classificação. Os resultados mostram que, entre os quantificadores utilizados, a complexidade, a Informação de Fisher e a estatística de Wallis e Moore foram os quantificadores não paramétricos que conseguem melhorar a performance dos classificadores. Adicionalmente, os classificadores SVM e Florestas aleatórias apresentaram melhor desempenho no grupo de teste quando comparados aos demais segundos as métricas usadas. Por outro lado, a etapa de classificação usando a regressão regularizada tipo LASSO e Ridge e a Regressão Logística não regularizada mostrou que, para esse conjunto de dados, a regressão não regularizada apresenta melhor desempenho.
publishDate 2020
dc.date.none.fl_str_mv 2020-08-31T17:29:13Z
2020-08-31T17:29:13Z
2020-02-20
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv COSTA, Ranah Duarte. Classificação de assinaturas manuscritas com quantificadores não paramétricos. 2020. Dissertação (Mestrado em Estatística) - Universidade Federal de Pernambuco, Recife, 2020.
https://repositorio.ufpe.br/handle/123456789/37774
identifier_str_mv COSTA, Ranah Duarte. Classificação de assinaturas manuscritas com quantificadores não paramétricos. 2020. Dissertação (Mestrado em Estatística) - Universidade Federal de Pernambuco, Recife, 2020.
url https://repositorio.ufpe.br/handle/123456789/37774
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/embargoedAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv embargoedAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de Pernambuco
UFPE
Brasil
Programa de Pos Graduacao em Estatistica
publisher.none.fl_str_mv Universidade Federal de Pernambuco
UFPE
Brasil
Programa de Pos Graduacao em Estatistica
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPE
instname:Universidade Federal de Pernambuco (UFPE)
instacron:UFPE
instname_str Universidade Federal de Pernambuco (UFPE)
instacron_str UFPE
institution UFPE
reponame_str Repositório Institucional da UFPE
collection Repositório Institucional da UFPE
repository.name.fl_str_mv Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)
repository.mail.fl_str_mv attena@ufpe.br
_version_ 1856041955192995840