Aprendizado de métricas utilizando uma função de distância parametrizada e o algoritmo K-means com aplicação na solução de problemas de classificação

Detalhes bibliográficos
Ano de defesa: 2017
Autor(a) principal: Fagundes, Felipe Leite lattes
Orientador(a): Fonseca Neto, Raul lattes
Banca de defesa: Villela, Saulo Moraes lattes, Braga, Antônio de Pádua lattes
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Juiz de Fora (UFJF)
Programa de Pós-Graduação: Programa de Pós-graduação em Ciência da Computação
Departamento: ICE – Instituto de Ciências Exatas
País: Brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: https://repositorio.ufjf.br/jspui/handle/ufjf/6013
Resumo: A utilização de diferentes métricas em algoritmos de aprendizado de máquinas pode mudar completamente os resultados de análises realizadas em bases de dados. Variar as maneiras de medir distâncias ou similaridades dos dados pode gerar reflexos para a captura de informações dessas bases e, com isso, influenciar diretamente a tomada de decisões. Neste sentido, métodos de aprendizagem de métricas têm sido abordados e aplicados em diversos ramos das pesquisas que manipulam bases de dados, com a finalidade de encontrar métricas mais adequadas para soluções de problemas de análise de cluster, classificação, mineração de dados, dentre outros relacionados ao reconhecimento de padrões de dados. O método de aprendizado de métricas utilizado como base deste trabalho foi originalmente formulado como um problema de otimização, com o objetivo de minimizar um conjunto parametrizado de distâncias de Mahalanobis. No método original é necessário estabelecer uma lista com pares de vetores similares ou dissimilares, que possibilitam a correção dos parâmetros para medição das distâncias. Já neste trabalho é proposto um novo método, que não necessita da comparação par a par entre vetores, mas apenas da comparação de distâncias de cada vetor do conjunto de treinamento com dois centroides: o definido pelo algoritmo Seeded k-means e o definido por um especialista como sendo um centroide esperado. A distância entre o vetor e os dois centroides é usada como fator global de correção dos parâmetros para medição das distâncias. Os novos parâmetros para medição de distâncias alteram a forma como os vetores são agrupados, melhorando sensivelmente os resultados em relação à métrica Euclideana. A maior contribuição deste estudo foi a formulação de um método para aprendizado desses parâmetros que reduzisse a complexidade em tempo em relação a outros métodos de aprendizado propostos na literatura, denominado MAP – Método de Aprendizado de Parâmetros. O MAP demonstrou melhoras significativas para problemas de classificação em diversas bases de dados do UCI Machine Learning Repository com métricas aprendidas em conjuntos de treinamento.
id UFJF_5f11c8a95977df31f4e96202d1776307
oai_identifier_str oai:hermes.cpd.ufjf.br:ufjf/6013
network_acronym_str UFJF
network_name_str Repositório Institucional da UFJF
repository_id_str
spelling Fonseca Neto, Raulhttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4786482Y2Borges, Carlos Cristiano Hasencleverhttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4728257U5Villela, Saulo Moraeshttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4733598Y6Braga, Antônio de Páduahttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4780507Y6http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4811004J3Fagundes, Felipe Leite2017-12-22T12:00:32Z2017-12-202017-12-22T12:00:32Z2017-08-31https://repositorio.ufjf.br/jspui/handle/ufjf/6013A utilização de diferentes métricas em algoritmos de aprendizado de máquinas pode mudar completamente os resultados de análises realizadas em bases de dados. Variar as maneiras de medir distâncias ou similaridades dos dados pode gerar reflexos para a captura de informações dessas bases e, com isso, influenciar diretamente a tomada de decisões. Neste sentido, métodos de aprendizagem de métricas têm sido abordados e aplicados em diversos ramos das pesquisas que manipulam bases de dados, com a finalidade de encontrar métricas mais adequadas para soluções de problemas de análise de cluster, classificação, mineração de dados, dentre outros relacionados ao reconhecimento de padrões de dados. O método de aprendizado de métricas utilizado como base deste trabalho foi originalmente formulado como um problema de otimização, com o objetivo de minimizar um conjunto parametrizado de distâncias de Mahalanobis. No método original é necessário estabelecer uma lista com pares de vetores similares ou dissimilares, que possibilitam a correção dos parâmetros para medição das distâncias. Já neste trabalho é proposto um novo método, que não necessita da comparação par a par entre vetores, mas apenas da comparação de distâncias de cada vetor do conjunto de treinamento com dois centroides: o definido pelo algoritmo Seeded k-means e o definido por um especialista como sendo um centroide esperado. A distância entre o vetor e os dois centroides é usada como fator global de correção dos parâmetros para medição das distâncias. Os novos parâmetros para medição de distâncias alteram a forma como os vetores são agrupados, melhorando sensivelmente os resultados em relação à métrica Euclideana. A maior contribuição deste estudo foi a formulação de um método para aprendizado desses parâmetros que reduzisse a complexidade em tempo em relação a outros métodos de aprendizado propostos na literatura, denominado MAP – Método de Aprendizado de Parâmetros. O MAP demonstrou melhoras significativas para problemas de classificação em diversas bases de dados do UCI Machine Learning Repository com métricas aprendidas em conjuntos de treinamento.The use of different metrics in machine learning algorithms is able to change the results of analyzes carried out in databases. By varying how to measure distances or data similarities we can generate reflexes for information capture, which can influence the decision-making. In this sense, metric learning methods have been approached and applied in several branches of the research in the world, in order to find better metrics for problems of cluster analysis, classification, data mining, among others related data pattern recognition. The metric learning method used as the basis of this work was ori-ginally formulated as an optimization problem, in order to minimize a parameter set of Mahalanobis distances. In the original method, it is necessary to define a list of similar or dissimilar vectors pairs, which allow the correction of the distance measurement pa-rameters. In this work, a new method is proposed, which does not require the pairwise comparison, but only the distance comparison from each vector of a training set to two points: one defined by the Seeded k-means and other defined by an expert as being an expected centroid. The distance between the vector and the two centroids is used as correction factor of the parameters for measuring distances. The new learned parame-ters for distances measurement can change the clusters improving the results compared to the Euclidean metric. The major contribution of this study was the formulation of a method to learn these parameters that reduces the complexity in time if compared to other methods proposed in the literature. The proposal of PLM – Parameter Learning Method – have been demonstrated significant improvements in classification problems for several UCI Machine Learning Repository databases.porUniversidade Federal de Juiz de Fora (UFJF)Programa de Pós-graduação em Ciência da ComputaçãoUFJFBrasilICE – Instituto de Ciências ExatasCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOAprendizado de MáquinasClassificaçãoAnálise de dadosMachine LearningClassificationData AnalysisAprendizado de métricas utilizando uma função de distância parametrizada e o algoritmo K-means com aplicação na solução de problemas de classificaçãoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFJFinstname:Universidade Federal de Juiz de Fora (UFJF)instacron:UFJFTHUMBNAILfelipeleitefagundes.pdf.jpgfelipeleitefagundes.pdf.jpgGenerated Thumbnailimage/jpeg1265https://repositorio.ufjf.br/jspui/bitstream/ufjf/6013/4/felipeleitefagundes.pdf.jpg4b84af6189c55303252e50966577e74bMD54ORIGINALfelipeleitefagundes.pdffelipeleitefagundes.pdfapplication/pdf505347https://repositorio.ufjf.br/jspui/bitstream/ufjf/6013/1/felipeleitefagundes.pdf828890d64eac8d09b9c56eb30e6505dfMD51LICENSElicense.txtlicense.txttext/plain; charset=utf-82197https://repositorio.ufjf.br/jspui/bitstream/ufjf/6013/2/license.txt000e18a5aee6ca21bb5811ddf55fc37bMD52TEXTfelipeleitefagundes.pdf.txtfelipeleitefagundes.pdf.txtExtracted texttext/plain62460https://repositorio.ufjf.br/jspui/bitstream/ufjf/6013/3/felipeleitefagundes.pdf.txt3ff53e099b750c276ef122a6c669ec44MD53ufjf/60132019-06-16 05:15:49.725oai:hermes.cpd.ufjf.br:ufjf/6013TElDRU7vv71BIERFIERJU1RSSUJVSe+/ve+/vU8gTu+/vU8tRVhDTFVTSVZBCgpDb20gYSBhcHJlc2VudGHvv73vv71vIGRlc3RhIGxpY2Vu77+9YSwgdm9j77+9IChvIGF1dG9yIChlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvcikgY29uY2VkZSBhbyBSZXBvc2l077+9cmlvIApJbnN0aXR1Y2lvbmFsIGRhIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIEp1aXogZGUgRm9yYSBvIGRpcmVpdG8gbu+/vW8tZXhjbHVzaXZvIGRlIHJlcHJvZHV6aXIsIHRyYWR1emlyIChjb25mb3JtZSBkZWZpbmlkbyBhYmFpeG8pLCBlL291IGRpc3RyaWJ1aXIgYSBzdWEgcHVibGljYe+/ve+/vW8gKGluY2x1aW5kbyBvIHJlc3VtbykgcG9yIHRvZG8gbyBtdW5kbyBubyBmb3JtYXRvIGltcHJlc3NvIGUgZWxldHLvv71uaWNvIGUgZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIGZvcm1hdG9zIO+/vXVkaW8gb3Ugdu+/vWRlby4KClZvY++/vSBjb25jb3JkYSBxdWUgbyBSZXBvc2l077+9cmlvIEluc3RpdHVjaW9uYWwgZGEgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZGUgSnVpeiBkZSBGb3JhIHBvZGUsIHNlbSBhbHRlcmFyIG8gY29udGXvv71kbywgdHJhbnNwb3IgYSBzdWEgcHVibGljYe+/ve+/vW8gcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZh77+977+9by4gVm9j77+9IHRhbWLvv71tIGNvbmNvcmRhIHF1ZSBvIFJlcG9zaXTvv71yaW8gSW5zdGl0dWNpb25hbCBkYSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBKdWl6IGRlIEZvcmEgcG9kZSBtYW50ZXIgbWFpcyBkZSB1bWEgY++/vXBpYSBkZSBzdWEgcHVibGljYe+/ve+/vW8gcGFyYSBmaW5zIGRlIHNlZ3VyYW7vv71hLCBiYWNrLXVwIGUgcHJlc2VydmHvv73vv71vLiBWb2Pvv70gZGVjbGFyYSBxdWUgYSBzdWEgcHVibGljYe+/ve+/vW8g77+9IG9yaWdpbmFsIGUgcXVlIHZvY++/vSB0ZW0gbyBwb2RlciBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbu+/vWEuIFZvY++/vSB0YW1i77+9bSBkZWNsYXJhIHF1ZSBvIGRlcO+/vXNpdG8gZGEgc3VhIHB1YmxpY2Hvv73vv71vIG7vv71vLCBxdWUgc2VqYSBkZSBzZXUgY29uaGVjaW1lbnRvLCBpbmZyaW5nZSBkaXJlaXRvcyBhdXRvcmFpcyBkZSBuaW5nde+/vW0uCgpDYXNvIGEgc3VhIHB1YmxpY2Hvv73vv71vIGNvbnRlbmhhIG1hdGVyaWFsIHF1ZSB2b2Pvv70gbu+/vW8gcG9zc3VpIGEgdGl0dWxhcmlkYWRlIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgdm9j77+9IGRlY2xhcmEgcXVlIG9idGV2ZSBhIHBlcm1pc3Pvv71vIGlycmVzdHJpdGEgZG8gZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIHBhcmEgY29uY2VkZXIgYW8gUmVwb3NpdO+/vXJpbyBJbnN0aXR1Y2lvbmFsIGRhIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIEp1aXogZGUgRm9yYSBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7vv71hLCBlIHF1ZSBlc3NlIG1hdGVyaWFsIGRlIHByb3ByaWVkYWRlIGRlIHRlcmNlaXJvcyBlc3Tvv70gY2xhcmFtZW50ZSBpZGVudGlmaWNhZG8gZSByZWNvbmhlY2lkbyBubyB0ZXh0byBvdSBubyBjb250Ze+/vWRvIGRhIHB1YmxpY2Hvv73vv71vIG9yYSBkZXBvc2l0YWRhLgoKQ0FTTyBBIFBVQkxJQ0Hvv73vv71PIE9SQSBERVBPU0lUQURBIFRFTkhBIFNJRE8gUkVTVUxUQURPIERFIFVNIFBBVFJPQ++/vU5JTyBPVSBBUE9JTyBERSBVTUEgQUfvv71OQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PLCBWT0Pvv70gREVDTEFSQSBRVUUgUkVTUEVJVE9VIFRPRE9TIEUgUVVBSVNRVUVSIERJUkVJVE9TIERFIFJFVklT77+9TyBDT01PIFRBTULvv71NIEFTIERFTUFJUyBPQlJJR0Hvv73vv71FUyBFWElHSURBUyBQT1IgQ09OVFJBVE8gT1UgQUNPUkRPLgoKTyBSZXBvc2l077+9cmlvIEluc3RpdHVjaW9uYWwgZGEgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZGUgSnVpeiBkZSBGb3JhIHNlIGNvbXByb21ldGUgYSBpZGVudGlmaWNhciBjbGFyYW1lbnRlIG8gc2V1IG5vbWUgKHMpIG91IG8ocykgbm9tZShzKSBkbyhzKSBkZXRlbnRvcihlcykgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIGRhIHB1YmxpY2Hvv73vv71vLCBlIG7vv71vIGZhcu+/vSBxdWFscXVlciBhbHRlcmHvv73vv71vLCBhbO+/vW0gZGFxdWVsYXMgY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbu+/vWEuCg==Repositório InstitucionalPUBhttps://repositorio.ufjf.br/oai/requestopendoar:2019-06-16T08:15:49Repositório Institucional da UFJF - Universidade Federal de Juiz de Fora (UFJF)false
dc.title.pt_BR.fl_str_mv Aprendizado de métricas utilizando uma função de distância parametrizada e o algoritmo K-means com aplicação na solução de problemas de classificação
title Aprendizado de métricas utilizando uma função de distância parametrizada e o algoritmo K-means com aplicação na solução de problemas de classificação
spellingShingle Aprendizado de métricas utilizando uma função de distância parametrizada e o algoritmo K-means com aplicação na solução de problemas de classificação
Fagundes, Felipe Leite
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Aprendizado de Máquinas
Classificação
Análise de dados
Machine Learning
Classification
Data Analysis
title_short Aprendizado de métricas utilizando uma função de distância parametrizada e o algoritmo K-means com aplicação na solução de problemas de classificação
title_full Aprendizado de métricas utilizando uma função de distância parametrizada e o algoritmo K-means com aplicação na solução de problemas de classificação
title_fullStr Aprendizado de métricas utilizando uma função de distância parametrizada e o algoritmo K-means com aplicação na solução de problemas de classificação
title_full_unstemmed Aprendizado de métricas utilizando uma função de distância parametrizada e o algoritmo K-means com aplicação na solução de problemas de classificação
title_sort Aprendizado de métricas utilizando uma função de distância parametrizada e o algoritmo K-means com aplicação na solução de problemas de classificação
author Fagundes, Felipe Leite
author_facet Fagundes, Felipe Leite
author_role author
dc.contributor.advisor1.fl_str_mv Fonseca Neto, Raul
dc.contributor.advisor1Lattes.fl_str_mv http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4786482Y2
dc.contributor.advisor-co1.fl_str_mv Borges, Carlos Cristiano Hasenclever
dc.contributor.advisor-co1Lattes.fl_str_mv http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4728257U5
dc.contributor.referee1.fl_str_mv Villela, Saulo Moraes
dc.contributor.referee1Lattes.fl_str_mv http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4733598Y6
dc.contributor.referee2.fl_str_mv Braga, Antônio de Pádua
dc.contributor.referee2Lattes.fl_str_mv http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4780507Y6
dc.contributor.authorLattes.fl_str_mv http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4811004J3
dc.contributor.author.fl_str_mv Fagundes, Felipe Leite
contributor_str_mv Fonseca Neto, Raul
Borges, Carlos Cristiano Hasenclever
Villela, Saulo Moraes
Braga, Antônio de Pádua
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Aprendizado de Máquinas
Classificação
Análise de dados
Machine Learning
Classification
Data Analysis
dc.subject.por.fl_str_mv Aprendizado de Máquinas
Classificação
Análise de dados
Machine Learning
Classification
Data Analysis
description A utilização de diferentes métricas em algoritmos de aprendizado de máquinas pode mudar completamente os resultados de análises realizadas em bases de dados. Variar as maneiras de medir distâncias ou similaridades dos dados pode gerar reflexos para a captura de informações dessas bases e, com isso, influenciar diretamente a tomada de decisões. Neste sentido, métodos de aprendizagem de métricas têm sido abordados e aplicados em diversos ramos das pesquisas que manipulam bases de dados, com a finalidade de encontrar métricas mais adequadas para soluções de problemas de análise de cluster, classificação, mineração de dados, dentre outros relacionados ao reconhecimento de padrões de dados. O método de aprendizado de métricas utilizado como base deste trabalho foi originalmente formulado como um problema de otimização, com o objetivo de minimizar um conjunto parametrizado de distâncias de Mahalanobis. No método original é necessário estabelecer uma lista com pares de vetores similares ou dissimilares, que possibilitam a correção dos parâmetros para medição das distâncias. Já neste trabalho é proposto um novo método, que não necessita da comparação par a par entre vetores, mas apenas da comparação de distâncias de cada vetor do conjunto de treinamento com dois centroides: o definido pelo algoritmo Seeded k-means e o definido por um especialista como sendo um centroide esperado. A distância entre o vetor e os dois centroides é usada como fator global de correção dos parâmetros para medição das distâncias. Os novos parâmetros para medição de distâncias alteram a forma como os vetores são agrupados, melhorando sensivelmente os resultados em relação à métrica Euclideana. A maior contribuição deste estudo foi a formulação de um método para aprendizado desses parâmetros que reduzisse a complexidade em tempo em relação a outros métodos de aprendizado propostos na literatura, denominado MAP – Método de Aprendizado de Parâmetros. O MAP demonstrou melhoras significativas para problemas de classificação em diversas bases de dados do UCI Machine Learning Repository com métricas aprendidas em conjuntos de treinamento.
publishDate 2017
dc.date.accessioned.fl_str_mv 2017-12-22T12:00:32Z
dc.date.available.fl_str_mv 2017-12-20
2017-12-22T12:00:32Z
dc.date.issued.fl_str_mv 2017-08-31
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufjf.br/jspui/handle/ufjf/6013
url https://repositorio.ufjf.br/jspui/handle/ufjf/6013
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Juiz de Fora (UFJF)
dc.publisher.program.fl_str_mv Programa de Pós-graduação em Ciência da Computação
dc.publisher.initials.fl_str_mv UFJF
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv ICE – Instituto de Ciências Exatas
publisher.none.fl_str_mv Universidade Federal de Juiz de Fora (UFJF)
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFJF
instname:Universidade Federal de Juiz de Fora (UFJF)
instacron:UFJF
instname_str Universidade Federal de Juiz de Fora (UFJF)
instacron_str UFJF
institution UFJF
reponame_str Repositório Institucional da UFJF
collection Repositório Institucional da UFJF
bitstream.url.fl_str_mv https://repositorio.ufjf.br/jspui/bitstream/ufjf/6013/4/felipeleitefagundes.pdf.jpg
https://repositorio.ufjf.br/jspui/bitstream/ufjf/6013/1/felipeleitefagundes.pdf
https://repositorio.ufjf.br/jspui/bitstream/ufjf/6013/2/license.txt
https://repositorio.ufjf.br/jspui/bitstream/ufjf/6013/3/felipeleitefagundes.pdf.txt
bitstream.checksum.fl_str_mv 4b84af6189c55303252e50966577e74b
828890d64eac8d09b9c56eb30e6505df
000e18a5aee6ca21bb5811ddf55fc37b
3ff53e099b750c276ef122a6c669ec44
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFJF - Universidade Federal de Juiz de Fora (UFJF)
repository.mail.fl_str_mv
_version_ 1833922416438411264