Dimensionality reduction-based metric learning using information theoretic measures

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Cervati Neto, Alaor
Orientador(a): Levada, Alexandre Luis Magalhães lattes
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Universidade Federal de São Carlos
Câmpus São Carlos
Programa de Pós-Graduação: Programa de Pós-Graduação em Ciência da Computação - PPGCC
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: https://repositorio.ufscar.br/handle/20.500.14289/20097
Resumo: Processing large amounts of data to extract useful information is one of the main issues that may be approached using machine learning. One way to obtain this information is by grouping data according to their common features. In very complex data sets, this task may be accomplished by finding simpler ways of representing the relations between this data, lowering their dimensionality. There are many methods to find the data groups in a set automatically. However, finding a way to minimise the complexity of this data without losing relevant content is a computationally costly process. An alternative to that is treating these data sets as probability distributions of random variables and using concepts and measures from information theory to find their relations more efficiently. This work describes some dimensionality reduction methods and information theory measures and proposes that they be joined in order to obtain better results, by creating variants more resistant to disruption in data or differences in set sizes. The adaptation of existing methods to include information theory-based measures is tested on real datasets, and results formally verified as to their adequacy for obtaining more accurate metrics. In most of the tested cases, results show a better performance compared to traditional classification methods, while in others the modifications made those more effective for datasets with fewer samples.
id SCAR_5b078a51cb3d037aff6643341c970d7b
oai_identifier_str oai:repositorio.ufscar.br:20.500.14289/20097
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str
spelling Cervati Neto, AlaorLevada, Alexandre Luis Magalhãeshttp://lattes.cnpq.br/3341441596395463http://lattes.cnpq.br/6840931161315479https://orcid.org/0000-0001-6212-6205https://orcid.org/0000-0001-8253-27292024-07-18T12:59:54Z2024-07-18T12:59:54Z2024-04-30CERVATI NETO, Alaor. Dimensionality reduction-based metric learning using information theoretic measures. 2024. Tese (Doutorado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/20097.https://repositorio.ufscar.br/handle/20.500.14289/20097Processing large amounts of data to extract useful information is one of the main issues that may be approached using machine learning. One way to obtain this information is by grouping data according to their common features. In very complex data sets, this task may be accomplished by finding simpler ways of representing the relations between this data, lowering their dimensionality. There are many methods to find the data groups in a set automatically. However, finding a way to minimise the complexity of this data without losing relevant content is a computationally costly process. An alternative to that is treating these data sets as probability distributions of random variables and using concepts and measures from information theory to find their relations more efficiently. This work describes some dimensionality reduction methods and information theory measures and proposes that they be joined in order to obtain better results, by creating variants more resistant to disruption in data or differences in set sizes. The adaptation of existing methods to include information theory-based measures is tested on real datasets, and results formally verified as to their adequacy for obtaining more accurate metrics. In most of the tested cases, results show a better performance compared to traditional classification methods, while in others the modifications made those more effective for datasets with fewer samples.O processamento de grandes quantidades de dados para extrair informações úteis é um dos principais problemas que podem ser abordados com o aprendizado de máquina. Uma das formas de obter essas informações é agrupando os dados de acordo com as características que tenham em comum. Em conjuntos de dados muito complexos, esta tarefa pode ser realizada encontrando formas mais simples de representar as relações entre esses dados, diminuindo o número de suas dimensões. Há vários métodos para descobrir os agrupamentos de dados em um conjunto de forma automática. Por outro lado, descobrir um meio de minimizar a complexidade desses dados sem perda de conteúdo relevante é um processo computacionalmente custoso. Uma alternativa para isto é o tratamento destes conjuntos de dados como distribuições de probabilidades de variáveis aleatórias e a utilização de conceitos e medidas de teoria de informação para descobrir suas relações de modo mais eficiente. Este trabalho descreve alguns métodos de redução de dimensionalidade e medidas de teoria de informação e propõe que ambos sejam unidos para a obtenção de resultados melhores, criando variantes mais resistentes a perturbações nos dados ou diferenças no tamanho dos conjuntos. A adaptação dos métodos existentes para incluir medidas baseadas em teoria da informação é testada em conjuntos de dados reais, e os resultados verificados formalmente quanto a sua adequação para a obtenção de métricas mais precisas. Na maior parte dos casos estudados, os resultados demonstraram um desempenho superior ao dos métodos tradicionais para classificação, enquanto em outros as alterações realizadas tornaram-nos mais eficazes para conjuntos de dados com um número reduzido de amostras.Não recebi financiamentoengUniversidade Federal de São CarlosCâmpus São CarlosPrograma de Pós-Graduação em Ciência da Computação - PPGCCUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessRedução de dimensionalidadeAprendizado de métricasTeoria da informaçãoDimensionality reductionMetric learningInformation theoryCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::MATEMATICA DA COMPUTACAOCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAODimensionality reduction-based metric learning using information theoretic measuresAprendizado de métricas baseado em redução de dimensionalidade usando medidas da teoria da informaçãoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARTEXTT.pdf.txtT.pdf.txtExtracted texttext/plain116895https://repositorio.ufscar.br/bitstreams/16bf827b-81ae-4c21-a8c3-5a08f82cd2fe/downloadce858bda930ef512a8e07e3c0b4fbbd3MD53falseAnonymousREADTHUMBNAILT.pdf.jpgT.pdf.jpgGenerated Thumbnailimage/jpeg3612https://repositorio.ufscar.br/bitstreams/2ab8fc1c-422a-498f-bafe-471a43bd5352/downloadfa147fe5287c5dabab46626b6c5103e7MD54falseAnonymousREADORIGINALT.pdfT.pdfapplication/pdf1893919https://repositorio.ufscar.br/bitstreams/0b50f507-ff79-451c-b338-6515a826e89c/downloadb7f24406ef16af06a627e1384656c104MD51trueAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8810https://repositorio.ufscar.br/bitstreams/9818bef7-066e-43da-b6e4-44b50a43ccd4/downloadf337d95da1fce0a22c77480e5e9a7aecMD52falseAnonymousREAD20.500.14289/200972025-02-06 02:37:45.561http://creativecommons.org/licenses/by-nc-nd/3.0/br/Attribution-NonCommercial-NoDerivs 3.0 Brazilopen.accessoai:repositorio.ufscar.br:20.500.14289/20097https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-02-06T05:37:45Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.eng.fl_str_mv Dimensionality reduction-based metric learning using information theoretic measures
dc.title.alternative.por.fl_str_mv Aprendizado de métricas baseado em redução de dimensionalidade usando medidas da teoria da informação
title Dimensionality reduction-based metric learning using information theoretic measures
spellingShingle Dimensionality reduction-based metric learning using information theoretic measures
Cervati Neto, Alaor
Redução de dimensionalidade
Aprendizado de métricas
Teoria da informação
Dimensionality reduction
Metric learning
Information theory
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::MATEMATICA DA COMPUTACAO
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
title_short Dimensionality reduction-based metric learning using information theoretic measures
title_full Dimensionality reduction-based metric learning using information theoretic measures
title_fullStr Dimensionality reduction-based metric learning using information theoretic measures
title_full_unstemmed Dimensionality reduction-based metric learning using information theoretic measures
title_sort Dimensionality reduction-based metric learning using information theoretic measures
author Cervati Neto, Alaor
author_facet Cervati Neto, Alaor
author_role author
dc.contributor.authorlattes.por.fl_str_mv http://lattes.cnpq.br/6840931161315479
dc.contributor.authororcid.por.fl_str_mv https://orcid.org/0000-0001-6212-6205
dc.contributor.advisor1orcid.por.fl_str_mv https://orcid.org/0000-0001-8253-2729
dc.contributor.author.fl_str_mv Cervati Neto, Alaor
dc.contributor.advisor1.fl_str_mv Levada, Alexandre Luis Magalhães
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/3341441596395463
contributor_str_mv Levada, Alexandre Luis Magalhães
dc.subject.por.fl_str_mv Redução de dimensionalidade
Aprendizado de métricas
Teoria da informação
topic Redução de dimensionalidade
Aprendizado de métricas
Teoria da informação
Dimensionality reduction
Metric learning
Information theory
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::MATEMATICA DA COMPUTACAO
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
dc.subject.eng.fl_str_mv Dimensionality reduction
Metric learning
Information theory
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::MATEMATICA DA COMPUTACAO
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
description Processing large amounts of data to extract useful information is one of the main issues that may be approached using machine learning. One way to obtain this information is by grouping data according to their common features. In very complex data sets, this task may be accomplished by finding simpler ways of representing the relations between this data, lowering their dimensionality. There are many methods to find the data groups in a set automatically. However, finding a way to minimise the complexity of this data without losing relevant content is a computationally costly process. An alternative to that is treating these data sets as probability distributions of random variables and using concepts and measures from information theory to find their relations more efficiently. This work describes some dimensionality reduction methods and information theory measures and proposes that they be joined in order to obtain better results, by creating variants more resistant to disruption in data or differences in set sizes. The adaptation of existing methods to include information theory-based measures is tested on real datasets, and results formally verified as to their adequacy for obtaining more accurate metrics. In most of the tested cases, results show a better performance compared to traditional classification methods, while in others the modifications made those more effective for datasets with fewer samples.
publishDate 2024
dc.date.accessioned.fl_str_mv 2024-07-18T12:59:54Z
dc.date.available.fl_str_mv 2024-07-18T12:59:54Z
dc.date.issued.fl_str_mv 2024-04-30
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv CERVATI NETO, Alaor. Dimensionality reduction-based metric learning using information theoretic measures. 2024. Tese (Doutorado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/20097.
dc.identifier.uri.fl_str_mv https://repositorio.ufscar.br/handle/20.500.14289/20097
identifier_str_mv CERVATI NETO, Alaor. Dimensionality reduction-based metric learning using information theoretic measures. 2024. Tese (Doutorado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/20097.
url https://repositorio.ufscar.br/handle/20.500.14289/20097
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Ciência da Computação - PPGCC
dc.publisher.initials.fl_str_mv UFSCar
publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstreams/16bf827b-81ae-4c21-a8c3-5a08f82cd2fe/download
https://repositorio.ufscar.br/bitstreams/2ab8fc1c-422a-498f-bafe-471a43bd5352/download
https://repositorio.ufscar.br/bitstreams/0b50f507-ff79-451c-b338-6515a826e89c/download
https://repositorio.ufscar.br/bitstreams/9818bef7-066e-43da-b6e4-44b50a43ccd4/download
bitstream.checksum.fl_str_mv ce858bda930ef512a8e07e3c0b4fbbd3
fa147fe5287c5dabab46626b6c5103e7
b7f24406ef16af06a627e1384656c104
f337d95da1fce0a22c77480e5e9a7aec
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv repositorio.sibi@ufscar.br
_version_ 1851688858292322304