Organização de termos e documentos utilizando Co-clustering e agrupamento de Word Embeddings

Detalhes bibliográficos
Ano de defesa: 2021
Autor(a) principal: Polastri, Paulo César
Orientador(a): Camargo, Heloisa de Arruda lattes
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de São Carlos
Câmpus São Carlos
Programa de Pós-Graduação: Programa de Pós-Graduação em Ciência da Computação - PPGCC
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: https://repositorio.ufscar.br/handle/20.500.14289/19617
Resumo: There is a large amount of text documents available on the web which increases as more devices and users connect to the network. Analyzing and organizing such documents considering characteristics such as subject and keywords becomes an increasingly expensive task, but indispensable, considering tasks such as text mining and information retrieval and, therefore, ways to improve the performance of such tasks are widely investigated. Most tasks aimed at organizing documents available today, such as clustering tasks, focus on only one dimension, that is, clustering only documents considering the occurrence of terms. However, an important aspect of clustering documents is finding topics that identify groups of documents by their content. Two-dimensional clustering strategies, which simultaneously group documents and terms, can be useful in this regard. However, the representation used is, in general, in the form of matrices of high dimensionality and sparsity, which does not include any semantic information. This work presents a new approach to organize documents using co-clustering and the representation of terms in the form of embeddings. The terms of the document collection are clustered in advance, allowing for the reduction of the sparsity and dimensionality of the matrix. In addition to the new representation, the proposed strategy includes contributions to assess the outcome of co-clustering that explore the association between groups of documents and terms. In co-clustering tasks, the results showed that the representation surpasses the traditional TF-IDF representation in specific cases.
id SCAR_5e1e276a05610b6b6da814421b8aca68
oai_identifier_str oai:repositorio.ufscar.br:20.500.14289/19617
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str
spelling Polastri, Paulo CésarCamargo, Heloisa de Arrudahttp://lattes.cnpq.br/0487231065057783http://lattes.cnpq.br/1341941141535178https://orcid.org/0009-0000-5709-7235https://orcid.org/0000-0002-5489-73062024-03-11T11:56:27Z2024-03-11T11:56:27Z2021-12-15POLASTRI, Paulo César. Organização de termos e documentos utilizando Co-clustering e agrupamento de Word Embeddings. 2021. Tese (Doutorado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/19617.https://repositorio.ufscar.br/handle/20.500.14289/19617There is a large amount of text documents available on the web which increases as more devices and users connect to the network. Analyzing and organizing such documents considering characteristics such as subject and keywords becomes an increasingly expensive task, but indispensable, considering tasks such as text mining and information retrieval and, therefore, ways to improve the performance of such tasks are widely investigated. Most tasks aimed at organizing documents available today, such as clustering tasks, focus on only one dimension, that is, clustering only documents considering the occurrence of terms. However, an important aspect of clustering documents is finding topics that identify groups of documents by their content. Two-dimensional clustering strategies, which simultaneously group documents and terms, can be useful in this regard. However, the representation used is, in general, in the form of matrices of high dimensionality and sparsity, which does not include any semantic information. This work presents a new approach to organize documents using co-clustering and the representation of terms in the form of embeddings. The terms of the document collection are clustered in advance, allowing for the reduction of the sparsity and dimensionality of the matrix. In addition to the new representation, the proposed strategy includes contributions to assess the outcome of co-clustering that explore the association between groups of documents and terms. In co-clustering tasks, the results showed that the representation surpasses the traditional TF-IDF representation in specific cases.Existe uma grande quantidade de documentos de texto disponível na literatura que aumenta à medida que fluxo de informações aumenta. Analisar e organizar tais documentos considerando características como assunto torna-se uma tarefa cada vez mais dispendiosa, porém indispensável, considerando tarefas como mineração de textos e recuperação de informações e, sendo assim, meios para melhorar o desempenho de tais tarefas são amplamente investigados. A maioria das tarefas voltadas para a organização de documentos disponíveis atualmente, como tarefas de clustering, se concentram em apenas uma dimensão, ou seja, agrupar apenas os documentos considerando a ocorrência de termos. Porém, um aspecto importante do agrupamento de documentos é encontrar tópicos que identificam os clusters de documentos segundo seu conteúdo. Estratégias de clustering bidimensional, que agrupam simultaneamente documentos e termos, podem ser úteis nesse sentido. Entretanto, a representação utilizada é, em geral, na forma de matrizes de alta dimensionalidade e esparsidade, que não inclui nenhuma informação semântica. Neste trabalho é apresentada uma abordagem para organizar documentos usando co-clustering e a representação dos termos na forma de embeddings. Os termos da coleção de documentos são agrupados previamente, permitindo a redução da esparsidade e dimensionalidade da matriz. Além da nova representação, a estratégia proposta inclui contribuições para avaliar o resultado do co-clustering que exploram a associação entre clusters de documentos e termos. Em tarefas de co-clustering, os resultados mostraram que a representação supera a representação TF-IDF (Term Frequency Inverse Document Frequency) tradicional em muitos casos.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)88882.426807/2019-01porUniversidade Federal de São CarlosCâmpus São CarlosPrograma de Pós-Graduação em Ciência da Computação - PPGCCUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessOrganização de documentos e termosAvaliação de co-clusteringCo-clusteringWord embeddingsCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOOrganização de termos e documentos utilizando Co-clustering e agrupamento de Word EmbeddingsOrganizing terms and documents using Co-clustering and Word Embeddingsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALTESE_PCP_homologação_FA.pdfTESE_PCP_homologação_FA.pdfTese de doutoradoapplication/pdf4197449https://repositorio.ufscar.br/bitstreams/0c6c189a-2ae8-44fd-a2f7-99360d24617d/downloadb54e09f3f53266bd4e1354d51e12a063MD51trueAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8810https://repositorio.ufscar.br/bitstreams/f1df9933-decc-401e-bbc2-4d9edca386db/downloadf337d95da1fce0a22c77480e5e9a7aecMD52falseAnonymousREADTEXTTESE_PCP_homologação_FA.pdf.txtTESE_PCP_homologação_FA.pdf.txtExtracted texttext/plain301888https://repositorio.ufscar.br/bitstreams/222fb9ba-4325-486b-b176-761701f4d136/downloada2df508af45b62f486185185298a3161MD53falseAnonymousREADTHUMBNAILTESE_PCP_homologação_FA.pdf.jpgTESE_PCP_homologação_FA.pdf.jpgIM Thumbnailimage/jpeg6844https://repositorio.ufscar.br/bitstreams/a5372787-aaf8-499c-8217-f6f532f82c59/downloade46c35272e0734eb5ca534229eaf6cdcMD54falseAnonymousREAD20.500.14289/196172025-02-06 01:51:08.175http://creativecommons.org/licenses/by-nc-nd/3.0/br/Attribution-NonCommercial-NoDerivs 3.0 Brazilopen.accessoai:repositorio.ufscar.br:20.500.14289/19617https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-02-06T04:51:08Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.por.fl_str_mv Organização de termos e documentos utilizando Co-clustering e agrupamento de Word Embeddings
dc.title.alternative.eng.fl_str_mv Organizing terms and documents using Co-clustering and Word Embeddings
title Organização de termos e documentos utilizando Co-clustering e agrupamento de Word Embeddings
spellingShingle Organização de termos e documentos utilizando Co-clustering e agrupamento de Word Embeddings
Polastri, Paulo César
Organização de documentos e termos
Avaliação de co-clustering
Co-clustering
Word embeddings
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short Organização de termos e documentos utilizando Co-clustering e agrupamento de Word Embeddings
title_full Organização de termos e documentos utilizando Co-clustering e agrupamento de Word Embeddings
title_fullStr Organização de termos e documentos utilizando Co-clustering e agrupamento de Word Embeddings
title_full_unstemmed Organização de termos e documentos utilizando Co-clustering e agrupamento de Word Embeddings
title_sort Organização de termos e documentos utilizando Co-clustering e agrupamento de Word Embeddings
author Polastri, Paulo César
author_facet Polastri, Paulo César
author_role author
dc.contributor.authorlattes.por.fl_str_mv http://lattes.cnpq.br/1341941141535178
dc.contributor.authororcid.por.fl_str_mv https://orcid.org/0009-0000-5709-7235
dc.contributor.advisor1orcid.por.fl_str_mv https://orcid.org/0000-0002-5489-7306
dc.contributor.author.fl_str_mv Polastri, Paulo César
dc.contributor.advisor1.fl_str_mv Camargo, Heloisa de Arruda
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/0487231065057783
contributor_str_mv Camargo, Heloisa de Arruda
dc.subject.por.fl_str_mv Organização de documentos e termos
Avaliação de co-clustering
topic Organização de documentos e termos
Avaliação de co-clustering
Co-clustering
Word embeddings
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.subject.eng.fl_str_mv Co-clustering
Word embeddings
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description There is a large amount of text documents available on the web which increases as more devices and users connect to the network. Analyzing and organizing such documents considering characteristics such as subject and keywords becomes an increasingly expensive task, but indispensable, considering tasks such as text mining and information retrieval and, therefore, ways to improve the performance of such tasks are widely investigated. Most tasks aimed at organizing documents available today, such as clustering tasks, focus on only one dimension, that is, clustering only documents considering the occurrence of terms. However, an important aspect of clustering documents is finding topics that identify groups of documents by their content. Two-dimensional clustering strategies, which simultaneously group documents and terms, can be useful in this regard. However, the representation used is, in general, in the form of matrices of high dimensionality and sparsity, which does not include any semantic information. This work presents a new approach to organize documents using co-clustering and the representation of terms in the form of embeddings. The terms of the document collection are clustered in advance, allowing for the reduction of the sparsity and dimensionality of the matrix. In addition to the new representation, the proposed strategy includes contributions to assess the outcome of co-clustering that explore the association between groups of documents and terms. In co-clustering tasks, the results showed that the representation surpasses the traditional TF-IDF representation in specific cases.
publishDate 2021
dc.date.issued.fl_str_mv 2021-12-15
dc.date.accessioned.fl_str_mv 2024-03-11T11:56:27Z
dc.date.available.fl_str_mv 2024-03-11T11:56:27Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv POLASTRI, Paulo César. Organização de termos e documentos utilizando Co-clustering e agrupamento de Word Embeddings. 2021. Tese (Doutorado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/19617.
dc.identifier.uri.fl_str_mv https://repositorio.ufscar.br/handle/20.500.14289/19617
identifier_str_mv POLASTRI, Paulo César. Organização de termos e documentos utilizando Co-clustering e agrupamento de Word Embeddings. 2021. Tese (Doutorado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/19617.
url https://repositorio.ufscar.br/handle/20.500.14289/19617
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Ciência da Computação - PPGCC
dc.publisher.initials.fl_str_mv UFSCar
publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstreams/0c6c189a-2ae8-44fd-a2f7-99360d24617d/download
https://repositorio.ufscar.br/bitstreams/f1df9933-decc-401e-bbc2-4d9edca386db/download
https://repositorio.ufscar.br/bitstreams/222fb9ba-4325-486b-b176-761701f4d136/download
https://repositorio.ufscar.br/bitstreams/a5372787-aaf8-499c-8217-f6f532f82c59/download
bitstream.checksum.fl_str_mv b54e09f3f53266bd4e1354d51e12a063
f337d95da1fce0a22c77480e5e9a7aec
a2df508af45b62f486185185298a3161
e46c35272e0734eb5ca534229eaf6cdc
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv repositorio.sibi@ufscar.br
_version_ 1851688830804951040