Organização de termos e documentos utilizando Co-clustering e agrupamento de Word Embeddings
| Ano de defesa: | 2021 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Tese |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Federal de São Carlos
Câmpus São Carlos |
| Programa de Pós-Graduação: |
Programa de Pós-Graduação em Ciência da Computação - PPGCC
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Palavras-chave em Inglês: | |
| Área do conhecimento CNPq: | |
| Link de acesso: | https://repositorio.ufscar.br/handle/20.500.14289/19617 |
Resumo: | There is a large amount of text documents available on the web which increases as more devices and users connect to the network. Analyzing and organizing such documents considering characteristics such as subject and keywords becomes an increasingly expensive task, but indispensable, considering tasks such as text mining and information retrieval and, therefore, ways to improve the performance of such tasks are widely investigated. Most tasks aimed at organizing documents available today, such as clustering tasks, focus on only one dimension, that is, clustering only documents considering the occurrence of terms. However, an important aspect of clustering documents is finding topics that identify groups of documents by their content. Two-dimensional clustering strategies, which simultaneously group documents and terms, can be useful in this regard. However, the representation used is, in general, in the form of matrices of high dimensionality and sparsity, which does not include any semantic information. This work presents a new approach to organize documents using co-clustering and the representation of terms in the form of embeddings. The terms of the document collection are clustered in advance, allowing for the reduction of the sparsity and dimensionality of the matrix. In addition to the new representation, the proposed strategy includes contributions to assess the outcome of co-clustering that explore the association between groups of documents and terms. In co-clustering tasks, the results showed that the representation surpasses the traditional TF-IDF representation in specific cases. |
| id |
SCAR_5e1e276a05610b6b6da814421b8aca68 |
|---|---|
| oai_identifier_str |
oai:repositorio.ufscar.br:20.500.14289/19617 |
| network_acronym_str |
SCAR |
| network_name_str |
Repositório Institucional da UFSCAR |
| repository_id_str |
|
| spelling |
Polastri, Paulo CésarCamargo, Heloisa de Arrudahttp://lattes.cnpq.br/0487231065057783http://lattes.cnpq.br/1341941141535178https://orcid.org/0009-0000-5709-7235https://orcid.org/0000-0002-5489-73062024-03-11T11:56:27Z2024-03-11T11:56:27Z2021-12-15POLASTRI, Paulo César. Organização de termos e documentos utilizando Co-clustering e agrupamento de Word Embeddings. 2021. Tese (Doutorado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/19617.https://repositorio.ufscar.br/handle/20.500.14289/19617There is a large amount of text documents available on the web which increases as more devices and users connect to the network. Analyzing and organizing such documents considering characteristics such as subject and keywords becomes an increasingly expensive task, but indispensable, considering tasks such as text mining and information retrieval and, therefore, ways to improve the performance of such tasks are widely investigated. Most tasks aimed at organizing documents available today, such as clustering tasks, focus on only one dimension, that is, clustering only documents considering the occurrence of terms. However, an important aspect of clustering documents is finding topics that identify groups of documents by their content. Two-dimensional clustering strategies, which simultaneously group documents and terms, can be useful in this regard. However, the representation used is, in general, in the form of matrices of high dimensionality and sparsity, which does not include any semantic information. This work presents a new approach to organize documents using co-clustering and the representation of terms in the form of embeddings. The terms of the document collection are clustered in advance, allowing for the reduction of the sparsity and dimensionality of the matrix. In addition to the new representation, the proposed strategy includes contributions to assess the outcome of co-clustering that explore the association between groups of documents and terms. In co-clustering tasks, the results showed that the representation surpasses the traditional TF-IDF representation in specific cases.Existe uma grande quantidade de documentos de texto disponível na literatura que aumenta à medida que fluxo de informações aumenta. Analisar e organizar tais documentos considerando características como assunto torna-se uma tarefa cada vez mais dispendiosa, porém indispensável, considerando tarefas como mineração de textos e recuperação de informações e, sendo assim, meios para melhorar o desempenho de tais tarefas são amplamente investigados. A maioria das tarefas voltadas para a organização de documentos disponíveis atualmente, como tarefas de clustering, se concentram em apenas uma dimensão, ou seja, agrupar apenas os documentos considerando a ocorrência de termos. Porém, um aspecto importante do agrupamento de documentos é encontrar tópicos que identificam os clusters de documentos segundo seu conteúdo. Estratégias de clustering bidimensional, que agrupam simultaneamente documentos e termos, podem ser úteis nesse sentido. Entretanto, a representação utilizada é, em geral, na forma de matrizes de alta dimensionalidade e esparsidade, que não inclui nenhuma informação semântica. Neste trabalho é apresentada uma abordagem para organizar documentos usando co-clustering e a representação dos termos na forma de embeddings. Os termos da coleção de documentos são agrupados previamente, permitindo a redução da esparsidade e dimensionalidade da matriz. Além da nova representação, a estratégia proposta inclui contribuições para avaliar o resultado do co-clustering que exploram a associação entre clusters de documentos e termos. Em tarefas de co-clustering, os resultados mostraram que a representação supera a representação TF-IDF (Term Frequency Inverse Document Frequency) tradicional em muitos casos.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)88882.426807/2019-01porUniversidade Federal de São CarlosCâmpus São CarlosPrograma de Pós-Graduação em Ciência da Computação - PPGCCUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessOrganização de documentos e termosAvaliação de co-clusteringCo-clusteringWord embeddingsCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOOrganização de termos e documentos utilizando Co-clustering e agrupamento de Word EmbeddingsOrganizing terms and documents using Co-clustering and Word Embeddingsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALTESE_PCP_homologação_FA.pdfTESE_PCP_homologação_FA.pdfTese de doutoradoapplication/pdf4197449https://repositorio.ufscar.br/bitstreams/0c6c189a-2ae8-44fd-a2f7-99360d24617d/downloadb54e09f3f53266bd4e1354d51e12a063MD51trueAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8810https://repositorio.ufscar.br/bitstreams/f1df9933-decc-401e-bbc2-4d9edca386db/downloadf337d95da1fce0a22c77480e5e9a7aecMD52falseAnonymousREADTEXTTESE_PCP_homologação_FA.pdf.txtTESE_PCP_homologação_FA.pdf.txtExtracted texttext/plain301888https://repositorio.ufscar.br/bitstreams/222fb9ba-4325-486b-b176-761701f4d136/downloada2df508af45b62f486185185298a3161MD53falseAnonymousREADTHUMBNAILTESE_PCP_homologação_FA.pdf.jpgTESE_PCP_homologação_FA.pdf.jpgIM Thumbnailimage/jpeg6844https://repositorio.ufscar.br/bitstreams/a5372787-aaf8-499c-8217-f6f532f82c59/downloade46c35272e0734eb5ca534229eaf6cdcMD54falseAnonymousREAD20.500.14289/196172025-02-06 01:51:08.175http://creativecommons.org/licenses/by-nc-nd/3.0/br/Attribution-NonCommercial-NoDerivs 3.0 Brazilopen.accessoai:repositorio.ufscar.br:20.500.14289/19617https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-02-06T04:51:08Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false |
| dc.title.por.fl_str_mv |
Organização de termos e documentos utilizando Co-clustering e agrupamento de Word Embeddings |
| dc.title.alternative.eng.fl_str_mv |
Organizing terms and documents using Co-clustering and Word Embeddings |
| title |
Organização de termos e documentos utilizando Co-clustering e agrupamento de Word Embeddings |
| spellingShingle |
Organização de termos e documentos utilizando Co-clustering e agrupamento de Word Embeddings Polastri, Paulo César Organização de documentos e termos Avaliação de co-clustering Co-clustering Word embeddings CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| title_short |
Organização de termos e documentos utilizando Co-clustering e agrupamento de Word Embeddings |
| title_full |
Organização de termos e documentos utilizando Co-clustering e agrupamento de Word Embeddings |
| title_fullStr |
Organização de termos e documentos utilizando Co-clustering e agrupamento de Word Embeddings |
| title_full_unstemmed |
Organização de termos e documentos utilizando Co-clustering e agrupamento de Word Embeddings |
| title_sort |
Organização de termos e documentos utilizando Co-clustering e agrupamento de Word Embeddings |
| author |
Polastri, Paulo César |
| author_facet |
Polastri, Paulo César |
| author_role |
author |
| dc.contributor.authorlattes.por.fl_str_mv |
http://lattes.cnpq.br/1341941141535178 |
| dc.contributor.authororcid.por.fl_str_mv |
https://orcid.org/0009-0000-5709-7235 |
| dc.contributor.advisor1orcid.por.fl_str_mv |
https://orcid.org/0000-0002-5489-7306 |
| dc.contributor.author.fl_str_mv |
Polastri, Paulo César |
| dc.contributor.advisor1.fl_str_mv |
Camargo, Heloisa de Arruda |
| dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/0487231065057783 |
| contributor_str_mv |
Camargo, Heloisa de Arruda |
| dc.subject.por.fl_str_mv |
Organização de documentos e termos Avaliação de co-clustering |
| topic |
Organização de documentos e termos Avaliação de co-clustering Co-clustering Word embeddings CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| dc.subject.eng.fl_str_mv |
Co-clustering Word embeddings |
| dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| description |
There is a large amount of text documents available on the web which increases as more devices and users connect to the network. Analyzing and organizing such documents considering characteristics such as subject and keywords becomes an increasingly expensive task, but indispensable, considering tasks such as text mining and information retrieval and, therefore, ways to improve the performance of such tasks are widely investigated. Most tasks aimed at organizing documents available today, such as clustering tasks, focus on only one dimension, that is, clustering only documents considering the occurrence of terms. However, an important aspect of clustering documents is finding topics that identify groups of documents by their content. Two-dimensional clustering strategies, which simultaneously group documents and terms, can be useful in this regard. However, the representation used is, in general, in the form of matrices of high dimensionality and sparsity, which does not include any semantic information. This work presents a new approach to organize documents using co-clustering and the representation of terms in the form of embeddings. The terms of the document collection are clustered in advance, allowing for the reduction of the sparsity and dimensionality of the matrix. In addition to the new representation, the proposed strategy includes contributions to assess the outcome of co-clustering that explore the association between groups of documents and terms. In co-clustering tasks, the results showed that the representation surpasses the traditional TF-IDF representation in specific cases. |
| publishDate |
2021 |
| dc.date.issued.fl_str_mv |
2021-12-15 |
| dc.date.accessioned.fl_str_mv |
2024-03-11T11:56:27Z |
| dc.date.available.fl_str_mv |
2024-03-11T11:56:27Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
| format |
doctoralThesis |
| status_str |
publishedVersion |
| dc.identifier.citation.fl_str_mv |
POLASTRI, Paulo César. Organização de termos e documentos utilizando Co-clustering e agrupamento de Word Embeddings. 2021. Tese (Doutorado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/19617. |
| dc.identifier.uri.fl_str_mv |
https://repositorio.ufscar.br/handle/20.500.14289/19617 |
| identifier_str_mv |
POLASTRI, Paulo César. Organização de termos e documentos utilizando Co-clustering e agrupamento de Word Embeddings. 2021. Tese (Doutorado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/19617. |
| url |
https://repositorio.ufscar.br/handle/20.500.14289/19617 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
| eu_rights_str_mv |
openAccess |
| dc.publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
| dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Ciência da Computação - PPGCC |
| dc.publisher.initials.fl_str_mv |
UFSCar |
| publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos (UFSCAR) instacron:UFSCAR |
| instname_str |
Universidade Federal de São Carlos (UFSCAR) |
| instacron_str |
UFSCAR |
| institution |
UFSCAR |
| reponame_str |
Repositório Institucional da UFSCAR |
| collection |
Repositório Institucional da UFSCAR |
| bitstream.url.fl_str_mv |
https://repositorio.ufscar.br/bitstreams/0c6c189a-2ae8-44fd-a2f7-99360d24617d/download https://repositorio.ufscar.br/bitstreams/f1df9933-decc-401e-bbc2-4d9edca386db/download https://repositorio.ufscar.br/bitstreams/222fb9ba-4325-486b-b176-761701f4d136/download https://repositorio.ufscar.br/bitstreams/a5372787-aaf8-499c-8217-f6f532f82c59/download |
| bitstream.checksum.fl_str_mv |
b54e09f3f53266bd4e1354d51e12a063 f337d95da1fce0a22c77480e5e9a7aec a2df508af45b62f486185185298a3161 e46c35272e0734eb5ca534229eaf6cdc |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR) |
| repository.mail.fl_str_mv |
repositorio.sibi@ufscar.br |
| _version_ |
1851688830804951040 |