Dependência entre termos no modelo vetorial

Detalhes bibliográficos
Ano de defesa: 2003
Autor(a) principal: Santos, Karina Silveira lattes
Orientador(a): Souza, João Nunes de lattes
Banca de defesa: Guliato, Denise, Ziviani, Nivio
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Uberlândia
Programa de Pós-Graduação: Programa de Pós-graduação em Ciência da Computação
Departamento: Não Informado pela instituição
País: Brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: https://repositorio.ufu.br/handle/123456789/27335
http://doi.org/10.14393/ufu.di.2003.17
Resumo: O número de informações eletrônicas disponíveis para acesso nas bibliotecas digitais e na Web vem crescendo em ritmo acelerado. Em decorrência disto, a tarefa de encontrar informação útil torna-se difícil. Melhorar essa situação requer avanços no projeto e implementação de sistemas de recuperação de informação, dentre elas, algoritmos de ranking. O Modelo Vctorial é uma abordagem que vem sendo utilizada ao longo dos anos para prover tal ordenação. Neste modelo, cada termo do índice corresponde a um vetor, e esses vetores, em conjunto, geram a base do espaço vetorial de interesse. Nesta base, os vetores são ortogonais entre si, indicando que os respectivos termos são mutuamente independentes. Entretanto, esta é uma simplificação que não corresponde à realidade. Diante desse cenário, apresentamos, neste trabalho, uma extensão ao Modelo Vetorial para contemplar a correlação entre os termos. No modelo proposto, os vetores de termos, originalmente ortogonais, são rotados no espaço refletindo geometricamente a semântica de dependência entre os termos. Essa rotação pode ser feita com base em técnicas que resultem em informações sobre o relacionamento entre termos da coleção. Propomos as técnicas regras de associação e a geração de termos lexicograficamente semelhantes. A geração de regras de associação é uma conhecida técnica da mineração de dados. Ela é utilizada na recuperação de informação para encontrar conjuntos de termos que co-ocorrem na coleção de documentos. A técnica de obtenção de termos lexicograficamente semelhantes é uma estratégia semelhante à extração de radicais. A eficácia de recuperação do modelo proposto é avaliada para as duas técnicas, empregando as medidas de Precisão e Revocação. Os resultados mostram que há um aumento na efetividade de recuperação do modelo proposto em comparação ao Modelo Vetorial clássico para todas as coleções de referência avaliadas, obtendo um ganho de até 31% na média da precisão.
id UFU_ec5a2fae77e5cd69c60ceb71ca7cf354
oai_identifier_str oai:repositorio.ufu.br:123456789/27335
network_acronym_str UFU
network_name_str Repositório Institucional da UFU
repository_id_str
spelling 2019-11-11T22:27:23Z2019-11-11T22:27:23Z2003SANTOS, Karina Silveira. Dependência entre termos no modelo vetorial. 2003. 85 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2019. Disponível em: http://doi.org/10.14393/ufu.di.2003.17https://repositorio.ufu.br/handle/123456789/27335http://doi.org/10.14393/ufu.di.2003.17O número de informações eletrônicas disponíveis para acesso nas bibliotecas digitais e na Web vem crescendo em ritmo acelerado. Em decorrência disto, a tarefa de encontrar informação útil torna-se difícil. Melhorar essa situação requer avanços no projeto e implementação de sistemas de recuperação de informação, dentre elas, algoritmos de ranking. O Modelo Vctorial é uma abordagem que vem sendo utilizada ao longo dos anos para prover tal ordenação. Neste modelo, cada termo do índice corresponde a um vetor, e esses vetores, em conjunto, geram a base do espaço vetorial de interesse. Nesta base, os vetores são ortogonais entre si, indicando que os respectivos termos são mutuamente independentes. Entretanto, esta é uma simplificação que não corresponde à realidade. Diante desse cenário, apresentamos, neste trabalho, uma extensão ao Modelo Vetorial para contemplar a correlação entre os termos. No modelo proposto, os vetores de termos, originalmente ortogonais, são rotados no espaço refletindo geometricamente a semântica de dependência entre os termos. Essa rotação pode ser feita com base em técnicas que resultem em informações sobre o relacionamento entre termos da coleção. Propomos as técnicas regras de associação e a geração de termos lexicograficamente semelhantes. A geração de regras de associação é uma conhecida técnica da mineração de dados. Ela é utilizada na recuperação de informação para encontrar conjuntos de termos que co-ocorrem na coleção de documentos. A técnica de obtenção de termos lexicograficamente semelhantes é uma estratégia semelhante à extração de radicais. A eficácia de recuperação do modelo proposto é avaliada para as duas técnicas, empregando as medidas de Precisão e Revocação. Os resultados mostram que há um aumento na efetividade de recuperação do modelo proposto em comparação ao Modelo Vetorial clássico para todas as coleções de referência avaliadas, obtendo um ganho de até 31% na média da precisão.The number of available electronic Information for access in digital libraries and Web is growing fast. An immediate consequence is that lhe task of finding useful information becomes difficult. Improving upon this situation requires progresses in the project and implemenlation of information retrieval systems, among them, ranking algorithms. The Vector Space Model is an approach, which has been used along the years to provide such ranking. In this model, each index term corresponds to a vector, and these vectors, together, generatc the basis of the vector space of interest. In this basis, the vectors are pairwaise orthogonal, indicating that the corresponding terms are mutually independent. However, this simplification does not correspond to the reality. Then, we present, in this work, an extension to the Vector Model to take into account the correlation between terms. In the proposed model, term vectors, originally orthogonal, are rotated in space geometrically reflecting the dependence semantics among terms. This rotation is done with any technique that generates information on the relationship among terms of the collection. We propose two techniques, named, association rules and the generation of terms lexicographically similar. The generation of association rules is a known data mining technique. It is used in the information retrieval to fínd sets of terms that co-occur in documents collection. The technique of obtaining terms lexicographically similar creatures is a strategy similar to the extraction of radicais. The retrieval effectiveness of the proposed model is evaluated for the two techniques using the measures of precision and recall. The results shows that our model improves in average precision, relative to the standard Vector Model, for all collections evaluated, leading to a gain up to 31%.Dissertação (Mestrado)porUniversidade Federal de UberlândiaPrograma de Pós-graduação em Ciência da ComputaçãoBrasilAttribution-NonCommercial-NoDerivs 3.0 United Stateshttp://creativecommons.org/licenses/by-nc-nd/3.0/us/info:eu-repo/semantics/openAccessCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOInformações eletrônicasBibliotecas digitaisModelo vetorialVetorDependência entre termos no modelo vetorialDependency between terms in the vector modelinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisSilva, Ilmério Reis daSouza, João Nunes dehttp://lattes.cnpq.br/2125942405817598Guliato, DeniseZiviani, Niviohttp://lattes.cnpq.br/9178459445233659Santos, Karina Silveira85reponame:Repositório Institucional da UFUinstname:Universidade Federal de Uberlândia (UFU)instacron:UFUORIGINALDependênciaEntreTermos.pdfDependênciaEntreTermos.pdfapplication/pdf4185779https://repositorio.ufu.br/bitstream/123456789/27335/1/Depend%c3%aanciaEntreTermos.pdff8a85d1bb89e76274284217328a01532MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufu.br/bitstream/123456789/27335/2/license_rdf9868ccc48a14c8d591352b6eaf7f6239MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-81792https://repositorio.ufu.br/bitstream/123456789/27335/3/license.txt48ded82ce41b8d2426af12aed6b3cbf3MD53TEXTDependênciaEntreTermos.pdf.txtDependênciaEntreTermos.pdf.txtExtracted texttext/plain129073https://repositorio.ufu.br/bitstream/123456789/27335/4/Depend%c3%aanciaEntreTermos.pdf.txta1f4cd28246db6f47d75e1ae73e7f6cdMD54THUMBNAILDependênciaEntreTermos.pdf.jpgDependênciaEntreTermos.pdf.jpgGenerated Thumbnailimage/jpeg1339https://repositorio.ufu.br/bitstream/123456789/27335/5/Depend%c3%aanciaEntreTermos.pdf.jpg9f389f8f03fb10b6d843f1a4e1befda2MD55123456789/273352019-11-12 03:12:04.154oai:repositorio.ufu.br:123456789/27335w4kgbmVjZXNzw6FyaW8gY29uY29yZGFyIGNvbSBhIGxpY2Vuw6dhIGRlIGRpc3RyaWJ1acOnw6NvIG7Do28tZXhjbHVzaXZhLCBhbnRlcyBxdWUgbyBkb2N1bWVudG8gcG9zc2EgYXBhcmVjZXIgbm8gUmVwb3NpdMOzcmlvLiBQb3IgZmF2b3IsIGxlaWEgYSBsaWNlbsOnYSBhdGVudGFtZW50ZS4gQ2FzbyBuZWNlc3NpdGUgZGUgYWxndW0gZXNjbGFyZWNpbWVudG8gZW50cmUgZW0gY29udGF0byBhdHJhdsOpcyBkbyBlLW1haWwgIHJlcG9zaXRvcmlvQHVmdS5ici4KCkxJQ0VOw4dBIERFIERJU1RSSUJVScOHw4NPIE7Dg08tRVhDTFVTSVZBCgpBbyBhc3NpbmFyIGUgZW50cmVnYXIgZXN0YSBsaWNlbsOnYSwgby9hIFNyLi9TcmEuIChhdXRvciBvdSBkZXRlbnRvciBkb3MgZGlyZWl0b3MgZGUgYXV0b3IpOgoKYSkgQ29uY2VkZSDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBVYmVybMOibmRpYSBvIGRpcmVpdG8gbsOjby1leGNsdXNpdm8gZGUgcmVwcm9kdXppciwgY29udmVydGVyIChjb21vIGRlZmluaWRvIGFiYWl4byksIGNvbXVuaWNhciBlL291IGRpc3RyaWJ1aXIgbyBkb2N1bWVudG8gZW50cmVndWUgKGluY2x1aW5kbyBvIHJlc3Vtby9hYnN0cmFjdCkgZW0gZm9ybWF0byBkaWdpdGFsIG91IGltcHJlc3NvIGUgZW0gcXVhbHF1ZXIgbWVpby4KCmIpIERlY2xhcmEgcXVlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIMOpIHNldSB0cmFiYWxobyBvcmlnaW5hbCwgZSBxdWUgZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2UsIHRhbnRvIHF1YW50byBsaGUgw6kgcG9zc8OtdmVsIHNhYmVyLCBvcyBkaXJlaXRvcyBkZSBxdWFscXVlciBvdXRyYSBwZXNzb2Egb3UgZW50aWRhZGUuCgpjKSBTZSBvIGRvY3VtZW50byBlbnRyZWd1ZSBjb250w6ltIG1hdGVyaWFsIGRvIHF1YWwgbsOjbyBkZXTDqW0gb3MgZGlyZWl0b3MgZGUgYXV0b3IsIGRlY2xhcmEgcXVlIG9idGV2ZSBhdXRvcml6YcOnw6NvIGRvIGRldGVudG9yIGRvcyBkaXJlaXRvcyBkZSBhdXRvciBwYXJhIGNvbmNlZGVyIMOgIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIFViZXJsw6JuZGlhIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgY3Vqb3MgZGlyZWl0b3Mgc8OjbyBkZSB0ZXJjZWlyb3MgZXN0w6EgY2xhcmFtZW50ZSBpZGVudGlmaWNhZG8gZSByZWNvbmhlY2lkbyBubyB0ZXh0byBvdSBjb250ZcO6ZG8gZG8gZG9jdW1lbnRvIGVudHJlZ3VlLgoKU2UgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgYmFzZWFkbyBlbSB0cmFiYWxobyBmaW5hbmNpYWRvIG91IGFwb2lhZG8gcG9yIG91dHJhIGluc3RpdHVpw6fDo28gcXVlIG7Do28gYSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBVYmVybMOibmRpYSwgZGVjbGFyYSBxdWUgY3VtcHJpdSBxdWFpc3F1ZXIgb2JyaWdhw6fDtWVzIGV4aWdpZGFzIHBlbG8gcmVzcGVjdGl2byBjb250cmF0byBvdSBhY29yZG8uCgpBIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIFViZXJsw6JuZGlhIGlkZW50aWZpY2Fyw6EgY2xhcmFtZW50ZSBvKHMpIHNldShzKSBub21lKHMpIGNvbW8gbyhzKSBhdXRvcihlcykgb3UgZGV0ZW50b3IgKGVzKSBkb3MgZGlyZWl0b3MgZG8gZG9jdW1lbnRvIGVudHJlZ3VlLCBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIHBhcmEgYWzDqW0gZGFzIHBlcm1pdGlkYXMgcG9yIGVzdGEgbGljZW7Dp2EuCg==Repositório InstitucionalONGhttp://repositorio.ufu.br/oai/requestdiinf@dirbi.ufu.bropendoar:2019-11-12T06:12:04Repositório Institucional da UFU - Universidade Federal de Uberlândia (UFU)false
dc.title.pt_BR.fl_str_mv Dependência entre termos no modelo vetorial
dc.title.alternative.pt_BR.fl_str_mv Dependency between terms in the vector model
title Dependência entre termos no modelo vetorial
spellingShingle Dependência entre termos no modelo vetorial
Santos, Karina Silveira
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Informações eletrônicas
Bibliotecas digitais
Modelo vetorial
Vetor
title_short Dependência entre termos no modelo vetorial
title_full Dependência entre termos no modelo vetorial
title_fullStr Dependência entre termos no modelo vetorial
title_full_unstemmed Dependência entre termos no modelo vetorial
title_sort Dependência entre termos no modelo vetorial
author Santos, Karina Silveira
author_facet Santos, Karina Silveira
author_role author
dc.contributor.advisor-co1.fl_str_mv Silva, Ilmério Reis da
dc.contributor.advisor1.fl_str_mv Souza, João Nunes de
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/2125942405817598
dc.contributor.referee1.fl_str_mv Guliato, Denise
dc.contributor.referee2.fl_str_mv Ziviani, Nivio
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/9178459445233659
dc.contributor.author.fl_str_mv Santos, Karina Silveira
contributor_str_mv Silva, Ilmério Reis da
Souza, João Nunes de
Guliato, Denise
Ziviani, Nivio
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Informações eletrônicas
Bibliotecas digitais
Modelo vetorial
Vetor
dc.subject.por.fl_str_mv Informações eletrônicas
Bibliotecas digitais
Modelo vetorial
Vetor
description O número de informações eletrônicas disponíveis para acesso nas bibliotecas digitais e na Web vem crescendo em ritmo acelerado. Em decorrência disto, a tarefa de encontrar informação útil torna-se difícil. Melhorar essa situação requer avanços no projeto e implementação de sistemas de recuperação de informação, dentre elas, algoritmos de ranking. O Modelo Vctorial é uma abordagem que vem sendo utilizada ao longo dos anos para prover tal ordenação. Neste modelo, cada termo do índice corresponde a um vetor, e esses vetores, em conjunto, geram a base do espaço vetorial de interesse. Nesta base, os vetores são ortogonais entre si, indicando que os respectivos termos são mutuamente independentes. Entretanto, esta é uma simplificação que não corresponde à realidade. Diante desse cenário, apresentamos, neste trabalho, uma extensão ao Modelo Vetorial para contemplar a correlação entre os termos. No modelo proposto, os vetores de termos, originalmente ortogonais, são rotados no espaço refletindo geometricamente a semântica de dependência entre os termos. Essa rotação pode ser feita com base em técnicas que resultem em informações sobre o relacionamento entre termos da coleção. Propomos as técnicas regras de associação e a geração de termos lexicograficamente semelhantes. A geração de regras de associação é uma conhecida técnica da mineração de dados. Ela é utilizada na recuperação de informação para encontrar conjuntos de termos que co-ocorrem na coleção de documentos. A técnica de obtenção de termos lexicograficamente semelhantes é uma estratégia semelhante à extração de radicais. A eficácia de recuperação do modelo proposto é avaliada para as duas técnicas, empregando as medidas de Precisão e Revocação. Os resultados mostram que há um aumento na efetividade de recuperação do modelo proposto em comparação ao Modelo Vetorial clássico para todas as coleções de referência avaliadas, obtendo um ganho de até 31% na média da precisão.
publishDate 2003
dc.date.issued.fl_str_mv 2003
dc.date.accessioned.fl_str_mv 2019-11-11T22:27:23Z
dc.date.available.fl_str_mv 2019-11-11T22:27:23Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv SANTOS, Karina Silveira. Dependência entre termos no modelo vetorial. 2003. 85 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2019. Disponível em: http://doi.org/10.14393/ufu.di.2003.17
dc.identifier.uri.fl_str_mv https://repositorio.ufu.br/handle/123456789/27335
dc.identifier.doi.pt_BR.fl_str_mv http://doi.org/10.14393/ufu.di.2003.17
identifier_str_mv SANTOS, Karina Silveira. Dependência entre termos no modelo vetorial. 2003. 85 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2019. Disponível em: http://doi.org/10.14393/ufu.di.2003.17
url https://repositorio.ufu.br/handle/123456789/27335
http://doi.org/10.14393/ufu.di.2003.17
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 United States
http://creativecommons.org/licenses/by-nc-nd/3.0/us/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 United States
http://creativecommons.org/licenses/by-nc-nd/3.0/us/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Uberlândia
dc.publisher.program.fl_str_mv Programa de Pós-graduação em Ciência da Computação
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Universidade Federal de Uberlândia
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFU
instname:Universidade Federal de Uberlândia (UFU)
instacron:UFU
instname_str Universidade Federal de Uberlândia (UFU)
instacron_str UFU
institution UFU
reponame_str Repositório Institucional da UFU
collection Repositório Institucional da UFU
bitstream.url.fl_str_mv https://repositorio.ufu.br/bitstream/123456789/27335/1/Depend%c3%aanciaEntreTermos.pdf
https://repositorio.ufu.br/bitstream/123456789/27335/2/license_rdf
https://repositorio.ufu.br/bitstream/123456789/27335/3/license.txt
https://repositorio.ufu.br/bitstream/123456789/27335/4/Depend%c3%aanciaEntreTermos.pdf.txt
https://repositorio.ufu.br/bitstream/123456789/27335/5/Depend%c3%aanciaEntreTermos.pdf.jpg
bitstream.checksum.fl_str_mv f8a85d1bb89e76274284217328a01532
9868ccc48a14c8d591352b6eaf7f6239
48ded82ce41b8d2426af12aed6b3cbf3
a1f4cd28246db6f47d75e1ae73e7f6cd
9f389f8f03fb10b6d843f1a4e1befda2
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFU - Universidade Federal de Uberlândia (UFU)
repository.mail.fl_str_mv diinf@dirbi.ufu.br
_version_ 1802110995671285760