Dependência entre termos no modelo vetorial
Ano de defesa: | 2003 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | , |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Universidade Federal de Uberlândia
|
Programa de Pós-Graduação: |
Programa de Pós-graduação em Ciência da Computação
|
Departamento: |
Não Informado pela instituição
|
País: |
Brasil
|
Palavras-chave em Português: | |
Área do conhecimento CNPq: | |
Link de acesso: | https://repositorio.ufu.br/handle/123456789/27335 http://doi.org/10.14393/ufu.di.2003.17 |
Resumo: | O número de informações eletrônicas disponíveis para acesso nas bibliotecas digitais e na Web vem crescendo em ritmo acelerado. Em decorrência disto, a tarefa de encontrar informação útil torna-se difícil. Melhorar essa situação requer avanços no projeto e implementação de sistemas de recuperação de informação, dentre elas, algoritmos de ranking. O Modelo Vctorial é uma abordagem que vem sendo utilizada ao longo dos anos para prover tal ordenação. Neste modelo, cada termo do índice corresponde a um vetor, e esses vetores, em conjunto, geram a base do espaço vetorial de interesse. Nesta base, os vetores são ortogonais entre si, indicando que os respectivos termos são mutuamente independentes. Entretanto, esta é uma simplificação que não corresponde à realidade. Diante desse cenário, apresentamos, neste trabalho, uma extensão ao Modelo Vetorial para contemplar a correlação entre os termos. No modelo proposto, os vetores de termos, originalmente ortogonais, são rotados no espaço refletindo geometricamente a semântica de dependência entre os termos. Essa rotação pode ser feita com base em técnicas que resultem em informações sobre o relacionamento entre termos da coleção. Propomos as técnicas regras de associação e a geração de termos lexicograficamente semelhantes. A geração de regras de associação é uma conhecida técnica da mineração de dados. Ela é utilizada na recuperação de informação para encontrar conjuntos de termos que co-ocorrem na coleção de documentos. A técnica de obtenção de termos lexicograficamente semelhantes é uma estratégia semelhante à extração de radicais. A eficácia de recuperação do modelo proposto é avaliada para as duas técnicas, empregando as medidas de Precisão e Revocação. Os resultados mostram que há um aumento na efetividade de recuperação do modelo proposto em comparação ao Modelo Vetorial clássico para todas as coleções de referência avaliadas, obtendo um ganho de até 31% na média da precisão. |
id |
UFU_ec5a2fae77e5cd69c60ceb71ca7cf354 |
---|---|
oai_identifier_str |
oai:repositorio.ufu.br:123456789/27335 |
network_acronym_str |
UFU |
network_name_str |
Repositório Institucional da UFU |
repository_id_str |
|
spelling |
2019-11-11T22:27:23Z2019-11-11T22:27:23Z2003SANTOS, Karina Silveira. Dependência entre termos no modelo vetorial. 2003. 85 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2019. Disponível em: http://doi.org/10.14393/ufu.di.2003.17https://repositorio.ufu.br/handle/123456789/27335http://doi.org/10.14393/ufu.di.2003.17O número de informações eletrônicas disponíveis para acesso nas bibliotecas digitais e na Web vem crescendo em ritmo acelerado. Em decorrência disto, a tarefa de encontrar informação útil torna-se difícil. Melhorar essa situação requer avanços no projeto e implementação de sistemas de recuperação de informação, dentre elas, algoritmos de ranking. O Modelo Vctorial é uma abordagem que vem sendo utilizada ao longo dos anos para prover tal ordenação. Neste modelo, cada termo do índice corresponde a um vetor, e esses vetores, em conjunto, geram a base do espaço vetorial de interesse. Nesta base, os vetores são ortogonais entre si, indicando que os respectivos termos são mutuamente independentes. Entretanto, esta é uma simplificação que não corresponde à realidade. Diante desse cenário, apresentamos, neste trabalho, uma extensão ao Modelo Vetorial para contemplar a correlação entre os termos. No modelo proposto, os vetores de termos, originalmente ortogonais, são rotados no espaço refletindo geometricamente a semântica de dependência entre os termos. Essa rotação pode ser feita com base em técnicas que resultem em informações sobre o relacionamento entre termos da coleção. Propomos as técnicas regras de associação e a geração de termos lexicograficamente semelhantes. A geração de regras de associação é uma conhecida técnica da mineração de dados. Ela é utilizada na recuperação de informação para encontrar conjuntos de termos que co-ocorrem na coleção de documentos. A técnica de obtenção de termos lexicograficamente semelhantes é uma estratégia semelhante à extração de radicais. A eficácia de recuperação do modelo proposto é avaliada para as duas técnicas, empregando as medidas de Precisão e Revocação. Os resultados mostram que há um aumento na efetividade de recuperação do modelo proposto em comparação ao Modelo Vetorial clássico para todas as coleções de referência avaliadas, obtendo um ganho de até 31% na média da precisão.The number of available electronic Information for access in digital libraries and Web is growing fast. An immediate consequence is that lhe task of finding useful information becomes difficult. Improving upon this situation requires progresses in the project and implemenlation of information retrieval systems, among them, ranking algorithms. The Vector Space Model is an approach, which has been used along the years to provide such ranking. In this model, each index term corresponds to a vector, and these vectors, together, generatc the basis of the vector space of interest. In this basis, the vectors are pairwaise orthogonal, indicating that the corresponding terms are mutually independent. However, this simplification does not correspond to the reality. Then, we present, in this work, an extension to the Vector Model to take into account the correlation between terms. In the proposed model, term vectors, originally orthogonal, are rotated in space geometrically reflecting the dependence semantics among terms. This rotation is done with any technique that generates information on the relationship among terms of the collection. We propose two techniques, named, association rules and the generation of terms lexicographically similar. The generation of association rules is a known data mining technique. It is used in the information retrieval to fínd sets of terms that co-occur in documents collection. The technique of obtaining terms lexicographically similar creatures is a strategy similar to the extraction of radicais. The retrieval effectiveness of the proposed model is evaluated for the two techniques using the measures of precision and recall. The results shows that our model improves in average precision, relative to the standard Vector Model, for all collections evaluated, leading to a gain up to 31%.Dissertação (Mestrado)porUniversidade Federal de UberlândiaPrograma de Pós-graduação em Ciência da ComputaçãoBrasilAttribution-NonCommercial-NoDerivs 3.0 United Stateshttp://creativecommons.org/licenses/by-nc-nd/3.0/us/info:eu-repo/semantics/openAccessCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOInformações eletrônicasBibliotecas digitaisModelo vetorialVetorDependência entre termos no modelo vetorialDependency between terms in the vector modelinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisSilva, Ilmério Reis daSouza, João Nunes dehttp://lattes.cnpq.br/2125942405817598Guliato, DeniseZiviani, Niviohttp://lattes.cnpq.br/9178459445233659Santos, Karina Silveira85reponame:Repositório Institucional da UFUinstname:Universidade Federal de Uberlândia (UFU)instacron:UFUORIGINALDependênciaEntreTermos.pdfDependênciaEntreTermos.pdfapplication/pdf4185779https://repositorio.ufu.br/bitstream/123456789/27335/1/Depend%c3%aanciaEntreTermos.pdff8a85d1bb89e76274284217328a01532MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufu.br/bitstream/123456789/27335/2/license_rdf9868ccc48a14c8d591352b6eaf7f6239MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-81792https://repositorio.ufu.br/bitstream/123456789/27335/3/license.txt48ded82ce41b8d2426af12aed6b3cbf3MD53TEXTDependênciaEntreTermos.pdf.txtDependênciaEntreTermos.pdf.txtExtracted texttext/plain129073https://repositorio.ufu.br/bitstream/123456789/27335/4/Depend%c3%aanciaEntreTermos.pdf.txta1f4cd28246db6f47d75e1ae73e7f6cdMD54THUMBNAILDependênciaEntreTermos.pdf.jpgDependênciaEntreTermos.pdf.jpgGenerated Thumbnailimage/jpeg1339https://repositorio.ufu.br/bitstream/123456789/27335/5/Depend%c3%aanciaEntreTermos.pdf.jpg9f389f8f03fb10b6d843f1a4e1befda2MD55123456789/273352019-11-12 03:12:04.154oai:repositorio.ufu.br:123456789/27335w4kgbmVjZXNzw6FyaW8gY29uY29yZGFyIGNvbSBhIGxpY2Vuw6dhIGRlIGRpc3RyaWJ1acOnw6NvIG7Do28tZXhjbHVzaXZhLCBhbnRlcyBxdWUgbyBkb2N1bWVudG8gcG9zc2EgYXBhcmVjZXIgbm8gUmVwb3NpdMOzcmlvLiBQb3IgZmF2b3IsIGxlaWEgYSBsaWNlbsOnYSBhdGVudGFtZW50ZS4gQ2FzbyBuZWNlc3NpdGUgZGUgYWxndW0gZXNjbGFyZWNpbWVudG8gZW50cmUgZW0gY29udGF0byBhdHJhdsOpcyBkbyBlLW1haWwgIHJlcG9zaXRvcmlvQHVmdS5ici4KCkxJQ0VOw4dBIERFIERJU1RSSUJVScOHw4NPIE7Dg08tRVhDTFVTSVZBCgpBbyBhc3NpbmFyIGUgZW50cmVnYXIgZXN0YSBsaWNlbsOnYSwgby9hIFNyLi9TcmEuIChhdXRvciBvdSBkZXRlbnRvciBkb3MgZGlyZWl0b3MgZGUgYXV0b3IpOgoKYSkgQ29uY2VkZSDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBVYmVybMOibmRpYSBvIGRpcmVpdG8gbsOjby1leGNsdXNpdm8gZGUgcmVwcm9kdXppciwgY29udmVydGVyIChjb21vIGRlZmluaWRvIGFiYWl4byksIGNvbXVuaWNhciBlL291IGRpc3RyaWJ1aXIgbyBkb2N1bWVudG8gZW50cmVndWUgKGluY2x1aW5kbyBvIHJlc3Vtby9hYnN0cmFjdCkgZW0gZm9ybWF0byBkaWdpdGFsIG91IGltcHJlc3NvIGUgZW0gcXVhbHF1ZXIgbWVpby4KCmIpIERlY2xhcmEgcXVlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIMOpIHNldSB0cmFiYWxobyBvcmlnaW5hbCwgZSBxdWUgZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2UsIHRhbnRvIHF1YW50byBsaGUgw6kgcG9zc8OtdmVsIHNhYmVyLCBvcyBkaXJlaXRvcyBkZSBxdWFscXVlciBvdXRyYSBwZXNzb2Egb3UgZW50aWRhZGUuCgpjKSBTZSBvIGRvY3VtZW50byBlbnRyZWd1ZSBjb250w6ltIG1hdGVyaWFsIGRvIHF1YWwgbsOjbyBkZXTDqW0gb3MgZGlyZWl0b3MgZGUgYXV0b3IsIGRlY2xhcmEgcXVlIG9idGV2ZSBhdXRvcml6YcOnw6NvIGRvIGRldGVudG9yIGRvcyBkaXJlaXRvcyBkZSBhdXRvciBwYXJhIGNvbmNlZGVyIMOgIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIFViZXJsw6JuZGlhIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgY3Vqb3MgZGlyZWl0b3Mgc8OjbyBkZSB0ZXJjZWlyb3MgZXN0w6EgY2xhcmFtZW50ZSBpZGVudGlmaWNhZG8gZSByZWNvbmhlY2lkbyBubyB0ZXh0byBvdSBjb250ZcO6ZG8gZG8gZG9jdW1lbnRvIGVudHJlZ3VlLgoKU2UgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgYmFzZWFkbyBlbSB0cmFiYWxobyBmaW5hbmNpYWRvIG91IGFwb2lhZG8gcG9yIG91dHJhIGluc3RpdHVpw6fDo28gcXVlIG7Do28gYSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBVYmVybMOibmRpYSwgZGVjbGFyYSBxdWUgY3VtcHJpdSBxdWFpc3F1ZXIgb2JyaWdhw6fDtWVzIGV4aWdpZGFzIHBlbG8gcmVzcGVjdGl2byBjb250cmF0byBvdSBhY29yZG8uCgpBIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIFViZXJsw6JuZGlhIGlkZW50aWZpY2Fyw6EgY2xhcmFtZW50ZSBvKHMpIHNldShzKSBub21lKHMpIGNvbW8gbyhzKSBhdXRvcihlcykgb3UgZGV0ZW50b3IgKGVzKSBkb3MgZGlyZWl0b3MgZG8gZG9jdW1lbnRvIGVudHJlZ3VlLCBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIHBhcmEgYWzDqW0gZGFzIHBlcm1pdGlkYXMgcG9yIGVzdGEgbGljZW7Dp2EuCg==Repositório InstitucionalONGhttp://repositorio.ufu.br/oai/requestdiinf@dirbi.ufu.bropendoar:2019-11-12T06:12:04Repositório Institucional da UFU - Universidade Federal de Uberlândia (UFU)false |
dc.title.pt_BR.fl_str_mv |
Dependência entre termos no modelo vetorial |
dc.title.alternative.pt_BR.fl_str_mv |
Dependency between terms in the vector model |
title |
Dependência entre termos no modelo vetorial |
spellingShingle |
Dependência entre termos no modelo vetorial Santos, Karina Silveira CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Informações eletrônicas Bibliotecas digitais Modelo vetorial Vetor |
title_short |
Dependência entre termos no modelo vetorial |
title_full |
Dependência entre termos no modelo vetorial |
title_fullStr |
Dependência entre termos no modelo vetorial |
title_full_unstemmed |
Dependência entre termos no modelo vetorial |
title_sort |
Dependência entre termos no modelo vetorial |
author |
Santos, Karina Silveira |
author_facet |
Santos, Karina Silveira |
author_role |
author |
dc.contributor.advisor-co1.fl_str_mv |
Silva, Ilmério Reis da |
dc.contributor.advisor1.fl_str_mv |
Souza, João Nunes de |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/2125942405817598 |
dc.contributor.referee1.fl_str_mv |
Guliato, Denise |
dc.contributor.referee2.fl_str_mv |
Ziviani, Nivio |
dc.contributor.authorLattes.fl_str_mv |
http://lattes.cnpq.br/9178459445233659 |
dc.contributor.author.fl_str_mv |
Santos, Karina Silveira |
contributor_str_mv |
Silva, Ilmério Reis da Souza, João Nunes de Guliato, Denise Ziviani, Nivio |
dc.subject.cnpq.fl_str_mv |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
topic |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Informações eletrônicas Bibliotecas digitais Modelo vetorial Vetor |
dc.subject.por.fl_str_mv |
Informações eletrônicas Bibliotecas digitais Modelo vetorial Vetor |
description |
O número de informações eletrônicas disponíveis para acesso nas bibliotecas digitais e na Web vem crescendo em ritmo acelerado. Em decorrência disto, a tarefa de encontrar informação útil torna-se difícil. Melhorar essa situação requer avanços no projeto e implementação de sistemas de recuperação de informação, dentre elas, algoritmos de ranking. O Modelo Vctorial é uma abordagem que vem sendo utilizada ao longo dos anos para prover tal ordenação. Neste modelo, cada termo do índice corresponde a um vetor, e esses vetores, em conjunto, geram a base do espaço vetorial de interesse. Nesta base, os vetores são ortogonais entre si, indicando que os respectivos termos são mutuamente independentes. Entretanto, esta é uma simplificação que não corresponde à realidade. Diante desse cenário, apresentamos, neste trabalho, uma extensão ao Modelo Vetorial para contemplar a correlação entre os termos. No modelo proposto, os vetores de termos, originalmente ortogonais, são rotados no espaço refletindo geometricamente a semântica de dependência entre os termos. Essa rotação pode ser feita com base em técnicas que resultem em informações sobre o relacionamento entre termos da coleção. Propomos as técnicas regras de associação e a geração de termos lexicograficamente semelhantes. A geração de regras de associação é uma conhecida técnica da mineração de dados. Ela é utilizada na recuperação de informação para encontrar conjuntos de termos que co-ocorrem na coleção de documentos. A técnica de obtenção de termos lexicograficamente semelhantes é uma estratégia semelhante à extração de radicais. A eficácia de recuperação do modelo proposto é avaliada para as duas técnicas, empregando as medidas de Precisão e Revocação. Os resultados mostram que há um aumento na efetividade de recuperação do modelo proposto em comparação ao Modelo Vetorial clássico para todas as coleções de referência avaliadas, obtendo um ganho de até 31% na média da precisão. |
publishDate |
2003 |
dc.date.issued.fl_str_mv |
2003 |
dc.date.accessioned.fl_str_mv |
2019-11-11T22:27:23Z |
dc.date.available.fl_str_mv |
2019-11-11T22:27:23Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
SANTOS, Karina Silveira. Dependência entre termos no modelo vetorial. 2003. 85 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2019. Disponível em: http://doi.org/10.14393/ufu.di.2003.17 |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufu.br/handle/123456789/27335 |
dc.identifier.doi.pt_BR.fl_str_mv |
http://doi.org/10.14393/ufu.di.2003.17 |
identifier_str_mv |
SANTOS, Karina Silveira. Dependência entre termos no modelo vetorial. 2003. 85 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2019. Disponível em: http://doi.org/10.14393/ufu.di.2003.17 |
url |
https://repositorio.ufu.br/handle/123456789/27335 http://doi.org/10.14393/ufu.di.2003.17 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 United States http://creativecommons.org/licenses/by-nc-nd/3.0/us/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 United States http://creativecommons.org/licenses/by-nc-nd/3.0/us/ |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Uberlândia |
dc.publisher.program.fl_str_mv |
Programa de Pós-graduação em Ciência da Computação |
dc.publisher.country.fl_str_mv |
Brasil |
publisher.none.fl_str_mv |
Universidade Federal de Uberlândia |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFU instname:Universidade Federal de Uberlândia (UFU) instacron:UFU |
instname_str |
Universidade Federal de Uberlândia (UFU) |
instacron_str |
UFU |
institution |
UFU |
reponame_str |
Repositório Institucional da UFU |
collection |
Repositório Institucional da UFU |
bitstream.url.fl_str_mv |
https://repositorio.ufu.br/bitstream/123456789/27335/1/Depend%c3%aanciaEntreTermos.pdf https://repositorio.ufu.br/bitstream/123456789/27335/2/license_rdf https://repositorio.ufu.br/bitstream/123456789/27335/3/license.txt https://repositorio.ufu.br/bitstream/123456789/27335/4/Depend%c3%aanciaEntreTermos.pdf.txt https://repositorio.ufu.br/bitstream/123456789/27335/5/Depend%c3%aanciaEntreTermos.pdf.jpg |
bitstream.checksum.fl_str_mv |
f8a85d1bb89e76274284217328a01532 9868ccc48a14c8d591352b6eaf7f6239 48ded82ce41b8d2426af12aed6b3cbf3 a1f4cd28246db6f47d75e1ae73e7f6cd 9f389f8f03fb10b6d843f1a4e1befda2 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFU - Universidade Federal de Uberlândia (UFU) |
repository.mail.fl_str_mv |
diinf@dirbi.ufu.br |
_version_ |
1802110995671285760 |