Melhorias no processo de blocagem para resolução de entidades baseadas na relevância dos termos.
| Ano de defesa: | 2018 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Não Informado pela instituição
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | http://www.repositorio.ufop.br/handle/123456789/10336 |
Resumo: | Programa de Pós-Graduação em Ciência da Computação. Departamento de Ciência da Computação, Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto. |
| id |
UFOP_d858ee15696adf8ca305a7ff6eb7df2d |
|---|---|
| oai_identifier_str |
oai:repositorio.ufop.br:123456789/10336 |
| network_acronym_str |
UFOP |
| network_name_str |
Repositório Institucional da UFOP |
| repository_id_str |
|
| spelling |
Caldeira, Laís SoaresBianchi, Andrea Gomes CamposBianco, Guilherme DalFerreira, Anderson AlmeidaFerreira, Anderson Almeida2018-10-09T16:26:12Z2018-10-09T16:26:12Z2018CALDEIRA, Laís Soares. Melhorias no processo de blocagem para resolução de entidades baseadas na relevância dos termos. 2018. 62 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto, Ouro Preto, 2018.http://www.repositorio.ufop.br/handle/123456789/10336Programa de Pós-Graduação em Ciência da Computação. Departamento de Ciência da Computação, Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto.A extensa variedade de informações disponíveis na Web motivou o desenvolvimento de aplicações que integram dados heterogêneos vindos de diferentes fontes. A integração de dados tem como objetivo facilitar o acesso a informações fornecendo uma visão unificada dos dados. Uma tarefa importante no processo de integração de dados é a Resolução de Entidades, que visa identificar instâncias que se referem ao mesmo objeto do mundo real. Uma simples tarefa de Resolução de Entidades pode ser realizada comparando cada instância de uma coleção de dados com todas as outras, o que seria uma tarefa muito custosa para grandes coleções de dados. Nesse contexto, técnicas de blocagem são utilizadas para reduzir o número de comparações criando blocos que contêm as instâncias propensas a corresponder à mesma entidade no mundo real, de modo que a tarefa de Resolução de Entidades possa ser aplicada apenas a esses blocos. Técnicas de processamento de blocos aumentam ainda mais a eficiência, descartando comparações ou mesmo blocos inteiros que envolvam instâncias não correspondentes. Neste trabalho, é proposta uma forma de escolher termos para serem usados na etapa de blocagem e na etapa de processamento de blocos, baseado na relevância dos termos na coleção de dados, de modo a construir blocos que possibilitem encontrar o maior número de instâncias correspondentes, minimizando a quantidade de comparações desnecessárias. A proposta é avaliada comparando-a com trabalhos relevantes disponíveis na literatura. Os resultados mostram que a proposta reduz o tempo de processamento pela metade e melhora a qualidade dos blocos gerados, escalando eficientemente grandes coleções de dados altamente heterogêneos.The extensive variety of information available on Web has motivated the development of applications that integrate heterogeneous data from different sources. Data integration aims to facilitate access to information providing a unified view of the data. An important task in the data integration process is Entity Resolution, which aims to identify instances that refer to the same real-world object. A simple Entity Resolution task may compare instances from a collection each other, which would be a very costly task for large collections. In this context, blocking techniques are used to reduce the number of comparisons by creating blocks of instances that are prone to correspond to the same entity in the real world, applying the Entity Resolution task only in these blocks. Block processing techniques further increase efficiency by discarding comparisons or even entire blocks involving nonmatching instances. In this work, we propose a way of choosing terms to be used in the blocking step and in the block processing step based on the relevance of the terms in the databases, in order to construct blocks that allow us finding the largest number of corresponding instances minimizing the amount of unnecessary comparisons. We assess our proposal comparing it against relevant works available in the literature. The results show that our proposal decrease the run time by half, increasing the efficiency and quality of the blocks generated, efficiently scaling large databases highly heterogeneous.Autorização concedida ao Repositório Institucional da UFOP pelo(a) autor(a) em 04/10/2018 com as seguintes condições: disponível sob Licença Creative Commons 4.0 que permite copiar, distribuir e transmitir o trabalho desde que sejam citados o autor e o licenciante. Não permite o uso para fins comerciais nem a adaptação.info:eu-repo/semantics/openAccessProcessamento de dadosIntegração de dados - computaçãoMelhorias no processo de blocagem para resolução de entidades baseadas na relevância dos termos.info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporreponame:Repositório Institucional da UFOPinstname:Universidade Federal de Ouro Preto (UFOP)instacron:UFOPLICENSElicense.txtlicense.txttext/plain; charset=utf-8924https://www.repositorio.ufop.br/bitstreams/ef9b06cc-b32f-480e-a513-8de98b712bb9/download62604f8d955274beb56c80ce1ee5dcaeMD55falseAnonymousREADCC-LICENSElicense_urllicense_urltext/plain; charset=utf-849https://www.repositorio.ufop.br/bitstreams/4a1d9c4d-992e-4a91-8a09-4f80f4a8e69a/download4afdbb8c545fd630ea7db775da747b2fMD52falseAnonymousREADlicense_textlicense_texttext/html; charset=utf-80https://www.repositorio.ufop.br/bitstreams/bc09a995-ef28-43c6-b450-ec44673442d4/downloadd41d8cd98f00b204e9800998ecf8427eMD53falseAnonymousREADlicense_rdflicense_rdfapplication/rdf+xml; charset=utf-80https://www.repositorio.ufop.br/bitstreams/d26fa515-aa27-4f7e-9117-c2ea6205bdf5/downloadd41d8cd98f00b204e9800998ecf8427eMD54falseAnonymousREADORIGINALDISSERTAÇÃO_MelhoriasProcessoBlocagem.pdfDISSERTAÇÃO_MelhoriasProcessoBlocagem.pdfapplication/pdf2353673https://www.repositorio.ufop.br/bitstreams/393f6f78-5e72-464b-a1dd-8e709ca32165/download4d36b029ff46f983f0d60ae8783fad67MD51trueAnonymousREADTEXTDISSERTAÇÃO_MelhoriasProcessoBlocagem.pdf.txtDISSERTAÇÃO_MelhoriasProcessoBlocagem.pdf.txtExtracted texttext/plain118042https://www.repositorio.ufop.br/bitstreams/00299b6e-3157-4423-9de5-94e277a31320/downloaddd9c24959d4a23c57444c69b9c9a5b38MD56falseAnonymousREADTHUMBNAILDISSERTAÇÃO_MelhoriasProcessoBlocagem.pdf.jpgDISSERTAÇÃO_MelhoriasProcessoBlocagem.pdf.jpgGenerated Thumbnailimage/jpeg2634https://www.repositorio.ufop.br/bitstreams/8dc621f6-049b-4de7-bfcd-0672ddf77a03/download5e0da6a7c332ec3bec33c6972effd3b8MD57falseAnonymousREAD123456789/103362024-11-10 18:37:35.998open.accessoai:repositorio.ufop.br:123456789/10336https://www.repositorio.ufop.brRepositório InstitucionalPUBhttp://www.repositorio.ufop.br/oai/requestrepositorio@ufop.edu.bropendoar:32332024-11-10T21:37:35Repositório Institucional da UFOP - Universidade Federal de Ouro Preto (UFOP)falseRGVjbGFyYcOnw6NvIGRlIGRpc3RyaWJ1acOnw6NvIG7Do28tZXhjbHVzaXZhCgpPIHJlZmVyaWRvIGF1dG9yOgoKYSlEZWNsYXJhIHF1ZSBvIGRvY3VtZW50byBlbnRyZWd1ZSDDqSBzZXUgdHJhYmFsaG8gb3JpZ2luYWwgZSBxdWUgZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2UsIHRhbnRvIHF1YW50byBsaGUgw6kgcG9zc8OtdmVsIHNhYmVyLCBvcyBkaXJlaXRvcyBkZSBxdWFscXVlciBwZXNzb2Egb3UgZW50aWRhZGUuCgpiKVNlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIGNvbnTDqW0gbWF0ZXJpYWwgZG8gcXVhbCBuw6NvIGRldMOpbSBvcyBkaXJlaXRvcyBkZSBhdXRvciwgZGVjbGFyYSBxdWUgb2J0ZXZlIGF1dG9yaXphw6fDo28gZG8gZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGRlIGF1dG9yIHBhcmEgY29uY2VkZXIgw6AgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZGUgT3VybyBQcmV0by9VRk9QIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgbGljZW7Dp2EgZSBxdWUgZXNzZSBtYXRlcmlhbCwgY3Vqb3MgZGlyZWl0b3Mgc8OjbyBkZSB0ZXJjZWlyb3MsIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3UgY29udGXDumRvcyBkbyBkb2N1bWVudG8gZW50cmVndWUuCgpjKVNlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIMOpIGJhc2VhZG8gZW0gdHJhYmFsaG8gZmluYW5jaWFkbyBvdSBhcG9pYWRvIHBvciBvdXRyYSBpbnN0aXR1acOnw6NvIHF1ZSBuw6NvIGEgVUZPUCwgZGVjbGFyYSBxdWUgY3VtcHJpdSBxdWFpc3F1ZXIgb2JyaWdhw6fDtWVzIGV4aWdpZGFzIHBlbG8gY29udHJhdG8gb3UgYWNvcmRvLgoK |
| dc.title.pt_BR.fl_str_mv |
Melhorias no processo de blocagem para resolução de entidades baseadas na relevância dos termos. |
| title |
Melhorias no processo de blocagem para resolução de entidades baseadas na relevância dos termos. |
| spellingShingle |
Melhorias no processo de blocagem para resolução de entidades baseadas na relevância dos termos. Caldeira, Laís Soares Processamento de dados Integração de dados - computação |
| title_short |
Melhorias no processo de blocagem para resolução de entidades baseadas na relevância dos termos. |
| title_full |
Melhorias no processo de blocagem para resolução de entidades baseadas na relevância dos termos. |
| title_fullStr |
Melhorias no processo de blocagem para resolução de entidades baseadas na relevância dos termos. |
| title_full_unstemmed |
Melhorias no processo de blocagem para resolução de entidades baseadas na relevância dos termos. |
| title_sort |
Melhorias no processo de blocagem para resolução de entidades baseadas na relevância dos termos. |
| author |
Caldeira, Laís Soares |
| author_facet |
Caldeira, Laís Soares |
| author_role |
author |
| dc.contributor.referee.pt_BR.fl_str_mv |
Bianchi, Andrea Gomes Campos Bianco, Guilherme Dal Ferreira, Anderson Almeida |
| dc.contributor.author.fl_str_mv |
Caldeira, Laís Soares |
| dc.contributor.advisor1.fl_str_mv |
Ferreira, Anderson Almeida |
| contributor_str_mv |
Ferreira, Anderson Almeida |
| dc.subject.por.fl_str_mv |
Processamento de dados Integração de dados - computação |
| topic |
Processamento de dados Integração de dados - computação |
| description |
Programa de Pós-Graduação em Ciência da Computação. Departamento de Ciência da Computação, Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto. |
| publishDate |
2018 |
| dc.date.accessioned.fl_str_mv |
2018-10-09T16:26:12Z |
| dc.date.available.fl_str_mv |
2018-10-09T16:26:12Z |
| dc.date.issued.fl_str_mv |
2018 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.citation.fl_str_mv |
CALDEIRA, Laís Soares. Melhorias no processo de blocagem para resolução de entidades baseadas na relevância dos termos. 2018. 62 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto, Ouro Preto, 2018. |
| dc.identifier.uri.fl_str_mv |
http://www.repositorio.ufop.br/handle/123456789/10336 |
| identifier_str_mv |
CALDEIRA, Laís Soares. Melhorias no processo de blocagem para resolução de entidades baseadas na relevância dos termos. 2018. 62 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto, Ouro Preto, 2018. |
| url |
http://www.repositorio.ufop.br/handle/123456789/10336 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFOP instname:Universidade Federal de Ouro Preto (UFOP) instacron:UFOP |
| instname_str |
Universidade Federal de Ouro Preto (UFOP) |
| instacron_str |
UFOP |
| institution |
UFOP |
| reponame_str |
Repositório Institucional da UFOP |
| collection |
Repositório Institucional da UFOP |
| bitstream.url.fl_str_mv |
https://www.repositorio.ufop.br/bitstreams/ef9b06cc-b32f-480e-a513-8de98b712bb9/download https://www.repositorio.ufop.br/bitstreams/4a1d9c4d-992e-4a91-8a09-4f80f4a8e69a/download https://www.repositorio.ufop.br/bitstreams/bc09a995-ef28-43c6-b450-ec44673442d4/download https://www.repositorio.ufop.br/bitstreams/d26fa515-aa27-4f7e-9117-c2ea6205bdf5/download https://www.repositorio.ufop.br/bitstreams/393f6f78-5e72-464b-a1dd-8e709ca32165/download https://www.repositorio.ufop.br/bitstreams/00299b6e-3157-4423-9de5-94e277a31320/download https://www.repositorio.ufop.br/bitstreams/8dc621f6-049b-4de7-bfcd-0672ddf77a03/download |
| bitstream.checksum.fl_str_mv |
62604f8d955274beb56c80ce1ee5dcae 4afdbb8c545fd630ea7db775da747b2f d41d8cd98f00b204e9800998ecf8427e d41d8cd98f00b204e9800998ecf8427e 4d36b029ff46f983f0d60ae8783fad67 dd9c24959d4a23c57444c69b9c9a5b38 5e0da6a7c332ec3bec33c6972effd3b8 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositório Institucional da UFOP - Universidade Federal de Ouro Preto (UFOP) |
| repository.mail.fl_str_mv |
repositorio@ufop.edu.br |
| _version_ |
1862724444726755328 |