Melhorias no processo de blocagem para resolução de entidades baseadas na relevância dos termos.

Detalhes bibliográficos
Ano de defesa: 2018
Autor(a) principal: Caldeira, Laís Soares
Orientador(a): Ferreira, Anderson Almeida
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://www.repositorio.ufop.br/handle/123456789/10336
Resumo: Programa de Pós-Graduação em Ciência da Computação. Departamento de Ciência da Computação, Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto.
id UFOP_d858ee15696adf8ca305a7ff6eb7df2d
oai_identifier_str oai:repositorio.ufop.br:123456789/10336
network_acronym_str UFOP
network_name_str Repositório Institucional da UFOP
repository_id_str
spelling Caldeira, Laís SoaresBianchi, Andrea Gomes CamposBianco, Guilherme DalFerreira, Anderson AlmeidaFerreira, Anderson Almeida2018-10-09T16:26:12Z2018-10-09T16:26:12Z2018CALDEIRA, Laís Soares. Melhorias no processo de blocagem para resolução de entidades baseadas na relevância dos termos. 2018. 62 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto, Ouro Preto, 2018.http://www.repositorio.ufop.br/handle/123456789/10336Programa de Pós-Graduação em Ciência da Computação. Departamento de Ciência da Computação, Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto.A extensa variedade de informações disponíveis na Web motivou o desenvolvimento de aplicações que integram dados heterogêneos vindos de diferentes fontes. A integração de dados tem como objetivo facilitar o acesso a informações fornecendo uma visão unificada dos dados. Uma tarefa importante no processo de integração de dados é a Resolução de Entidades, que visa identificar instâncias que se referem ao mesmo objeto do mundo real. Uma simples tarefa de Resolução de Entidades pode ser realizada comparando cada instância de uma coleção de dados com todas as outras, o que seria uma tarefa muito custosa para grandes coleções de dados. Nesse contexto, técnicas de blocagem são utilizadas para reduzir o número de comparações criando blocos que contêm as instâncias propensas a corresponder à mesma entidade no mundo real, de modo que a tarefa de Resolução de Entidades possa ser aplicada apenas a esses blocos. Técnicas de processamento de blocos aumentam ainda mais a eficiência, descartando comparações ou mesmo blocos inteiros que envolvam instâncias não correspondentes. Neste trabalho, é proposta uma forma de escolher termos para serem usados na etapa de blocagem e na etapa de processamento de blocos, baseado na relevância dos termos na coleção de dados, de modo a construir blocos que possibilitem encontrar o maior número de instâncias correspondentes, minimizando a quantidade de comparações desnecessárias. A proposta é avaliada comparando-a com trabalhos relevantes disponíveis na literatura. Os resultados mostram que a proposta reduz o tempo de processamento pela metade e melhora a qualidade dos blocos gerados, escalando eficientemente grandes coleções de dados altamente heterogêneos.The extensive variety of information available on Web has motivated the development of applications that integrate heterogeneous data from different sources. Data integration aims to facilitate access to information providing a unified view of the data. An important task in the data integration process is Entity Resolution, which aims to identify instances that refer to the same real-world object. A simple Entity Resolution task may compare instances from a collection each other, which would be a very costly task for large collections. In this context, blocking techniques are used to reduce the number of comparisons by creating blocks of instances that are prone to correspond to the same entity in the real world, applying the Entity Resolution task only in these blocks. Block processing techniques further increase efficiency by discarding comparisons or even entire blocks involving nonmatching instances. In this work, we propose a way of choosing terms to be used in the blocking step and in the block processing step based on the relevance of the terms in the databases, in order to construct blocks that allow us finding the largest number of corresponding instances minimizing the amount of unnecessary comparisons. We assess our proposal comparing it against relevant works available in the literature. The results show that our proposal decrease the run time by half, increasing the efficiency and quality of the blocks generated, efficiently scaling large databases highly heterogeneous.Autorização concedida ao Repositório Institucional da UFOP pelo(a) autor(a) em 04/10/2018 com as seguintes condições: disponível sob Licença Creative Commons 4.0 que permite copiar, distribuir e transmitir o trabalho desde que sejam citados o autor e o licenciante. Não permite o uso para fins comerciais nem a adaptação.info:eu-repo/semantics/openAccessProcessamento de dadosIntegração de dados - computaçãoMelhorias no processo de blocagem para resolução de entidades baseadas na relevância dos termos.info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporreponame:Repositório Institucional da UFOPinstname:Universidade Federal de Ouro Preto (UFOP)instacron:UFOPLICENSElicense.txtlicense.txttext/plain; charset=utf-8924https://www.repositorio.ufop.br/bitstreams/ef9b06cc-b32f-480e-a513-8de98b712bb9/download62604f8d955274beb56c80ce1ee5dcaeMD55falseAnonymousREADCC-LICENSElicense_urllicense_urltext/plain; charset=utf-849https://www.repositorio.ufop.br/bitstreams/4a1d9c4d-992e-4a91-8a09-4f80f4a8e69a/download4afdbb8c545fd630ea7db775da747b2fMD52falseAnonymousREADlicense_textlicense_texttext/html; charset=utf-80https://www.repositorio.ufop.br/bitstreams/bc09a995-ef28-43c6-b450-ec44673442d4/downloadd41d8cd98f00b204e9800998ecf8427eMD53falseAnonymousREADlicense_rdflicense_rdfapplication/rdf+xml; charset=utf-80https://www.repositorio.ufop.br/bitstreams/d26fa515-aa27-4f7e-9117-c2ea6205bdf5/downloadd41d8cd98f00b204e9800998ecf8427eMD54falseAnonymousREADORIGINALDISSERTAÇÃO_MelhoriasProcessoBlocagem.pdfDISSERTAÇÃO_MelhoriasProcessoBlocagem.pdfapplication/pdf2353673https://www.repositorio.ufop.br/bitstreams/393f6f78-5e72-464b-a1dd-8e709ca32165/download4d36b029ff46f983f0d60ae8783fad67MD51trueAnonymousREADTEXTDISSERTAÇÃO_MelhoriasProcessoBlocagem.pdf.txtDISSERTAÇÃO_MelhoriasProcessoBlocagem.pdf.txtExtracted texttext/plain118042https://www.repositorio.ufop.br/bitstreams/00299b6e-3157-4423-9de5-94e277a31320/downloaddd9c24959d4a23c57444c69b9c9a5b38MD56falseAnonymousREADTHUMBNAILDISSERTAÇÃO_MelhoriasProcessoBlocagem.pdf.jpgDISSERTAÇÃO_MelhoriasProcessoBlocagem.pdf.jpgGenerated Thumbnailimage/jpeg2634https://www.repositorio.ufop.br/bitstreams/8dc621f6-049b-4de7-bfcd-0672ddf77a03/download5e0da6a7c332ec3bec33c6972effd3b8MD57falseAnonymousREAD123456789/103362024-11-10 18:37:35.998open.accessoai:repositorio.ufop.br:123456789/10336https://www.repositorio.ufop.brRepositório InstitucionalPUBhttp://www.repositorio.ufop.br/oai/requestrepositorio@ufop.edu.bropendoar:32332024-11-10T21:37:35Repositório Institucional da UFOP - Universidade Federal de Ouro Preto (UFOP)falseRGVjbGFyYcOnw6NvIGRlIGRpc3RyaWJ1acOnw6NvIG7Do28tZXhjbHVzaXZhCgpPIHJlZmVyaWRvIGF1dG9yOgoKYSlEZWNsYXJhIHF1ZSBvIGRvY3VtZW50byBlbnRyZWd1ZSDDqSBzZXUgdHJhYmFsaG8gb3JpZ2luYWwgZSBxdWUgZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2UsIHRhbnRvIHF1YW50byBsaGUgw6kgcG9zc8OtdmVsIHNhYmVyLCBvcyBkaXJlaXRvcyBkZSBxdWFscXVlciBwZXNzb2Egb3UgZW50aWRhZGUuCgpiKVNlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIGNvbnTDqW0gbWF0ZXJpYWwgZG8gcXVhbCBuw6NvIGRldMOpbSBvcyBkaXJlaXRvcyBkZSBhdXRvciwgZGVjbGFyYSBxdWUgb2J0ZXZlIGF1dG9yaXphw6fDo28gZG8gZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGRlIGF1dG9yIHBhcmEgY29uY2VkZXIgw6AgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZGUgT3VybyBQcmV0by9VRk9QIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgbGljZW7Dp2EgZSBxdWUgZXNzZSBtYXRlcmlhbCwgY3Vqb3MgZGlyZWl0b3Mgc8OjbyBkZSB0ZXJjZWlyb3MsIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3UgY29udGXDumRvcyBkbyBkb2N1bWVudG8gZW50cmVndWUuCgpjKVNlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIMOpIGJhc2VhZG8gZW0gdHJhYmFsaG8gZmluYW5jaWFkbyBvdSBhcG9pYWRvIHBvciBvdXRyYSBpbnN0aXR1acOnw6NvIHF1ZSBuw6NvIGEgVUZPUCwgZGVjbGFyYSBxdWUgY3VtcHJpdSBxdWFpc3F1ZXIgb2JyaWdhw6fDtWVzIGV4aWdpZGFzIHBlbG8gY29udHJhdG8gb3UgYWNvcmRvLgoK
dc.title.pt_BR.fl_str_mv Melhorias no processo de blocagem para resolução de entidades baseadas na relevância dos termos.
title Melhorias no processo de blocagem para resolução de entidades baseadas na relevância dos termos.
spellingShingle Melhorias no processo de blocagem para resolução de entidades baseadas na relevância dos termos.
Caldeira, Laís Soares
Processamento de dados
Integração de dados - computação
title_short Melhorias no processo de blocagem para resolução de entidades baseadas na relevância dos termos.
title_full Melhorias no processo de blocagem para resolução de entidades baseadas na relevância dos termos.
title_fullStr Melhorias no processo de blocagem para resolução de entidades baseadas na relevância dos termos.
title_full_unstemmed Melhorias no processo de blocagem para resolução de entidades baseadas na relevância dos termos.
title_sort Melhorias no processo de blocagem para resolução de entidades baseadas na relevância dos termos.
author Caldeira, Laís Soares
author_facet Caldeira, Laís Soares
author_role author
dc.contributor.referee.pt_BR.fl_str_mv Bianchi, Andrea Gomes Campos
Bianco, Guilherme Dal
Ferreira, Anderson Almeida
dc.contributor.author.fl_str_mv Caldeira, Laís Soares
dc.contributor.advisor1.fl_str_mv Ferreira, Anderson Almeida
contributor_str_mv Ferreira, Anderson Almeida
dc.subject.por.fl_str_mv Processamento de dados
Integração de dados - computação
topic Processamento de dados
Integração de dados - computação
description Programa de Pós-Graduação em Ciência da Computação. Departamento de Ciência da Computação, Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto.
publishDate 2018
dc.date.accessioned.fl_str_mv 2018-10-09T16:26:12Z
dc.date.available.fl_str_mv 2018-10-09T16:26:12Z
dc.date.issued.fl_str_mv 2018
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv CALDEIRA, Laís Soares. Melhorias no processo de blocagem para resolução de entidades baseadas na relevância dos termos. 2018. 62 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto, Ouro Preto, 2018.
dc.identifier.uri.fl_str_mv http://www.repositorio.ufop.br/handle/123456789/10336
identifier_str_mv CALDEIRA, Laís Soares. Melhorias no processo de blocagem para resolução de entidades baseadas na relevância dos termos. 2018. 62 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto, Ouro Preto, 2018.
url http://www.repositorio.ufop.br/handle/123456789/10336
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFOP
instname:Universidade Federal de Ouro Preto (UFOP)
instacron:UFOP
instname_str Universidade Federal de Ouro Preto (UFOP)
instacron_str UFOP
institution UFOP
reponame_str Repositório Institucional da UFOP
collection Repositório Institucional da UFOP
bitstream.url.fl_str_mv https://www.repositorio.ufop.br/bitstreams/ef9b06cc-b32f-480e-a513-8de98b712bb9/download
https://www.repositorio.ufop.br/bitstreams/4a1d9c4d-992e-4a91-8a09-4f80f4a8e69a/download
https://www.repositorio.ufop.br/bitstreams/bc09a995-ef28-43c6-b450-ec44673442d4/download
https://www.repositorio.ufop.br/bitstreams/d26fa515-aa27-4f7e-9117-c2ea6205bdf5/download
https://www.repositorio.ufop.br/bitstreams/393f6f78-5e72-464b-a1dd-8e709ca32165/download
https://www.repositorio.ufop.br/bitstreams/00299b6e-3157-4423-9de5-94e277a31320/download
https://www.repositorio.ufop.br/bitstreams/8dc621f6-049b-4de7-bfcd-0672ddf77a03/download
bitstream.checksum.fl_str_mv 62604f8d955274beb56c80ce1ee5dcae
4afdbb8c545fd630ea7db775da747b2f
d41d8cd98f00b204e9800998ecf8427e
d41d8cd98f00b204e9800998ecf8427e
4d36b029ff46f983f0d60ae8783fad67
dd9c24959d4a23c57444c69b9c9a5b38
5e0da6a7c332ec3bec33c6972effd3b8
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFOP - Universidade Federal de Ouro Preto (UFOP)
repository.mail.fl_str_mv repositorio@ufop.edu.br
_version_ 1862724444726755328