Avaliação experimental de uma técnica de padronização de escores de similaridade

Detalhes bibliográficos
Ano de defesa: 2009
Autor(a) principal: Nunes, Marcos Freitas
Orientador(a): Heuser, Carlos Alberto
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Link de acesso: http://hdl.handle.net/10183/25494
Resumo: Com o crescimento e a facilidade de acesso a Internet, o volume de dados cresceu muito nos últimos anos e, consequentemente, ficou muito fácil o acesso a bases de dados remotas, permitindo integrar dados fisicamente distantes. Geralmente, instâncias de um mesmo objeto no mundo real, originadas de bases distintas, apresentam diferenças na representação de seus valores, ou seja, os mesmos dados no mundo real podem ser representados de formas diferentes. Neste contexto, surgiram os estudos sobre casamento aproximado utilizando funções de similaridade. Por consequência, surgiu a dificuldade de entender os resultados das funções e selecionar limiares ideais. Quando se trata de casamento de agregados (registros), existe o problema de combinar os escores de similaridade, pois funções distintas possuem distribuições diferentes. Com objetivo de contornar este problema, foi desenvolvida em um trabalho anterior uma técnica de padronização de escores, que propõe substituir o escore calculado pela função de similaridade por um escore ajustado (calculado através de um treinamento), o qual é intuitivo para o usuário e pode ser combinado no processo de casamento de registros. Tal técnica foi desenvolvida por uma aluna de doutorado do grupo de Banco de Dados da UFRGS e será chamada aqui de MeaningScore (DORNELES et al., 2007). O presente trabalho visa estudar e realizar uma avaliação experimental detalhada da técnica MeaningScore. Com o final do processo de avaliação aqui executado, é possível afirmar que a utilização da abordagem MeaningScore é válida e retorna melhores resultados. No processo de casamento de registros, onde escores de similaridades distintos devem ser combinados, a utilização deste escore padronizado ao invés do escore original, retornado pela função de similaridade, produz resultados com maior qualidade.
id URGS_dd6cb6074efe3398e27619ea740d474c
oai_identifier_str oai:www.lume.ufrgs.br:10183/25494
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str
spelling Nunes, Marcos FreitasHeuser, Carlos Alberto2010-09-02T04:18:47Z2009http://hdl.handle.net/10183/25494000746331Com o crescimento e a facilidade de acesso a Internet, o volume de dados cresceu muito nos últimos anos e, consequentemente, ficou muito fácil o acesso a bases de dados remotas, permitindo integrar dados fisicamente distantes. Geralmente, instâncias de um mesmo objeto no mundo real, originadas de bases distintas, apresentam diferenças na representação de seus valores, ou seja, os mesmos dados no mundo real podem ser representados de formas diferentes. Neste contexto, surgiram os estudos sobre casamento aproximado utilizando funções de similaridade. Por consequência, surgiu a dificuldade de entender os resultados das funções e selecionar limiares ideais. Quando se trata de casamento de agregados (registros), existe o problema de combinar os escores de similaridade, pois funções distintas possuem distribuições diferentes. Com objetivo de contornar este problema, foi desenvolvida em um trabalho anterior uma técnica de padronização de escores, que propõe substituir o escore calculado pela função de similaridade por um escore ajustado (calculado através de um treinamento), o qual é intuitivo para o usuário e pode ser combinado no processo de casamento de registros. Tal técnica foi desenvolvida por uma aluna de doutorado do grupo de Banco de Dados da UFRGS e será chamada aqui de MeaningScore (DORNELES et al., 2007). O presente trabalho visa estudar e realizar uma avaliação experimental detalhada da técnica MeaningScore. Com o final do processo de avaliação aqui executado, é possível afirmar que a utilização da abordagem MeaningScore é válida e retorna melhores resultados. No processo de casamento de registros, onde escores de similaridades distintos devem ser combinados, a utilização deste escore padronizado ao invés do escore original, retornado pela função de similaridade, produz resultados com maior qualidade.With the growth of the Web, the volume of information grew considerably over the past years, and consequently, the access to remote databases became easier, which allows the integration of distributed information. Usually, instances of the same object in the real world, originated from distinct databases, present differences in the representation of their values, which means that the same information can be represented in different ways. In this context, research on approximate matching using similarity functions arises. As a consequence, there is a need to understand the result of the functions and to select ideal thresholds. Also, when matching records, there is the problem of combining the similarity scores, since distinct functions have different distributions. With the purpose of overcoming this problem, a previous work developed a technique that standardizes the scores, by replacing the computed score by an adjusted score (computed through a training), which is more intuitive for the user and can be combined in the process of record matching. This work was developed by a Phd student from the UFRGS database research group, and is referred to as MeaningScore (DORNELES et al., 2007). The present work intends to study and perform an experimental evaluation of this technique. As the validation shows, it is possible to say that the usage of the MeaningScore approach is valid and return better results. In the process of record matching, where distinct similarity must be combined, the usage of the adjusted score produces results with higher quality.application/pdfporArmazenamento : DadosBanco : DadosMétricas : SimilaridadeConsulta : SimilaridadeSimilarity queryingData integrationData cleaningRecord matchingAdjusted scoreData qualityAvaliação experimental de uma técnica de padronização de escores de similaridadeExperimental evaluation of a similarity score standardization technique info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2009mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000746331.pdf000746331.pdfTexto completoapplication/pdf529464http://www.lume.ufrgs.br/bitstream/10183/25494/1/000746331.pdf7a32313221abf23954f08b972d1a1ab9MD51TEXT000746331.pdf.txt000746331.pdf.txtExtracted Texttext/plain172349http://www.lume.ufrgs.br/bitstream/10183/25494/2/000746331.pdf.txt3685c26b7d90e39e699e20655697cf98MD52THUMBNAIL000746331.pdf.jpg000746331.pdf.jpgGenerated Thumbnailimage/jpeg1022http://www.lume.ufrgs.br/bitstream/10183/25494/3/000746331.pdf.jpgf0569ffc2f2fefdca27feaf9be199f5aMD5310183/254942018-10-18 07:30:58.664oai:www.lume.ufrgs.br:10183/25494Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532018-10-18T10:30:58Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Avaliação experimental de uma técnica de padronização de escores de similaridade
dc.title.alternative.en.fl_str_mv Experimental evaluation of a similarity score standardization technique
title Avaliação experimental de uma técnica de padronização de escores de similaridade
spellingShingle Avaliação experimental de uma técnica de padronização de escores de similaridade
Nunes, Marcos Freitas
Armazenamento : Dados
Banco : Dados
Métricas : Similaridade
Consulta : Similaridade
Similarity querying
Data integration
Data cleaning
Record matching
Adjusted score
Data quality
title_short Avaliação experimental de uma técnica de padronização de escores de similaridade
title_full Avaliação experimental de uma técnica de padronização de escores de similaridade
title_fullStr Avaliação experimental de uma técnica de padronização de escores de similaridade
title_full_unstemmed Avaliação experimental de uma técnica de padronização de escores de similaridade
title_sort Avaliação experimental de uma técnica de padronização de escores de similaridade
author Nunes, Marcos Freitas
author_facet Nunes, Marcos Freitas
author_role author
dc.contributor.author.fl_str_mv Nunes, Marcos Freitas
dc.contributor.advisor1.fl_str_mv Heuser, Carlos Alberto
contributor_str_mv Heuser, Carlos Alberto
dc.subject.por.fl_str_mv Armazenamento : Dados
Banco : Dados
Métricas : Similaridade
Consulta : Similaridade
topic Armazenamento : Dados
Banco : Dados
Métricas : Similaridade
Consulta : Similaridade
Similarity querying
Data integration
Data cleaning
Record matching
Adjusted score
Data quality
dc.subject.eng.fl_str_mv Similarity querying
Data integration
Data cleaning
Record matching
Adjusted score
Data quality
description Com o crescimento e a facilidade de acesso a Internet, o volume de dados cresceu muito nos últimos anos e, consequentemente, ficou muito fácil o acesso a bases de dados remotas, permitindo integrar dados fisicamente distantes. Geralmente, instâncias de um mesmo objeto no mundo real, originadas de bases distintas, apresentam diferenças na representação de seus valores, ou seja, os mesmos dados no mundo real podem ser representados de formas diferentes. Neste contexto, surgiram os estudos sobre casamento aproximado utilizando funções de similaridade. Por consequência, surgiu a dificuldade de entender os resultados das funções e selecionar limiares ideais. Quando se trata de casamento de agregados (registros), existe o problema de combinar os escores de similaridade, pois funções distintas possuem distribuições diferentes. Com objetivo de contornar este problema, foi desenvolvida em um trabalho anterior uma técnica de padronização de escores, que propõe substituir o escore calculado pela função de similaridade por um escore ajustado (calculado através de um treinamento), o qual é intuitivo para o usuário e pode ser combinado no processo de casamento de registros. Tal técnica foi desenvolvida por uma aluna de doutorado do grupo de Banco de Dados da UFRGS e será chamada aqui de MeaningScore (DORNELES et al., 2007). O presente trabalho visa estudar e realizar uma avaliação experimental detalhada da técnica MeaningScore. Com o final do processo de avaliação aqui executado, é possível afirmar que a utilização da abordagem MeaningScore é válida e retorna melhores resultados. No processo de casamento de registros, onde escores de similaridades distintos devem ser combinados, a utilização deste escore padronizado ao invés do escore original, retornado pela função de similaridade, produz resultados com maior qualidade.
publishDate 2009
dc.date.issued.fl_str_mv 2009
dc.date.accessioned.fl_str_mv 2010-09-02T04:18:47Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/25494
dc.identifier.nrb.pt_BR.fl_str_mv 000746331
url http://hdl.handle.net/10183/25494
identifier_str_mv 000746331
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/25494/1/000746331.pdf
http://www.lume.ufrgs.br/bitstream/10183/25494/2/000746331.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/25494/3/000746331.pdf.jpg
bitstream.checksum.fl_str_mv 7a32313221abf23954f08b972d1a1ab9
3685c26b7d90e39e699e20655697cf98
f0569ffc2f2fefdca27feaf9be199f5a
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br||lume@ufrgs.br
_version_ 1831315880669085696