Exportação concluída — 

Enriquecimento de dados: uma pré-etapa em relação à limpeza de dados

Detalhes bibliográficos
Ano de defesa: 2012
Autor(a) principal: Carreira , Juliano Augusto [UNESP]
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Estadual Paulista (Unesp)
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://hdl.handle.net/11449/89340
Resumo: A incidência de tuplas duplicadas é um problema significativo e inerente às grandes bases de dados atuais. Trata-se da repetição de registros que, na maioria das vezes, são representados de formas diferentes nas bases de dados, mas fazem referência a uma mesma entidade do mundo real, tornando, assim, a tarefa de identificação das duplicatas um trabalho árduo. As técnicas designadas para o tratamento deste tipo de problema são geralmente genéricas. Isso significa que não levam em consideração as características particulares dos idiomas o que, de certa forma, inibe a maximização quantitativa e qualitativa das tuplas duplicadas identificadas. Este trabalho propõe a criação de uma pré-etapa – intitulada “enriquecimento” – referente ao processo de identificação de tuplas duplicadas. Tal processo baseia-se no favorecimento do idioma e se dá por meio da utilização de regras de linguagem pré-definidas, de forma genérica, para cada idioma desejado. Assim, consegue-se enriquecer os registros de entrada, definidos em qualquer idioma, e, com a aproximação ortográfica que o enriquecimento proporciona, consegue-se aumentar a quantidade de tuplas duplicadas e/ou melhorar o nível de confiança em relação aos pares de tuplas duplicadas identificadas pelo processo
id UNSP_311c8c4023dbf4aa3e9ec32a09540bfb
oai_identifier_str oai:repositorio.unesp.br:11449/89340
network_acronym_str UNSP
network_name_str Repositório Institucional da UNESP
repository_id_str
spelling Enriquecimento de dados: uma pré-etapa em relação à limpeza de dadosBanco de dados - LimpezaBases de dados - Tuplas duplicadasDatabases - Duplicate tuplesA incidência de tuplas duplicadas é um problema significativo e inerente às grandes bases de dados atuais. Trata-se da repetição de registros que, na maioria das vezes, são representados de formas diferentes nas bases de dados, mas fazem referência a uma mesma entidade do mundo real, tornando, assim, a tarefa de identificação das duplicatas um trabalho árduo. As técnicas designadas para o tratamento deste tipo de problema são geralmente genéricas. Isso significa que não levam em consideração as características particulares dos idiomas o que, de certa forma, inibe a maximização quantitativa e qualitativa das tuplas duplicadas identificadas. Este trabalho propõe a criação de uma pré-etapa – intitulada “enriquecimento” – referente ao processo de identificação de tuplas duplicadas. Tal processo baseia-se no favorecimento do idioma e se dá por meio da utilização de regras de linguagem pré-definidas, de forma genérica, para cada idioma desejado. Assim, consegue-se enriquecer os registros de entrada, definidos em qualquer idioma, e, com a aproximação ortográfica que o enriquecimento proporciona, consegue-se aumentar a quantidade de tuplas duplicadas e/ou melhorar o nível de confiança em relação aos pares de tuplas duplicadas identificadas pelo processoThe incidence of duplicate tuples is a significant problem inherent in current large databases. It is the repetition of records that, in most cases, are represented differently in the database but refer to the same real world entity thus making the task of identifying duplicates a hard work. The techniques designed to treat this type of problem are usually generic. That means they do not take into account the particular characteristics of the languages that somehow inhibits the quantitative and qualitative maximization of duplicate tuples identified. This dissertation proposes the creation of a pre-step - called enrichment – in relation to the process of duplicate tuples identification. This process is based on the language favoring and is through the use of predefined language rules in a general way for each language. Thus, it is possible to enrich the input records defined in any language and considering the spell approximation provided by the enrichment process, it is possible to increase the amount of duplicate tuples and/or improve the level of trust in relation to the pairs of duplicate tuples identified by the processUniversidade Estadual Paulista (Unesp)Valêncio, Carlos Roberto [UNESP]Universidade Estadual Paulista (Unesp)Carreira , Juliano Augusto [UNESP]2014-06-11T19:24:01Z2014-06-11T19:24:01Z2012-07-12info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis76 f. : il.application/pdfCARREIRA , Juliano Augusto. Enriquecimento de dados: uma pré-etapa em relação à limpeza de dados. 2012. 76 f. Dissertação (mestrado) - Universidade Estadual Paulista, Instituto de Biociências, Letras e Ciências Exatas, 2012.http://hdl.handle.net/11449/89340000692870carreira_ja_me_sjrp.pdf33004153073P2Alephreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESPporinfo:eu-repo/semantics/openAccess2024-11-05T13:25:45Zoai:repositorio.unesp.br:11449/89340Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestrepositoriounesp@unesp.bropendoar:29462024-11-05T13:25:45Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false
dc.title.none.fl_str_mv Enriquecimento de dados: uma pré-etapa em relação à limpeza de dados
title Enriquecimento de dados: uma pré-etapa em relação à limpeza de dados
spellingShingle Enriquecimento de dados: uma pré-etapa em relação à limpeza de dados
Carreira , Juliano Augusto [UNESP]
Banco de dados - Limpeza
Bases de dados - Tuplas duplicadas
Databases - Duplicate tuples
title_short Enriquecimento de dados: uma pré-etapa em relação à limpeza de dados
title_full Enriquecimento de dados: uma pré-etapa em relação à limpeza de dados
title_fullStr Enriquecimento de dados: uma pré-etapa em relação à limpeza de dados
title_full_unstemmed Enriquecimento de dados: uma pré-etapa em relação à limpeza de dados
title_sort Enriquecimento de dados: uma pré-etapa em relação à limpeza de dados
author Carreira , Juliano Augusto [UNESP]
author_facet Carreira , Juliano Augusto [UNESP]
author_role author
dc.contributor.none.fl_str_mv Valêncio, Carlos Roberto [UNESP]
Universidade Estadual Paulista (Unesp)
dc.contributor.author.fl_str_mv Carreira , Juliano Augusto [UNESP]
dc.subject.por.fl_str_mv Banco de dados - Limpeza
Bases de dados - Tuplas duplicadas
Databases - Duplicate tuples
topic Banco de dados - Limpeza
Bases de dados - Tuplas duplicadas
Databases - Duplicate tuples
description A incidência de tuplas duplicadas é um problema significativo e inerente às grandes bases de dados atuais. Trata-se da repetição de registros que, na maioria das vezes, são representados de formas diferentes nas bases de dados, mas fazem referência a uma mesma entidade do mundo real, tornando, assim, a tarefa de identificação das duplicatas um trabalho árduo. As técnicas designadas para o tratamento deste tipo de problema são geralmente genéricas. Isso significa que não levam em consideração as características particulares dos idiomas o que, de certa forma, inibe a maximização quantitativa e qualitativa das tuplas duplicadas identificadas. Este trabalho propõe a criação de uma pré-etapa – intitulada “enriquecimento” – referente ao processo de identificação de tuplas duplicadas. Tal processo baseia-se no favorecimento do idioma e se dá por meio da utilização de regras de linguagem pré-definidas, de forma genérica, para cada idioma desejado. Assim, consegue-se enriquecer os registros de entrada, definidos em qualquer idioma, e, com a aproximação ortográfica que o enriquecimento proporciona, consegue-se aumentar a quantidade de tuplas duplicadas e/ou melhorar o nível de confiança em relação aos pares de tuplas duplicadas identificadas pelo processo
publishDate 2012
dc.date.none.fl_str_mv 2012-07-12
2014-06-11T19:24:01Z
2014-06-11T19:24:01Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv CARREIRA , Juliano Augusto. Enriquecimento de dados: uma pré-etapa em relação à limpeza de dados. 2012. 76 f. Dissertação (mestrado) - Universidade Estadual Paulista, Instituto de Biociências, Letras e Ciências Exatas, 2012.
http://hdl.handle.net/11449/89340
000692870
carreira_ja_me_sjrp.pdf
33004153073P2
identifier_str_mv CARREIRA , Juliano Augusto. Enriquecimento de dados: uma pré-etapa em relação à limpeza de dados. 2012. 76 f. Dissertação (mestrado) - Universidade Estadual Paulista, Instituto de Biociências, Letras e Ciências Exatas, 2012.
000692870
carreira_ja_me_sjrp.pdf
33004153073P2
url http://hdl.handle.net/11449/89340
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 76 f. : il.
application/pdf
dc.publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
dc.source.none.fl_str_mv Aleph
reponame:Repositório Institucional da UNESP
instname:Universidade Estadual Paulista (UNESP)
instacron:UNESP
instname_str Universidade Estadual Paulista (UNESP)
instacron_str UNESP
institution UNESP
reponame_str Repositório Institucional da UNESP
collection Repositório Institucional da UNESP
repository.name.fl_str_mv Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)
repository.mail.fl_str_mv repositoriounesp@unesp.br
_version_ 1854954588043476992