Enriquecimento de dados: uma pré-etapa em relação à limpeza de dados

Carreira , Juliano Augusto [UNESP]

Enriquecimento de dados: uma pré-etapa em relação à limpeza de dados

Detalhes bibliográficos
Ano de defesa:	2012
Autor(a) principal:	Carreira , Juliano Augusto [UNESP]
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade Estadual Paulista (Unesp)
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Banco de dados - Limpeza Bases de dados - Tuplas duplicadas Databases - Duplicate tuples
Link de acesso:	http://hdl.handle.net/11449/89340
Resumo:	A incidência de tuplas duplicadas é um problema significativo e inerente às grandes bases de dados atuais. Trata-se da repetição de registros que, na maioria das vezes, são representados de formas diferentes nas bases de dados, mas fazem referência a uma mesma entidade do mundo real, tornando, assim, a tarefa de identificação das duplicatas um trabalho árduo. As técnicas designadas para o tratamento deste tipo de problema são geralmente genéricas. Isso significa que não levam em consideração as características particulares dos idiomas o que, de certa forma, inibe a maximização quantitativa e qualitativa das tuplas duplicadas identificadas. Este trabalho propõe a criação de uma pré-etapa – intitulada “enriquecimento” – referente ao processo de identificação de tuplas duplicadas. Tal processo baseia-se no favorecimento do idioma e se dá por meio da utilização de regras de linguagem pré-definidas, de forma genérica, para cada idioma desejado. Assim, consegue-se enriquecer os registros de entrada, definidos em qualquer idioma, e, com a aproximação ortográfica que o enriquecimento proporciona, consegue-se aumentar a quantidade de tuplas duplicadas e/ou melhorar o nível de confiança em relação aos pares de tuplas duplicadas identificadas pelo processo

Metadados do item

id	UNSP_311c8c4023dbf4aa3e9ec32a09540bfb
oai_identifier_str	oai:repositorio.unesp.br:11449/89340
network_acronym_str	UNSP
network_name_str	Repositório Institucional da UNESP
repository_id_str
spelling	Enriquecimento de dados: uma pré-etapa em relação à limpeza de dadosBanco de dados - LimpezaBases de dados - Tuplas duplicadasDatabases - Duplicate tuplesA incidência de tuplas duplicadas é um problema significativo e inerente às grandes bases de dados atuais. Trata-se da repetição de registros que, na maioria das vezes, são representados de formas diferentes nas bases de dados, mas fazem referência a uma mesma entidade do mundo real, tornando, assim, a tarefa de identificação das duplicatas um trabalho árduo. As técnicas designadas para o tratamento deste tipo de problema são geralmente genéricas. Isso significa que não levam em consideração as características particulares dos idiomas o que, de certa forma, inibe a maximização quantitativa e qualitativa das tuplas duplicadas identificadas. Este trabalho propõe a criação de uma pré-etapa – intitulada “enriquecimento” – referente ao processo de identificação de tuplas duplicadas. Tal processo baseia-se no favorecimento do idioma e se dá por meio da utilização de regras de linguagem pré-definidas, de forma genérica, para cada idioma desejado. Assim, consegue-se enriquecer os registros de entrada, definidos em qualquer idioma, e, com a aproximação ortográfica que o enriquecimento proporciona, consegue-se aumentar a quantidade de tuplas duplicadas e/ou melhorar o nível de confiança em relação aos pares de tuplas duplicadas identificadas pelo processoThe incidence of duplicate tuples is a significant problem inherent in current large databases. It is the repetition of records that, in most cases, are represented differently in the database but refer to the same real world entity thus making the task of identifying duplicates a hard work. The techniques designed to treat this type of problem are usually generic. That means they do not take into account the particular characteristics of the languages that somehow inhibits the quantitative and qualitative maximization of duplicate tuples identified. This dissertation proposes the creation of a pre-step - called enrichment – in relation to the process of duplicate tuples identification. This process is based on the language favoring and is through the use of predefined language rules in a general way for each language. Thus, it is possible to enrich the input records defined in any language and considering the spell approximation provided by the enrichment process, it is possible to increase the amount of duplicate tuples and/or improve the level of trust in relation to the pairs of duplicate tuples identified by the processUniversidade Estadual Paulista (Unesp)Valêncio, Carlos Roberto [UNESP]Universidade Estadual Paulista (Unesp)Carreira , Juliano Augusto [UNESP]2014-06-11T19:24:01Z2014-06-11T19:24:01Z2012-07-12info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis76 f. : il.application/pdfCARREIRA , Juliano Augusto. Enriquecimento de dados: uma pré-etapa em relação à limpeza de dados. 2012. 76 f. Dissertação (mestrado) - Universidade Estadual Paulista, Instituto de Biociências, Letras e Ciências Exatas, 2012.http://hdl.handle.net/11449/89340000692870carreira_ja_me_sjrp.pdf33004153073P2Alephreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESPporinfo:eu-repo/semantics/openAccess2024-11-05T13:25:45Zoai:repositorio.unesp.br:11449/89340Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestrepositoriounesp@unesp.bropendoar:29462024-11-05T13:25:45Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false
dc.title.none.fl_str_mv	Enriquecimento de dados: uma pré-etapa em relação à limpeza de dados
title	Enriquecimento de dados: uma pré-etapa em relação à limpeza de dados
spellingShingle	Enriquecimento de dados: uma pré-etapa em relação à limpeza de dados Carreira , Juliano Augusto [UNESP] Banco de dados - Limpeza Bases de dados - Tuplas duplicadas Databases - Duplicate tuples
title_short	Enriquecimento de dados: uma pré-etapa em relação à limpeza de dados
title_full	Enriquecimento de dados: uma pré-etapa em relação à limpeza de dados
title_fullStr	Enriquecimento de dados: uma pré-etapa em relação à limpeza de dados
title_full_unstemmed	Enriquecimento de dados: uma pré-etapa em relação à limpeza de dados
title_sort	Enriquecimento de dados: uma pré-etapa em relação à limpeza de dados
author	Carreira , Juliano Augusto [UNESP]
author_facet	Carreira , Juliano Augusto [UNESP]
author_role	author
dc.contributor.none.fl_str_mv	Valêncio, Carlos Roberto [UNESP] Universidade Estadual Paulista (Unesp)
dc.contributor.author.fl_str_mv	Carreira , Juliano Augusto [UNESP]
dc.subject.por.fl_str_mv	Banco de dados - Limpeza Bases de dados - Tuplas duplicadas Databases - Duplicate tuples
topic	Banco de dados - Limpeza Bases de dados - Tuplas duplicadas Databases - Duplicate tuples
description	A incidência de tuplas duplicadas é um problema significativo e inerente às grandes bases de dados atuais. Trata-se da repetição de registros que, na maioria das vezes, são representados de formas diferentes nas bases de dados, mas fazem referência a uma mesma entidade do mundo real, tornando, assim, a tarefa de identificação das duplicatas um trabalho árduo. As técnicas designadas para o tratamento deste tipo de problema são geralmente genéricas. Isso significa que não levam em consideração as características particulares dos idiomas o que, de certa forma, inibe a maximização quantitativa e qualitativa das tuplas duplicadas identificadas. Este trabalho propõe a criação de uma pré-etapa – intitulada “enriquecimento” – referente ao processo de identificação de tuplas duplicadas. Tal processo baseia-se no favorecimento do idioma e se dá por meio da utilização de regras de linguagem pré-definidas, de forma genérica, para cada idioma desejado. Assim, consegue-se enriquecer os registros de entrada, definidos em qualquer idioma, e, com a aproximação ortográfica que o enriquecimento proporciona, consegue-se aumentar a quantidade de tuplas duplicadas e/ou melhorar o nível de confiança em relação aos pares de tuplas duplicadas identificadas pelo processo
publishDate	2012
dc.date.none.fl_str_mv	2012-07-12 2014-06-11T19:24:01Z 2014-06-11T19:24:01Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	CARREIRA , Juliano Augusto. Enriquecimento de dados: uma pré-etapa em relação à limpeza de dados. 2012. 76 f. Dissertação (mestrado) - Universidade Estadual Paulista, Instituto de Biociências, Letras e Ciências Exatas, 2012. http://hdl.handle.net/11449/89340 000692870 carreira_ja_me_sjrp.pdf 33004153073P2
identifier_str_mv	CARREIRA , Juliano Augusto. Enriquecimento de dados: uma pré-etapa em relação à limpeza de dados. 2012. 76 f. Dissertação (mestrado) - Universidade Estadual Paulista, Instituto de Biociências, Letras e Ciências Exatas, 2012. 000692870 carreira_ja_me_sjrp.pdf 33004153073P2
url	http://hdl.handle.net/11449/89340
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	76 f. : il. application/pdf
dc.publisher.none.fl_str_mv	Universidade Estadual Paulista (Unesp)
publisher.none.fl_str_mv	Universidade Estadual Paulista (Unesp)
dc.source.none.fl_str_mv	Aleph reponame:Repositório Institucional da UNESP instname:Universidade Estadual Paulista (UNESP) instacron:UNESP
instname_str	Universidade Estadual Paulista (UNESP)
instacron_str	UNESP
institution	UNESP
reponame_str	Repositório Institucional da UNESP
collection	Repositório Institucional da UNESP
repository.name.fl_str_mv	Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)
repository.mail.fl_str_mv	repositoriounesp@unesp.br
_version_	1854954588043476992

Enriquecimento de dados: uma pré-etapa em relação à limpeza de dados

Registros relacionados