Um processo para extração de esquemas conceituais em fontes de dados JSON baseado em técnicas de similaridade de texto

Detalhes bibliográficos
Ano de defesa: 2017
Autor(a) principal: Machado, Fhabiana Thieli dos Santos
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
dARK ID: ark:/26339/001300000jrvb
Idioma: por
Instituição de defesa: Universidade Federal de Santa Maria
Brasil
Ciência da Computação
UFSM
Programa de Pós-Graduação em Ciência da Computação
Centro de Tecnologia
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://repositorio.ufsm.br/handle/1/17959
Resumo: NoSQL (Not Only SQL) data models have been notable for their promise of schema flexibility and scalability considering the large volume of data. Their flexibility allows, for example, that documents within the same collection have different attributes. This fact becomes a problem when there is the need to access the database in a unified way, or in an automated way through programming, since there is no standard structure. In this sense, this work presents a process for schema extraction in datasets in JSON (JavaScript Object Notation) data sources. This proposal differs by analyzing attributes that represent the same information, but are differently written. In the context of this work, writing difference concerns the treatment of synonyms, similar spelling and identical word radical. To achieve this goal, we use techniques such as character based similarity functions and synonyms, as well as stemming extractor. Therefore, this work aims to extract the implicit schema in these datasets by applying different textual equivalence techniques in attribute names, as well as to produce a conceptual schema and the respective mappings for the equivalent terms.
id UFSM_1bfb82fa9893bd9be0a76bd54b9bd6b4
oai_identifier_str oai:repositorio.ufsm.br:1/17959
network_acronym_str UFSM
network_name_str Manancial - Repositório Digital da UFSM
repository_id_str
spelling Um processo para extração de esquemas conceituais em fontes de dados JSON baseado em técnicas de similaridade de textoA process for conceptual schema extraction in datasets JSON based on text similarity techniquesNoSQL orientados a documentosExtração de esquemaSimilaridade de textoDocument-oriented databaseStructure extractionText similarityCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAONoSQL (Not Only SQL) data models have been notable for their promise of schema flexibility and scalability considering the large volume of data. Their flexibility allows, for example, that documents within the same collection have different attributes. This fact becomes a problem when there is the need to access the database in a unified way, or in an automated way through programming, since there is no standard structure. In this sense, this work presents a process for schema extraction in datasets in JSON (JavaScript Object Notation) data sources. This proposal differs by analyzing attributes that represent the same information, but are differently written. In the context of this work, writing difference concerns the treatment of synonyms, similar spelling and identical word radical. To achieve this goal, we use techniques such as character based similarity functions and synonyms, as well as stemming extractor. Therefore, this work aims to extract the implicit schema in these datasets by applying different textual equivalence techniques in attribute names, as well as to produce a conceptual schema and the respective mappings for the equivalent terms.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESOs modelos de dados NoSQL (Not Only SQL) vêm se destacando devido à sua promessa de flexibilidade de esquemas e escalabilidade frente ao grande volume de dados gerados atualmente. Sua flexibilidade permite, por exemplo, que documentos dentro da mesma coleção possuam campos distintos. Este fato se torna um problema no momento que é preciso acessar o banco de dados de forma unificada, ou de modo automatizado através de rotinas de programação, pois não há uma padronização em sua estrutura. Nesse sentido o trabalho apresenta um processo para extração de esquema em fontes de dados JSON (JavaScript Object Notation). Esta proposta diferencia-se por analisar campos que representam a mesma informação, mas que estejam escritos de modo diferente. No contexto deste trabalho, diferença de escrita diz respeito ao tratamento de sinônimos, grafia similar e mesmo radical de palavra. Para tal, são utilizadas técnicas como funções de similaridade baseadas em caractere e sinônimos, assim como extrator de radicais. Portanto, o objetivo do trabalho é extrair o esquema implícito presente nessas fontes de dados aplicando diferentes técnicas de equivalência textual em nomes de campos, bem como produzir um esquema conceitual e os respectivos mapeamentos para os termos equivalentes.Universidade Federal de Santa MariaBrasilCiência da ComputaçãoUFSMPrograma de Pós-Graduação em Ciência da ComputaçãoCentro de TecnologiaSaccol, Deise de Brumhttp://lattes.cnpq.br/7758924784164781Mergen, Sergio Luis Sardihttp://lattes.cnpq.br/0718830701479001Mello, Ronaldo dos Santoshttp://lattes.cnpq.br/5011370918857999Machado, Fhabiana Thieli dos Santos2019-08-19T13:01:01Z2019-08-19T13:01:01Z2017-06-29info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://repositorio.ufsm.br/handle/1/17959ark:/26339/001300000jrvbporAttribution-NonCommercial-NoDerivatives 4.0 Internationalinfo:eu-repo/semantics/openAccessreponame:Manancial - Repositório Digital da UFSMinstname:Universidade Federal de Santa Maria (UFSM)instacron:UFSM2019-08-20T06:00:32Zoai:repositorio.ufsm.br:1/17959Biblioteca Digital de Teses e Dissertaçõeshttps://repositorio.ufsm.br/PUBhttps://repositorio.ufsm.br/oai/requestatendimento.sib@ufsm.br||tedebc@gmail.com||manancial@ufsm.bropendoar:2019-08-20T06:00:32Manancial - Repositório Digital da UFSM - Universidade Federal de Santa Maria (UFSM)false
dc.title.none.fl_str_mv Um processo para extração de esquemas conceituais em fontes de dados JSON baseado em técnicas de similaridade de texto
A process for conceptual schema extraction in datasets JSON based on text similarity techniques
title Um processo para extração de esquemas conceituais em fontes de dados JSON baseado em técnicas de similaridade de texto
spellingShingle Um processo para extração de esquemas conceituais em fontes de dados JSON baseado em técnicas de similaridade de texto
Machado, Fhabiana Thieli dos Santos
NoSQL orientados a documentos
Extração de esquema
Similaridade de texto
Document-oriented database
Structure extraction
Text similarity
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short Um processo para extração de esquemas conceituais em fontes de dados JSON baseado em técnicas de similaridade de texto
title_full Um processo para extração de esquemas conceituais em fontes de dados JSON baseado em técnicas de similaridade de texto
title_fullStr Um processo para extração de esquemas conceituais em fontes de dados JSON baseado em técnicas de similaridade de texto
title_full_unstemmed Um processo para extração de esquemas conceituais em fontes de dados JSON baseado em técnicas de similaridade de texto
title_sort Um processo para extração de esquemas conceituais em fontes de dados JSON baseado em técnicas de similaridade de texto
author Machado, Fhabiana Thieli dos Santos
author_facet Machado, Fhabiana Thieli dos Santos
author_role author
dc.contributor.none.fl_str_mv Saccol, Deise de Brum
http://lattes.cnpq.br/7758924784164781
Mergen, Sergio Luis Sardi
http://lattes.cnpq.br/0718830701479001
Mello, Ronaldo dos Santos
http://lattes.cnpq.br/5011370918857999
dc.contributor.author.fl_str_mv Machado, Fhabiana Thieli dos Santos
dc.subject.por.fl_str_mv NoSQL orientados a documentos
Extração de esquema
Similaridade de texto
Document-oriented database
Structure extraction
Text similarity
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic NoSQL orientados a documentos
Extração de esquema
Similaridade de texto
Document-oriented database
Structure extraction
Text similarity
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description NoSQL (Not Only SQL) data models have been notable for their promise of schema flexibility and scalability considering the large volume of data. Their flexibility allows, for example, that documents within the same collection have different attributes. This fact becomes a problem when there is the need to access the database in a unified way, or in an automated way through programming, since there is no standard structure. In this sense, this work presents a process for schema extraction in datasets in JSON (JavaScript Object Notation) data sources. This proposal differs by analyzing attributes that represent the same information, but are differently written. In the context of this work, writing difference concerns the treatment of synonyms, similar spelling and identical word radical. To achieve this goal, we use techniques such as character based similarity functions and synonyms, as well as stemming extractor. Therefore, this work aims to extract the implicit schema in these datasets by applying different textual equivalence techniques in attribute names, as well as to produce a conceptual schema and the respective mappings for the equivalent terms.
publishDate 2017
dc.date.none.fl_str_mv 2017-06-29
2019-08-19T13:01:01Z
2019-08-19T13:01:01Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://repositorio.ufsm.br/handle/1/17959
dc.identifier.dark.fl_str_mv ark:/26339/001300000jrvb
url http://repositorio.ufsm.br/handle/1/17959
identifier_str_mv ark:/26339/001300000jrvb
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivatives 4.0 International
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivatives 4.0 International
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de Santa Maria
Brasil
Ciência da Computação
UFSM
Programa de Pós-Graduação em Ciência da Computação
Centro de Tecnologia
publisher.none.fl_str_mv Universidade Federal de Santa Maria
Brasil
Ciência da Computação
UFSM
Programa de Pós-Graduação em Ciência da Computação
Centro de Tecnologia
dc.source.none.fl_str_mv reponame:Manancial - Repositório Digital da UFSM
instname:Universidade Federal de Santa Maria (UFSM)
instacron:UFSM
instname_str Universidade Federal de Santa Maria (UFSM)
instacron_str UFSM
institution UFSM
reponame_str Manancial - Repositório Digital da UFSM
collection Manancial - Repositório Digital da UFSM
repository.name.fl_str_mv Manancial - Repositório Digital da UFSM - Universidade Federal de Santa Maria (UFSM)
repository.mail.fl_str_mv atendimento.sib@ufsm.br||tedebc@gmail.com||manancial@ufsm.br
_version_ 1847153409693581312