Um processo para extração de esquemas conceituais em fontes de dados JSON baseado em técnicas de similaridade de texto
| Ano de defesa: | 2017 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| dARK ID: | ark:/26339/001300000jrvb |
| Idioma: | por |
| Instituição de defesa: |
Universidade Federal de Santa Maria
Brasil Ciência da Computação UFSM Programa de Pós-Graduação em Ciência da Computação Centro de Tecnologia |
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | http://repositorio.ufsm.br/handle/1/17959 |
Resumo: | NoSQL (Not Only SQL) data models have been notable for their promise of schema flexibility and scalability considering the large volume of data. Their flexibility allows, for example, that documents within the same collection have different attributes. This fact becomes a problem when there is the need to access the database in a unified way, or in an automated way through programming, since there is no standard structure. In this sense, this work presents a process for schema extraction in datasets in JSON (JavaScript Object Notation) data sources. This proposal differs by analyzing attributes that represent the same information, but are differently written. In the context of this work, writing difference concerns the treatment of synonyms, similar spelling and identical word radical. To achieve this goal, we use techniques such as character based similarity functions and synonyms, as well as stemming extractor. Therefore, this work aims to extract the implicit schema in these datasets by applying different textual equivalence techniques in attribute names, as well as to produce a conceptual schema and the respective mappings for the equivalent terms. |
| id |
UFSM_1bfb82fa9893bd9be0a76bd54b9bd6b4 |
|---|---|
| oai_identifier_str |
oai:repositorio.ufsm.br:1/17959 |
| network_acronym_str |
UFSM |
| network_name_str |
Manancial - Repositório Digital da UFSM |
| repository_id_str |
|
| spelling |
Um processo para extração de esquemas conceituais em fontes de dados JSON baseado em técnicas de similaridade de textoA process for conceptual schema extraction in datasets JSON based on text similarity techniquesNoSQL orientados a documentosExtração de esquemaSimilaridade de textoDocument-oriented databaseStructure extractionText similarityCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAONoSQL (Not Only SQL) data models have been notable for their promise of schema flexibility and scalability considering the large volume of data. Their flexibility allows, for example, that documents within the same collection have different attributes. This fact becomes a problem when there is the need to access the database in a unified way, or in an automated way through programming, since there is no standard structure. In this sense, this work presents a process for schema extraction in datasets in JSON (JavaScript Object Notation) data sources. This proposal differs by analyzing attributes that represent the same information, but are differently written. In the context of this work, writing difference concerns the treatment of synonyms, similar spelling and identical word radical. To achieve this goal, we use techniques such as character based similarity functions and synonyms, as well as stemming extractor. Therefore, this work aims to extract the implicit schema in these datasets by applying different textual equivalence techniques in attribute names, as well as to produce a conceptual schema and the respective mappings for the equivalent terms.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESOs modelos de dados NoSQL (Not Only SQL) vêm se destacando devido à sua promessa de flexibilidade de esquemas e escalabilidade frente ao grande volume de dados gerados atualmente. Sua flexibilidade permite, por exemplo, que documentos dentro da mesma coleção possuam campos distintos. Este fato se torna um problema no momento que é preciso acessar o banco de dados de forma unificada, ou de modo automatizado através de rotinas de programação, pois não há uma padronização em sua estrutura. Nesse sentido o trabalho apresenta um processo para extração de esquema em fontes de dados JSON (JavaScript Object Notation). Esta proposta diferencia-se por analisar campos que representam a mesma informação, mas que estejam escritos de modo diferente. No contexto deste trabalho, diferença de escrita diz respeito ao tratamento de sinônimos, grafia similar e mesmo radical de palavra. Para tal, são utilizadas técnicas como funções de similaridade baseadas em caractere e sinônimos, assim como extrator de radicais. Portanto, o objetivo do trabalho é extrair o esquema implícito presente nessas fontes de dados aplicando diferentes técnicas de equivalência textual em nomes de campos, bem como produzir um esquema conceitual e os respectivos mapeamentos para os termos equivalentes.Universidade Federal de Santa MariaBrasilCiência da ComputaçãoUFSMPrograma de Pós-Graduação em Ciência da ComputaçãoCentro de TecnologiaSaccol, Deise de Brumhttp://lattes.cnpq.br/7758924784164781Mergen, Sergio Luis Sardihttp://lattes.cnpq.br/0718830701479001Mello, Ronaldo dos Santoshttp://lattes.cnpq.br/5011370918857999Machado, Fhabiana Thieli dos Santos2019-08-19T13:01:01Z2019-08-19T13:01:01Z2017-06-29info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://repositorio.ufsm.br/handle/1/17959ark:/26339/001300000jrvbporAttribution-NonCommercial-NoDerivatives 4.0 Internationalinfo:eu-repo/semantics/openAccessreponame:Manancial - Repositório Digital da UFSMinstname:Universidade Federal de Santa Maria (UFSM)instacron:UFSM2019-08-20T06:00:32Zoai:repositorio.ufsm.br:1/17959Biblioteca Digital de Teses e Dissertaçõeshttps://repositorio.ufsm.br/PUBhttps://repositorio.ufsm.br/oai/requestatendimento.sib@ufsm.br||tedebc@gmail.com||manancial@ufsm.bropendoar:2019-08-20T06:00:32Manancial - Repositório Digital da UFSM - Universidade Federal de Santa Maria (UFSM)false |
| dc.title.none.fl_str_mv |
Um processo para extração de esquemas conceituais em fontes de dados JSON baseado em técnicas de similaridade de texto A process for conceptual schema extraction in datasets JSON based on text similarity techniques |
| title |
Um processo para extração de esquemas conceituais em fontes de dados JSON baseado em técnicas de similaridade de texto |
| spellingShingle |
Um processo para extração de esquemas conceituais em fontes de dados JSON baseado em técnicas de similaridade de texto Machado, Fhabiana Thieli dos Santos NoSQL orientados a documentos Extração de esquema Similaridade de texto Document-oriented database Structure extraction Text similarity CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| title_short |
Um processo para extração de esquemas conceituais em fontes de dados JSON baseado em técnicas de similaridade de texto |
| title_full |
Um processo para extração de esquemas conceituais em fontes de dados JSON baseado em técnicas de similaridade de texto |
| title_fullStr |
Um processo para extração de esquemas conceituais em fontes de dados JSON baseado em técnicas de similaridade de texto |
| title_full_unstemmed |
Um processo para extração de esquemas conceituais em fontes de dados JSON baseado em técnicas de similaridade de texto |
| title_sort |
Um processo para extração de esquemas conceituais em fontes de dados JSON baseado em técnicas de similaridade de texto |
| author |
Machado, Fhabiana Thieli dos Santos |
| author_facet |
Machado, Fhabiana Thieli dos Santos |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Saccol, Deise de Brum http://lattes.cnpq.br/7758924784164781 Mergen, Sergio Luis Sardi http://lattes.cnpq.br/0718830701479001 Mello, Ronaldo dos Santos http://lattes.cnpq.br/5011370918857999 |
| dc.contributor.author.fl_str_mv |
Machado, Fhabiana Thieli dos Santos |
| dc.subject.por.fl_str_mv |
NoSQL orientados a documentos Extração de esquema Similaridade de texto Document-oriented database Structure extraction Text similarity CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| topic |
NoSQL orientados a documentos Extração de esquema Similaridade de texto Document-oriented database Structure extraction Text similarity CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| description |
NoSQL (Not Only SQL) data models have been notable for their promise of schema flexibility and scalability considering the large volume of data. Their flexibility allows, for example, that documents within the same collection have different attributes. This fact becomes a problem when there is the need to access the database in a unified way, or in an automated way through programming, since there is no standard structure. In this sense, this work presents a process for schema extraction in datasets in JSON (JavaScript Object Notation) data sources. This proposal differs by analyzing attributes that represent the same information, but are differently written. In the context of this work, writing difference concerns the treatment of synonyms, similar spelling and identical word radical. To achieve this goal, we use techniques such as character based similarity functions and synonyms, as well as stemming extractor. Therefore, this work aims to extract the implicit schema in these datasets by applying different textual equivalence techniques in attribute names, as well as to produce a conceptual schema and the respective mappings for the equivalent terms. |
| publishDate |
2017 |
| dc.date.none.fl_str_mv |
2017-06-29 2019-08-19T13:01:01Z 2019-08-19T13:01:01Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
http://repositorio.ufsm.br/handle/1/17959 |
| dc.identifier.dark.fl_str_mv |
ark:/26339/001300000jrvb |
| url |
http://repositorio.ufsm.br/handle/1/17959 |
| identifier_str_mv |
ark:/26339/001300000jrvb |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivatives 4.0 International info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivatives 4.0 International |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Universidade Federal de Santa Maria Brasil Ciência da Computação UFSM Programa de Pós-Graduação em Ciência da Computação Centro de Tecnologia |
| publisher.none.fl_str_mv |
Universidade Federal de Santa Maria Brasil Ciência da Computação UFSM Programa de Pós-Graduação em Ciência da Computação Centro de Tecnologia |
| dc.source.none.fl_str_mv |
reponame:Manancial - Repositório Digital da UFSM instname:Universidade Federal de Santa Maria (UFSM) instacron:UFSM |
| instname_str |
Universidade Federal de Santa Maria (UFSM) |
| instacron_str |
UFSM |
| institution |
UFSM |
| reponame_str |
Manancial - Repositório Digital da UFSM |
| collection |
Manancial - Repositório Digital da UFSM |
| repository.name.fl_str_mv |
Manancial - Repositório Digital da UFSM - Universidade Federal de Santa Maria (UFSM) |
| repository.mail.fl_str_mv |
atendimento.sib@ufsm.br||tedebc@gmail.com||manancial@ufsm.br |
| _version_ |
1847153409693581312 |