An indicator-based approach for variable alignment based on knowledge graphs

Detalhes bibliográficos
Ano de defesa: 2018
Autor(a) principal: Santos, Henrique Oliveira
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/117370
Resumo: Dados científicos são gerados e adquiridos em grandes volumes em apoio a estudos em diversas áreas do conhecimento. Processos de preparação de dados comumente usados fazem uso desses arquivos de dados científicos com a finalidade de identificar relacionamentos implícitos entre variáveis de tal forma que eles possam ser reorganizados de forma alinhada, i.e., reescritos como uma única linha em um arquivo tabular seguindo um critério de alinhamento. Esse critério tem o papel de um relacionamento entre variáveis diversas que não é trivial ou fácil de se extrair verificando diretamente nos arquivos de dados. Para enfrentar esse desafio, propomos um fluxo de trabalho para a caracterização de dados científicos e alinhamento de variáveis baseado na definição de indicadores por usuários dos dados. O fluxo de trabalho tem a capacidade de caracterizar semanticamente arquivos tabulares contendo dados científicos utilizando conhecimento científico e de domínio presente em grafos de conhecimento, permitindo que os dados sejam consultados e recuperados através de uma busca facetada guiada por ontologias. Uma representação de indicadores que reproduz as necessidades de comparações e visualizações de variáveis de usuários dos dados é utilizada para se produzir conjunto de dados alinhados que podem ser utilizados diretamente em ferramentas de dados existentes, como R ou soluções de business intelligence (BI) para plotagem gráfica de modo fácil. Nós demonstramos a execução do fluxo de trabalho no contexto de dois casos de uso utilizando arquivos de dados da cidade de Fortaleza, Brasil, onde uma implementação desse trabalho foi utilizada por partes interessadas. Durante rodadas de avaliação, nossa proposta foi verificada como facilitadora do processo de extração de visões gerais, percepções e visualizações a partir de arquivos de dados científicos. Em conclusão, nós discutimos os resultados desse trabalho e seu impacto na literatura existente, mostrando trabalhos em andamento e potenciais direções de pesquisa. Palavras-chave Grafos de conhecimento; dados científios; análise de dados; alinhamento de variáveis; indicadores
id UFOR_577bd9f83583eb484ba3b9a29ae66401
oai_identifier_str oai::117370
network_acronym_str UFOR
network_name_str Biblioteca Digital de Teses e Dissertações da UNIFOR
repository_id_str
spelling An indicator-based approach for variable alignment based on knowledge graphsBanco de dadosTeoria dos grafosDados científicos são gerados e adquiridos em grandes volumes em apoio a estudos em diversas áreas do conhecimento. Processos de preparação de dados comumente usados fazem uso desses arquivos de dados científicos com a finalidade de identificar relacionamentos implícitos entre variáveis de tal forma que eles possam ser reorganizados de forma alinhada, i.e., reescritos como uma única linha em um arquivo tabular seguindo um critério de alinhamento. Esse critério tem o papel de um relacionamento entre variáveis diversas que não é trivial ou fácil de se extrair verificando diretamente nos arquivos de dados. Para enfrentar esse desafio, propomos um fluxo de trabalho para a caracterização de dados científicos e alinhamento de variáveis baseado na definição de indicadores por usuários dos dados. O fluxo de trabalho tem a capacidade de caracterizar semanticamente arquivos tabulares contendo dados científicos utilizando conhecimento científico e de domínio presente em grafos de conhecimento, permitindo que os dados sejam consultados e recuperados através de uma busca facetada guiada por ontologias. Uma representação de indicadores que reproduz as necessidades de comparações e visualizações de variáveis de usuários dos dados é utilizada para se produzir conjunto de dados alinhados que podem ser utilizados diretamente em ferramentas de dados existentes, como R ou soluções de business intelligence (BI) para plotagem gráfica de modo fácil. Nós demonstramos a execução do fluxo de trabalho no contexto de dois casos de uso utilizando arquivos de dados da cidade de Fortaleza, Brasil, onde uma implementação desse trabalho foi utilizada por partes interessadas. Durante rodadas de avaliação, nossa proposta foi verificada como facilitadora do processo de extração de visões gerais, percepções e visualizações a partir de arquivos de dados científicos. Em conclusão, nós discutimos os resultados desse trabalho e seu impacto na literatura existente, mostrando trabalhos em andamento e potenciais direções de pesquisa. Palavras-chave Grafos de conhecimento; dados científios; análise de dados; alinhamento de variáveis; indicadoresScientific data is being generated and acquired in high volumes in support of studies in many domain areas. In current scenarios, data files containing values of variables (scientific measurements and/or study objects), are ultimately leveraged by data scientists in a series of data preparation tasks that aim to identify relationships between variables in a way that they can be reorganized in an aligned manner, e.g., rewritten as a single line in a tabular file following an alignment criterion. This criterion plays the role of a relationship between a number of distinct variables that is not trivial or easy to elicit looking directly into data files. To address this challenge, we propose a workflow for scientific data characterization and variable alignment based on user-defined indicators. The workflow is able to semantically characterize tabular scientific data files using scientific and domain knowledge in knowledge graphs, allowing data to be queried and retrieved by an ontology-driven faceted-search. A representation of indicators that mimics data users' comparisons and visualizations needs is then leveraged by tasks that are able to produce aligned datasets that can be used directly in routine data tools like R or business intelligence (BI) software for easy graphical plotting. We demonstrate the execution of the workflow in the context of two use cases using data files from the city of Fortaleza, Brazil, where an implementation of this work was used by identified stakeholders. During rounds of evaluation, our approach was verified to ease the process of extracting insights and visualization from scientific data files. To conclude, we discuss the outcomes of this work and their impact on the existing literature, showing ongoing work and potential research directions. Keywords Knowledge graphs; scientific data; data analysis; variable alignment; indicatorsTese enviada com autorizacao e certificacao via CI 131807/18Furtado, João José Vasco PeixotoPinheiro, PauloFurtado, João José Vasco PeixotoPinheiro, PauloMcGuinness, Deborah LouiseFarias, Pedro Porfírio MunizVidal, Vania Maria PontePinheiro, Vladia Celia MonteiroUniversidade de Fortaleza. Programa de Pós-Graduação em Informática AplicadaSantos, Henrique Oliveira2018info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/117370https://uol.unifor.br/auth-sophia/exibicao/20798porreponame:Biblioteca Digital de Teses e Dissertações da UNIFORinstname:Universidade de Fortaleza (UNIFOR)instacron:UNIFORinfo:eu-repo/semantics/openAccess2023-08-24T10:57:47Zoai::117370Biblioteca Digital de Teses e Dissertaçõeshttps://www.unifor.br/bdtdONGhttp://dspace.unifor.br/oai/requestbib@unifor.br||bib@unifor.bropendoar:2023-08-24T10:57:47Biblioteca Digital de Teses e Dissertações da UNIFOR - Universidade de Fortaleza (UNIFOR)false
dc.title.none.fl_str_mv An indicator-based approach for variable alignment based on knowledge graphs
title An indicator-based approach for variable alignment based on knowledge graphs
spellingShingle An indicator-based approach for variable alignment based on knowledge graphs
Santos, Henrique Oliveira
Banco de dados
Teoria dos grafos
title_short An indicator-based approach for variable alignment based on knowledge graphs
title_full An indicator-based approach for variable alignment based on knowledge graphs
title_fullStr An indicator-based approach for variable alignment based on knowledge graphs
title_full_unstemmed An indicator-based approach for variable alignment based on knowledge graphs
title_sort An indicator-based approach for variable alignment based on knowledge graphs
author Santos, Henrique Oliveira
author_facet Santos, Henrique Oliveira
author_role author
dc.contributor.none.fl_str_mv Furtado, João José Vasco Peixoto
Pinheiro, Paulo
Furtado, João José Vasco Peixoto
Pinheiro, Paulo
McGuinness, Deborah Louise
Farias, Pedro Porfírio Muniz
Vidal, Vania Maria Ponte
Pinheiro, Vladia Celia Monteiro
Universidade de Fortaleza. Programa de Pós-Graduação em Informática Aplicada
dc.contributor.author.fl_str_mv Santos, Henrique Oliveira
dc.subject.por.fl_str_mv Banco de dados
Teoria dos grafos
topic Banco de dados
Teoria dos grafos
description Dados científicos são gerados e adquiridos em grandes volumes em apoio a estudos em diversas áreas do conhecimento. Processos de preparação de dados comumente usados fazem uso desses arquivos de dados científicos com a finalidade de identificar relacionamentos implícitos entre variáveis de tal forma que eles possam ser reorganizados de forma alinhada, i.e., reescritos como uma única linha em um arquivo tabular seguindo um critério de alinhamento. Esse critério tem o papel de um relacionamento entre variáveis diversas que não é trivial ou fácil de se extrair verificando diretamente nos arquivos de dados. Para enfrentar esse desafio, propomos um fluxo de trabalho para a caracterização de dados científicos e alinhamento de variáveis baseado na definição de indicadores por usuários dos dados. O fluxo de trabalho tem a capacidade de caracterizar semanticamente arquivos tabulares contendo dados científicos utilizando conhecimento científico e de domínio presente em grafos de conhecimento, permitindo que os dados sejam consultados e recuperados através de uma busca facetada guiada por ontologias. Uma representação de indicadores que reproduz as necessidades de comparações e visualizações de variáveis de usuários dos dados é utilizada para se produzir conjunto de dados alinhados que podem ser utilizados diretamente em ferramentas de dados existentes, como R ou soluções de business intelligence (BI) para plotagem gráfica de modo fácil. Nós demonstramos a execução do fluxo de trabalho no contexto de dois casos de uso utilizando arquivos de dados da cidade de Fortaleza, Brasil, onde uma implementação desse trabalho foi utilizada por partes interessadas. Durante rodadas de avaliação, nossa proposta foi verificada como facilitadora do processo de extração de visões gerais, percepções e visualizações a partir de arquivos de dados científicos. Em conclusão, nós discutimos os resultados desse trabalho e seu impacto na literatura existente, mostrando trabalhos em andamento e potenciais direções de pesquisa. Palavras-chave Grafos de conhecimento; dados científios; análise de dados; alinhamento de variáveis; indicadores
publishDate 2018
dc.date.none.fl_str_mv 2018
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/117370
url https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/117370
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://uol.unifor.br/auth-sophia/exibicao/20798
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UNIFOR
instname:Universidade de Fortaleza (UNIFOR)
instacron:UNIFOR
instname_str Universidade de Fortaleza (UNIFOR)
instacron_str UNIFOR
institution UNIFOR
reponame_str Biblioteca Digital de Teses e Dissertações da UNIFOR
collection Biblioteca Digital de Teses e Dissertações da UNIFOR
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UNIFOR - Universidade de Fortaleza (UNIFOR)
repository.mail.fl_str_mv bib@unifor.br||bib@unifor.br
_version_ 1846365333628125184