SAVIME: enabling declarative array processing in memory

Detalhes bibliográficos
Ano de defesa: 2020
Autor(a) principal: Lustosa, Hermano Lourenço Souza
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Laboratório Nacional de Computação Científica
Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA)
Brasil
LNCC
Programa de Pós-Graduação em Modelagem Computacional
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://tede.lncc.br/handle/tede/328
Resumo: Current limitations in array database management systems prevent their adoption in scientific applications, even though arrays are vastly present in scientific datasets. Most traditional DBMSs impose a huge performance penalty during data ingestion, since they require data to be converted to the DBMS’s internal format. In addition, when the data is kept in the DBMS’s format, it gets concealed from users, unless they know in details how the DBMS stores it. This is fine for many applications that access data only through the DBMS’s query language, but is inconvenient for domain specific applications whose complex analytical code is unlikely to be performed efficiently by such languages, requiring a more involved approach in which files are accessed directly. As a consequence, users adopt in-situ analysis libraries, in-transit I/O interfaces and scientific data format files to manage their data. However, these alternatives might not offer the same benefits a DBMS does, such as: richer data model semantics, declarative analytical query languages and isolation between data and applications. Therefore, in this work, we propose a novel array data model named TARS and a database management system, named Savime, which implements such data model. We show how Savime can foster declarative scientific data analysis and visualization without imposing costly data rearrangements and format conversions by using a flexible data model. We also compare Savime with a state-of-the-art array DBMS. The results show that Savime is up to 20 times faster than another array DBMS for data ingestion, while providing a performance similar for the execution of basic array operations. We believe that Savime can substantially empower scientists in developing scientific data analysis in-silico.
id LNCC_90fde9be54c245e476c8c3fc38a169d8
oai_identifier_str oai:tede-server.lncc.br:tede/328
network_acronym_str LNCC
network_name_str Biblioteca Digital de Teses e Dissertações do LNCC
repository_id_str
spelling SAVIME: enabling declarative array processing in memorySistema de gerência de bancos de dadosModelo de dados baseado em matrizes multidimensionaisAnálise de dadosVisualização de dadosCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOCurrent limitations in array database management systems prevent their adoption in scientific applications, even though arrays are vastly present in scientific datasets. Most traditional DBMSs impose a huge performance penalty during data ingestion, since they require data to be converted to the DBMS’s internal format. In addition, when the data is kept in the DBMS’s format, it gets concealed from users, unless they know in details how the DBMS stores it. This is fine for many applications that access data only through the DBMS’s query language, but is inconvenient for domain specific applications whose complex analytical code is unlikely to be performed efficiently by such languages, requiring a more involved approach in which files are accessed directly. As a consequence, users adopt in-situ analysis libraries, in-transit I/O interfaces and scientific data format files to manage their data. However, these alternatives might not offer the same benefits a DBMS does, such as: richer data model semantics, declarative analytical query languages and isolation between data and applications. Therefore, in this work, we propose a novel array data model named TARS and a database management system, named Savime, which implements such data model. We show how Savime can foster declarative scientific data analysis and visualization without imposing costly data rearrangements and format conversions by using a flexible data model. We also compare Savime with a state-of-the-art array DBMS. The results show that Savime is up to 20 times faster than another array DBMS for data ingestion, while providing a performance similar for the execution of basic array operations. We believe that Savime can substantially empower scientists in developing scientific data analysis in-silico.As atuais limitações dos sistemas de gerência de banco de dados (SGBDs) baseados em matrizes impedem sua ampla adoção no contexto de aplicações científicas, mesmo que as matrizes estejam presentes em dados científicos. Os SGBDs tradicionais têm seu desempenho reduzido durante o processo de ingestão de dados, uma vez que eles necessitam que os dados dos usuários sejam convertidos para o seu formato interno de representação. Além disso, quando os dados são mantidos no formato específico do SGDB, os usuários ficam impedidos de acessá-los diretamente a não ser que eles conheçam em detalhes a representação que o SBGD em questão está utilizando. Isto não é um problema para a maioria das aplicações que acessam dados apenas através do SGBD, mas é ruim para aplicações científicas de domínio específico que precisam acessar os dados diretamente nos arquivos por motivos de desempenho. Como consequência disto, os usuário geralmente adotam as chamadas bibliotecas in-situ, interfaces de E/S em trânsito e formatos de arquivos científicos para gerenciar seus dados ao invés de armazená-los em SGBDs. Entretanto, estas alternativas podem não oferecer os mesmos benefícios que um SGBD oferece, tais como modelos de dados com semânticas bem estabelecidas, linguagens de consultas para análise declarativa e isolamento entre os dados e as aplicações. Portanto, nesta Tese, nós propomos um novo modelo de dados baseado em matrizes multidimensionais chamado de TARS e um sistema de gerência de banco de dados chamado Savime. Nós mostramos que o sistema Savime pode promover a análise e visualização de dados científicos de forma declarativa, sem necessitar da execução de processos de conversão de dados custosos através do uso de um modelo de dados flexível. Nós também comparamos Savime com o estado da arte em SBGDs de matrizes. Os resultados obtidos mostram que é possível ingerir dados 20 vezes mais rápido no Savime do que em outros SBGDs em matrizes, ao passo que o desempenho do Savime se mantém compatível com outras soluções para a execução de operações básicas sobre matrizes e oferece custo de integração desprezível na integração com aplicações científicas de menor porte.Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorLaboratório Nacional de Computação CientíficaCoordenação de Pós-Graduação e Aperfeiçoamento (COPGA)BrasilLNCCPrograma de Pós-Graduação em Modelagem ComputacionalPorto, Fábio André MachadoPorto, Fábio André MachadoGomes, Antonio Tadeu AzevedoAlmeida, Eduardo C. deCasanova, Marco A.Mattoso, Marta L. de QueirósLustosa, Hermano Lourenço Souza2023-03-20T16:08:21Z2020-02-19info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfLUSTOSA, H. L. S. SAVIME: enabling declarative array processing in memory. 2020. 103 f. Tese (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2020.https://tede.lncc.br/handle/tede/328enghttp://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações do LNCCinstname:Laboratório Nacional de Computação Científica (LNCC)instacron:LNCC2023-03-22T04:14:12Zoai:tede-server.lncc.br:tede/328Biblioteca Digital de Teses e Dissertaçõeshttps://tede.lncc.br/PUBhttps://tede.lncc.br/oai/requestlibrary@lncc.br||library@lncc.bropendoar:2023-03-22T04:14:12Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC)false
dc.title.none.fl_str_mv SAVIME: enabling declarative array processing in memory
title SAVIME: enabling declarative array processing in memory
spellingShingle SAVIME: enabling declarative array processing in memory
Lustosa, Hermano Lourenço Souza
Sistema de gerência de bancos de dados
Modelo de dados baseado em matrizes multidimensionais
Análise de dados
Visualização de dados
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short SAVIME: enabling declarative array processing in memory
title_full SAVIME: enabling declarative array processing in memory
title_fullStr SAVIME: enabling declarative array processing in memory
title_full_unstemmed SAVIME: enabling declarative array processing in memory
title_sort SAVIME: enabling declarative array processing in memory
author Lustosa, Hermano Lourenço Souza
author_facet Lustosa, Hermano Lourenço Souza
author_role author
dc.contributor.none.fl_str_mv Porto, Fábio André Machado
Porto, Fábio André Machado
Gomes, Antonio Tadeu Azevedo
Almeida, Eduardo C. de
Casanova, Marco A.
Mattoso, Marta L. de Queirós
dc.contributor.author.fl_str_mv Lustosa, Hermano Lourenço Souza
dc.subject.por.fl_str_mv Sistema de gerência de bancos de dados
Modelo de dados baseado em matrizes multidimensionais
Análise de dados
Visualização de dados
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic Sistema de gerência de bancos de dados
Modelo de dados baseado em matrizes multidimensionais
Análise de dados
Visualização de dados
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description Current limitations in array database management systems prevent their adoption in scientific applications, even though arrays are vastly present in scientific datasets. Most traditional DBMSs impose a huge performance penalty during data ingestion, since they require data to be converted to the DBMS’s internal format. In addition, when the data is kept in the DBMS’s format, it gets concealed from users, unless they know in details how the DBMS stores it. This is fine for many applications that access data only through the DBMS’s query language, but is inconvenient for domain specific applications whose complex analytical code is unlikely to be performed efficiently by such languages, requiring a more involved approach in which files are accessed directly. As a consequence, users adopt in-situ analysis libraries, in-transit I/O interfaces and scientific data format files to manage their data. However, these alternatives might not offer the same benefits a DBMS does, such as: richer data model semantics, declarative analytical query languages and isolation between data and applications. Therefore, in this work, we propose a novel array data model named TARS and a database management system, named Savime, which implements such data model. We show how Savime can foster declarative scientific data analysis and visualization without imposing costly data rearrangements and format conversions by using a flexible data model. We also compare Savime with a state-of-the-art array DBMS. The results show that Savime is up to 20 times faster than another array DBMS for data ingestion, while providing a performance similar for the execution of basic array operations. We believe that Savime can substantially empower scientists in developing scientific data analysis in-silico.
publishDate 2020
dc.date.none.fl_str_mv 2020-02-19
2023-03-20T16:08:21Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv LUSTOSA, H. L. S. SAVIME: enabling declarative array processing in memory. 2020. 103 f. Tese (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2020.
https://tede.lncc.br/handle/tede/328
identifier_str_mv LUSTOSA, H. L. S. SAVIME: enabling declarative array processing in memory. 2020. 103 f. Tese (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2020.
url https://tede.lncc.br/handle/tede/328
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Laboratório Nacional de Computação Científica
Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA)
Brasil
LNCC
Programa de Pós-Graduação em Modelagem Computacional
publisher.none.fl_str_mv Laboratório Nacional de Computação Científica
Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA)
Brasil
LNCC
Programa de Pós-Graduação em Modelagem Computacional
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações do LNCC
instname:Laboratório Nacional de Computação Científica (LNCC)
instacron:LNCC
instname_str Laboratório Nacional de Computação Científica (LNCC)
instacron_str LNCC
institution LNCC
reponame_str Biblioteca Digital de Teses e Dissertações do LNCC
collection Biblioteca Digital de Teses e Dissertações do LNCC
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC)
repository.mail.fl_str_mv library@lncc.br||library@lncc.br
_version_ 1832738028284542976