SAVIME: enabling declarative array processing in memory

Lustosa, Hermano Lourenço Souza

SAVIME: enabling declarative array processing in memory

Detalhes bibliográficos
Ano de defesa:	2020
Autor(a) principal:	Lustosa, Hermano Lourenço Souza
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Tese
Tipo de acesso:	Acesso aberto
Idioma:	eng
Instituição de defesa:	Laboratório Nacional de Computação Científica Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA) Brasil LNCC Programa de Pós-Graduação em Modelagem Computacional
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Sistema de gerência de bancos de dados Modelo de dados baseado em matrizes multidimensionais Análise de dados Visualização de dados CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Link de acesso:	https://tede.lncc.br/handle/tede/328
Resumo:	Current limitations in array database management systems prevent their adoption in scientific applications, even though arrays are vastly present in scientific datasets. Most traditional DBMSs impose a huge performance penalty during data ingestion, since they require data to be converted to the DBMS’s internal format. In addition, when the data is kept in the DBMS’s format, it gets concealed from users, unless they know in details how the DBMS stores it. This is fine for many applications that access data only through the DBMS’s query language, but is inconvenient for domain specific applications whose complex analytical code is unlikely to be performed efficiently by such languages, requiring a more involved approach in which files are accessed directly. As a consequence, users adopt in-situ analysis libraries, in-transit I/O interfaces and scientific data format files to manage their data. However, these alternatives might not offer the same benefits a DBMS does, such as: richer data model semantics, declarative analytical query languages and isolation between data and applications. Therefore, in this work, we propose a novel array data model named TARS and a database management system, named Savime, which implements such data model. We show how Savime can foster declarative scientific data analysis and visualization without imposing costly data rearrangements and format conversions by using a flexible data model. We also compare Savime with a state-of-the-art array DBMS. The results show that Savime is up to 20 times faster than another array DBMS for data ingestion, while providing a performance similar for the execution of basic array operations. We believe that Savime can substantially empower scientists in developing scientific data analysis in-silico.

Metadados do item

id	LNCC_90fde9be54c245e476c8c3fc38a169d8
oai_identifier_str	oai:tede-server.lncc.br:tede/328
network_acronym_str	LNCC
network_name_str	Biblioteca Digital de Teses e Dissertações do LNCC
repository_id_str
spelling	SAVIME: enabling declarative array processing in memorySistema de gerência de bancos de dadosModelo de dados baseado em matrizes multidimensionaisAnálise de dadosVisualização de dadosCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOCurrent limitations in array database management systems prevent their adoption in scientific applications, even though arrays are vastly present in scientific datasets. Most traditional DBMSs impose a huge performance penalty during data ingestion, since they require data to be converted to the DBMS’s internal format. In addition, when the data is kept in the DBMS’s format, it gets concealed from users, unless they know in details how the DBMS stores it. This is fine for many applications that access data only through the DBMS’s query language, but is inconvenient for domain specific applications whose complex analytical code is unlikely to be performed efficiently by such languages, requiring a more involved approach in which files are accessed directly. As a consequence, users adopt in-situ analysis libraries, in-transit I/O interfaces and scientific data format files to manage their data. However, these alternatives might not offer the same benefits a DBMS does, such as: richer data model semantics, declarative analytical query languages and isolation between data and applications. Therefore, in this work, we propose a novel array data model named TARS and a database management system, named Savime, which implements such data model. We show how Savime can foster declarative scientific data analysis and visualization without imposing costly data rearrangements and format conversions by using a flexible data model. We also compare Savime with a state-of-the-art array DBMS. The results show that Savime is up to 20 times faster than another array DBMS for data ingestion, while providing a performance similar for the execution of basic array operations. We believe that Savime can substantially empower scientists in developing scientific data analysis in-silico.As atuais limitações dos sistemas de gerência de banco de dados (SGBDs) baseados em matrizes impedem sua ampla adoção no contexto de aplicações científicas, mesmo que as matrizes estejam presentes em dados científicos. Os SGBDs tradicionais têm seu desempenho reduzido durante o processo de ingestão de dados, uma vez que eles necessitam que os dados dos usuários sejam convertidos para o seu formato interno de representação. Além disso, quando os dados são mantidos no formato específico do SGDB, os usuários ficam impedidos de acessá-los diretamente a não ser que eles conheçam em detalhes a representação que o SBGD em questão está utilizando. Isto não é um problema para a maioria das aplicações que acessam dados apenas através do SGBD, mas é ruim para aplicações científicas de domínio específico que precisam acessar os dados diretamente nos arquivos por motivos de desempenho. Como consequência disto, os usuário geralmente adotam as chamadas bibliotecas in-situ, interfaces de E/S em trânsito e formatos de arquivos científicos para gerenciar seus dados ao invés de armazená-los em SGBDs. Entretanto, estas alternativas podem não oferecer os mesmos benefícios que um SGBD oferece, tais como modelos de dados com semânticas bem estabelecidas, linguagens de consultas para análise declarativa e isolamento entre os dados e as aplicações. Portanto, nesta Tese, nós propomos um novo modelo de dados baseado em matrizes multidimensionais chamado de TARS e um sistema de gerência de banco de dados chamado Savime. Nós mostramos que o sistema Savime pode promover a análise e visualização de dados científicos de forma declarativa, sem necessitar da execução de processos de conversão de dados custosos através do uso de um modelo de dados flexível. Nós também comparamos Savime com o estado da arte em SBGDs de matrizes. Os resultados obtidos mostram que é possível ingerir dados 20 vezes mais rápido no Savime do que em outros SBGDs em matrizes, ao passo que o desempenho do Savime se mantém compatível com outras soluções para a execução de operações básicas sobre matrizes e oferece custo de integração desprezível na integração com aplicações científicas de menor porte.Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorLaboratório Nacional de Computação CientíficaCoordenação de Pós-Graduação e Aperfeiçoamento (COPGA)BrasilLNCCPrograma de Pós-Graduação em Modelagem ComputacionalPorto, Fábio André MachadoPorto, Fábio André MachadoGomes, Antonio Tadeu AzevedoAlmeida, Eduardo C. deCasanova, Marco A.Mattoso, Marta L. de QueirósLustosa, Hermano Lourenço Souza2023-03-20T16:08:21Z2020-02-19info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfLUSTOSA, H. L. S. SAVIME: enabling declarative array processing in memory. 2020. 103 f. Tese (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2020.https://tede.lncc.br/handle/tede/328enghttp://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações do LNCCinstname:Laboratório Nacional de Computação Científica (LNCC)instacron:LNCC2023-03-22T04:14:12Zoai:tede-server.lncc.br:tede/328Biblioteca Digital de Teses e Dissertaçõeshttps://tede.lncc.br/PUBhttps://tede.lncc.br/oai/requestlibrary@lncc.br\|\|library@lncc.bropendoar:2023-03-22T04:14:12Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC)false
dc.title.none.fl_str_mv	SAVIME: enabling declarative array processing in memory
title	SAVIME: enabling declarative array processing in memory
spellingShingle	SAVIME: enabling declarative array processing in memory Lustosa, Hermano Lourenço Souza Sistema de gerência de bancos de dados Modelo de dados baseado em matrizes multidimensionais Análise de dados Visualização de dados CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short	SAVIME: enabling declarative array processing in memory
title_full	SAVIME: enabling declarative array processing in memory
title_fullStr	SAVIME: enabling declarative array processing in memory
title_full_unstemmed	SAVIME: enabling declarative array processing in memory
title_sort	SAVIME: enabling declarative array processing in memory
author	Lustosa, Hermano Lourenço Souza
author_facet	Lustosa, Hermano Lourenço Souza
author_role	author
dc.contributor.none.fl_str_mv	Porto, Fábio André Machado Porto, Fábio André Machado Gomes, Antonio Tadeu Azevedo Almeida, Eduardo C. de Casanova, Marco A. Mattoso, Marta L. de Queirós
dc.contributor.author.fl_str_mv	Lustosa, Hermano Lourenço Souza
dc.subject.por.fl_str_mv	Sistema de gerência de bancos de dados Modelo de dados baseado em matrizes multidimensionais Análise de dados Visualização de dados CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic	Sistema de gerência de bancos de dados Modelo de dados baseado em matrizes multidimensionais Análise de dados Visualização de dados CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description	Current limitations in array database management systems prevent their adoption in scientific applications, even though arrays are vastly present in scientific datasets. Most traditional DBMSs impose a huge performance penalty during data ingestion, since they require data to be converted to the DBMS’s internal format. In addition, when the data is kept in the DBMS’s format, it gets concealed from users, unless they know in details how the DBMS stores it. This is fine for many applications that access data only through the DBMS’s query language, but is inconvenient for domain specific applications whose complex analytical code is unlikely to be performed efficiently by such languages, requiring a more involved approach in which files are accessed directly. As a consequence, users adopt in-situ analysis libraries, in-transit I/O interfaces and scientific data format files to manage their data. However, these alternatives might not offer the same benefits a DBMS does, such as: richer data model semantics, declarative analytical query languages and isolation between data and applications. Therefore, in this work, we propose a novel array data model named TARS and a database management system, named Savime, which implements such data model. We show how Savime can foster declarative scientific data analysis and visualization without imposing costly data rearrangements and format conversions by using a flexible data model. We also compare Savime with a state-of-the-art array DBMS. The results show that Savime is up to 20 times faster than another array DBMS for data ingestion, while providing a performance similar for the execution of basic array operations. We believe that Savime can substantially empower scientists in developing scientific data analysis in-silico.
publishDate	2020
dc.date.none.fl_str_mv	2020-02-19 2023-03-20T16:08:21Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	LUSTOSA, H. L. S. SAVIME: enabling declarative array processing in memory. 2020. 103 f. Tese (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2020. https://tede.lncc.br/handle/tede/328
identifier_str_mv	LUSTOSA, H. L. S. SAVIME: enabling declarative array processing in memory. 2020. 103 f. Tese (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2020.
url	https://tede.lncc.br/handle/tede/328
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	http://creativecommons.org/licenses/by-nc-nd/4.0/ info:eu-repo/semantics/openAccess
rights_invalid_str_mv	http://creativecommons.org/licenses/by-nc-nd/4.0/
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Laboratório Nacional de Computação Científica Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA) Brasil LNCC Programa de Pós-Graduação em Modelagem Computacional
publisher.none.fl_str_mv	Laboratório Nacional de Computação Científica Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA) Brasil LNCC Programa de Pós-Graduação em Modelagem Computacional
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações do LNCC instname:Laboratório Nacional de Computação Científica (LNCC) instacron:LNCC
instname_str	Laboratório Nacional de Computação Científica (LNCC)
instacron_str	LNCC
institution	LNCC
reponame_str	Biblioteca Digital de Teses e Dissertações do LNCC
collection	Biblioteca Digital de Teses e Dissertações do LNCC
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC)
repository.mail.fl_str_mv	library@lncc.br\|\|library@lncc.br
_version_	1832738028284542976

SAVIME: enabling declarative array processing in memory

Registros relacionados