SAVIME: enabling declarative array processing in memory
| Ano de defesa: | 2020 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Tese |
| Tipo de acesso: | Acesso aberto |
| Idioma: | eng |
| Instituição de defesa: |
Laboratório Nacional de Computação Científica
Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA) Brasil LNCC Programa de Pós-Graduação em Modelagem Computacional |
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://tede.lncc.br/handle/tede/328 |
Resumo: | Current limitations in array database management systems prevent their adoption in scientific applications, even though arrays are vastly present in scientific datasets. Most traditional DBMSs impose a huge performance penalty during data ingestion, since they require data to be converted to the DBMS’s internal format. In addition, when the data is kept in the DBMS’s format, it gets concealed from users, unless they know in details how the DBMS stores it. This is fine for many applications that access data only through the DBMS’s query language, but is inconvenient for domain specific applications whose complex analytical code is unlikely to be performed efficiently by such languages, requiring a more involved approach in which files are accessed directly. As a consequence, users adopt in-situ analysis libraries, in-transit I/O interfaces and scientific data format files to manage their data. However, these alternatives might not offer the same benefits a DBMS does, such as: richer data model semantics, declarative analytical query languages and isolation between data and applications. Therefore, in this work, we propose a novel array data model named TARS and a database management system, named Savime, which implements such data model. We show how Savime can foster declarative scientific data analysis and visualization without imposing costly data rearrangements and format conversions by using a flexible data model. We also compare Savime with a state-of-the-art array DBMS. The results show that Savime is up to 20 times faster than another array DBMS for data ingestion, while providing a performance similar for the execution of basic array operations. We believe that Savime can substantially empower scientists in developing scientific data analysis in-silico. |
| id |
LNCC_90fde9be54c245e476c8c3fc38a169d8 |
|---|---|
| oai_identifier_str |
oai:tede-server.lncc.br:tede/328 |
| network_acronym_str |
LNCC |
| network_name_str |
Biblioteca Digital de Teses e Dissertações do LNCC |
| repository_id_str |
|
| spelling |
SAVIME: enabling declarative array processing in memorySistema de gerência de bancos de dadosModelo de dados baseado em matrizes multidimensionaisAnálise de dadosVisualização de dadosCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOCurrent limitations in array database management systems prevent their adoption in scientific applications, even though arrays are vastly present in scientific datasets. Most traditional DBMSs impose a huge performance penalty during data ingestion, since they require data to be converted to the DBMS’s internal format. In addition, when the data is kept in the DBMS’s format, it gets concealed from users, unless they know in details how the DBMS stores it. This is fine for many applications that access data only through the DBMS’s query language, but is inconvenient for domain specific applications whose complex analytical code is unlikely to be performed efficiently by such languages, requiring a more involved approach in which files are accessed directly. As a consequence, users adopt in-situ analysis libraries, in-transit I/O interfaces and scientific data format files to manage their data. However, these alternatives might not offer the same benefits a DBMS does, such as: richer data model semantics, declarative analytical query languages and isolation between data and applications. Therefore, in this work, we propose a novel array data model named TARS and a database management system, named Savime, which implements such data model. We show how Savime can foster declarative scientific data analysis and visualization without imposing costly data rearrangements and format conversions by using a flexible data model. We also compare Savime with a state-of-the-art array DBMS. The results show that Savime is up to 20 times faster than another array DBMS for data ingestion, while providing a performance similar for the execution of basic array operations. We believe that Savime can substantially empower scientists in developing scientific data analysis in-silico.As atuais limitações dos sistemas de gerência de banco de dados (SGBDs) baseados em matrizes impedem sua ampla adoção no contexto de aplicações científicas, mesmo que as matrizes estejam presentes em dados científicos. Os SGBDs tradicionais têm seu desempenho reduzido durante o processo de ingestão de dados, uma vez que eles necessitam que os dados dos usuários sejam convertidos para o seu formato interno de representação. Além disso, quando os dados são mantidos no formato específico do SGDB, os usuários ficam impedidos de acessá-los diretamente a não ser que eles conheçam em detalhes a representação que o SBGD em questão está utilizando. Isto não é um problema para a maioria das aplicações que acessam dados apenas através do SGBD, mas é ruim para aplicações científicas de domínio específico que precisam acessar os dados diretamente nos arquivos por motivos de desempenho. Como consequência disto, os usuário geralmente adotam as chamadas bibliotecas in-situ, interfaces de E/S em trânsito e formatos de arquivos científicos para gerenciar seus dados ao invés de armazená-los em SGBDs. Entretanto, estas alternativas podem não oferecer os mesmos benefícios que um SGBD oferece, tais como modelos de dados com semânticas bem estabelecidas, linguagens de consultas para análise declarativa e isolamento entre os dados e as aplicações. Portanto, nesta Tese, nós propomos um novo modelo de dados baseado em matrizes multidimensionais chamado de TARS e um sistema de gerência de banco de dados chamado Savime. Nós mostramos que o sistema Savime pode promover a análise e visualização de dados científicos de forma declarativa, sem necessitar da execução de processos de conversão de dados custosos através do uso de um modelo de dados flexível. Nós também comparamos Savime com o estado da arte em SBGDs de matrizes. Os resultados obtidos mostram que é possível ingerir dados 20 vezes mais rápido no Savime do que em outros SBGDs em matrizes, ao passo que o desempenho do Savime se mantém compatível com outras soluções para a execução de operações básicas sobre matrizes e oferece custo de integração desprezível na integração com aplicações científicas de menor porte.Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorLaboratório Nacional de Computação CientíficaCoordenação de Pós-Graduação e Aperfeiçoamento (COPGA)BrasilLNCCPrograma de Pós-Graduação em Modelagem ComputacionalPorto, Fábio André MachadoPorto, Fábio André MachadoGomes, Antonio Tadeu AzevedoAlmeida, Eduardo C. deCasanova, Marco A.Mattoso, Marta L. de QueirósLustosa, Hermano Lourenço Souza2023-03-20T16:08:21Z2020-02-19info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfLUSTOSA, H. L. S. SAVIME: enabling declarative array processing in memory. 2020. 103 f. Tese (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2020.https://tede.lncc.br/handle/tede/328enghttp://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações do LNCCinstname:Laboratório Nacional de Computação Científica (LNCC)instacron:LNCC2023-03-22T04:14:12Zoai:tede-server.lncc.br:tede/328Biblioteca Digital de Teses e Dissertaçõeshttps://tede.lncc.br/PUBhttps://tede.lncc.br/oai/requestlibrary@lncc.br||library@lncc.bropendoar:2023-03-22T04:14:12Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC)false |
| dc.title.none.fl_str_mv |
SAVIME: enabling declarative array processing in memory |
| title |
SAVIME: enabling declarative array processing in memory |
| spellingShingle |
SAVIME: enabling declarative array processing in memory Lustosa, Hermano Lourenço Souza Sistema de gerência de bancos de dados Modelo de dados baseado em matrizes multidimensionais Análise de dados Visualização de dados CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| title_short |
SAVIME: enabling declarative array processing in memory |
| title_full |
SAVIME: enabling declarative array processing in memory |
| title_fullStr |
SAVIME: enabling declarative array processing in memory |
| title_full_unstemmed |
SAVIME: enabling declarative array processing in memory |
| title_sort |
SAVIME: enabling declarative array processing in memory |
| author |
Lustosa, Hermano Lourenço Souza |
| author_facet |
Lustosa, Hermano Lourenço Souza |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Porto, Fábio André Machado Porto, Fábio André Machado Gomes, Antonio Tadeu Azevedo Almeida, Eduardo C. de Casanova, Marco A. Mattoso, Marta L. de Queirós |
| dc.contributor.author.fl_str_mv |
Lustosa, Hermano Lourenço Souza |
| dc.subject.por.fl_str_mv |
Sistema de gerência de bancos de dados Modelo de dados baseado em matrizes multidimensionais Análise de dados Visualização de dados CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| topic |
Sistema de gerência de bancos de dados Modelo de dados baseado em matrizes multidimensionais Análise de dados Visualização de dados CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| description |
Current limitations in array database management systems prevent their adoption in scientific applications, even though arrays are vastly present in scientific datasets. Most traditional DBMSs impose a huge performance penalty during data ingestion, since they require data to be converted to the DBMS’s internal format. In addition, when the data is kept in the DBMS’s format, it gets concealed from users, unless they know in details how the DBMS stores it. This is fine for many applications that access data only through the DBMS’s query language, but is inconvenient for domain specific applications whose complex analytical code is unlikely to be performed efficiently by such languages, requiring a more involved approach in which files are accessed directly. As a consequence, users adopt in-situ analysis libraries, in-transit I/O interfaces and scientific data format files to manage their data. However, these alternatives might not offer the same benefits a DBMS does, such as: richer data model semantics, declarative analytical query languages and isolation between data and applications. Therefore, in this work, we propose a novel array data model named TARS and a database management system, named Savime, which implements such data model. We show how Savime can foster declarative scientific data analysis and visualization without imposing costly data rearrangements and format conversions by using a flexible data model. We also compare Savime with a state-of-the-art array DBMS. The results show that Savime is up to 20 times faster than another array DBMS for data ingestion, while providing a performance similar for the execution of basic array operations. We believe that Savime can substantially empower scientists in developing scientific data analysis in-silico. |
| publishDate |
2020 |
| dc.date.none.fl_str_mv |
2020-02-19 2023-03-20T16:08:21Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
| format |
doctoralThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
LUSTOSA, H. L. S. SAVIME: enabling declarative array processing in memory. 2020. 103 f. Tese (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2020. https://tede.lncc.br/handle/tede/328 |
| identifier_str_mv |
LUSTOSA, H. L. S. SAVIME: enabling declarative array processing in memory. 2020. 103 f. Tese (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2020. |
| url |
https://tede.lncc.br/handle/tede/328 |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.rights.driver.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/ info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/ |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Laboratório Nacional de Computação Científica Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA) Brasil LNCC Programa de Pós-Graduação em Modelagem Computacional |
| publisher.none.fl_str_mv |
Laboratório Nacional de Computação Científica Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA) Brasil LNCC Programa de Pós-Graduação em Modelagem Computacional |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações do LNCC instname:Laboratório Nacional de Computação Científica (LNCC) instacron:LNCC |
| instname_str |
Laboratório Nacional de Computação Científica (LNCC) |
| instacron_str |
LNCC |
| institution |
LNCC |
| reponame_str |
Biblioteca Digital de Teses e Dissertações do LNCC |
| collection |
Biblioteca Digital de Teses e Dissertações do LNCC |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC) |
| repository.mail.fl_str_mv |
library@lncc.br||library@lncc.br |
| _version_ |
1832738028284542976 |