Exploração da localidade dos dados e locks distribuídos para leitura e escrita em um sistema de arquivos para Big Data ou computação científica;

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Silva, Érico Correia da
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/3/3141/tde-11042024-081949/
Resumo: O Big Data tem revolucionado a exploração de dados em larga escala. Ao mesmo tempo, clusters HPC são usados em simulações científicas com resoluções cada vez mais altas, utilizando um volume de dados que vem crescendo de forma acentuada. Embora façam uso de sistemas de arquivo distribuídos mais robustos, clusters HPC movimentam o dado pela rede durante o processamento, enquanto frameworks de Big Data exploram a localidade dos dados para processá-los sem movimentação pela rede, utilizando hardware de baixo custo. Para promover o uso simultâneo de um mesmo cluster por aplicações científicas e processamento de Big Data, este trabalho propõe um novo sistema de arquivos distribuído, o AwareFS. Baseado no padrão POSIX, o AwareFS possui uma arquitetura escalável e resiliente, usando um protocolo de escrita local para explorar a localidade dos dados mesmo durante atualizações. Essa nova tecnologia de armazenamento permite reescrita e acesso randômico, utilizando um sistema distribuído de controle de locks para garantir consistência e flexibilidade no acesso concorrente de múltiplos clientes, tanto na leitura quanto na escrita. Resultados obtidos com benchmarks de mercado comprovaram a eficiência do AwareFS em diferentes perfis de leitura e escrita, sequencial e randômica, demonstrando o benefício do protocolo de escrita local e a escalabilidade acrescentando servidores. O AwareFS contribui para a convergência de tecnologias, possibilitando o uso de um mesmo cluster, mesmo de baixo custo, em cargas de trabalho de Big Data, computação científica e aplicações tradicionais.
id USP_a1959a8b7fb321012a020e5e1734a11e
oai_identifier_str oai:teses.usp.br:tde-11042024-081949
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Exploração da localidade dos dados e locks distribuídos para leitura e escrita em um sistema de arquivos para Big Data ou computação científica;Untitled in englishAnálise de dados científicosBig DataBig DataData localityDistributed file systemsDistributed lock management, Scientific data analysisGerenciamento de lock distribuídoHadoopLocalidade dos dadosSistemas de arquivo distribuídoO Big Data tem revolucionado a exploração de dados em larga escala. Ao mesmo tempo, clusters HPC são usados em simulações científicas com resoluções cada vez mais altas, utilizando um volume de dados que vem crescendo de forma acentuada. Embora façam uso de sistemas de arquivo distribuídos mais robustos, clusters HPC movimentam o dado pela rede durante o processamento, enquanto frameworks de Big Data exploram a localidade dos dados para processá-los sem movimentação pela rede, utilizando hardware de baixo custo. Para promover o uso simultâneo de um mesmo cluster por aplicações científicas e processamento de Big Data, este trabalho propõe um novo sistema de arquivos distribuído, o AwareFS. Baseado no padrão POSIX, o AwareFS possui uma arquitetura escalável e resiliente, usando um protocolo de escrita local para explorar a localidade dos dados mesmo durante atualizações. Essa nova tecnologia de armazenamento permite reescrita e acesso randômico, utilizando um sistema distribuído de controle de locks para garantir consistência e flexibilidade no acesso concorrente de múltiplos clientes, tanto na leitura quanto na escrita. Resultados obtidos com benchmarks de mercado comprovaram a eficiência do AwareFS em diferentes perfis de leitura e escrita, sequencial e randômica, demonstrando o benefício do protocolo de escrita local e a escalabilidade acrescentando servidores. O AwareFS contribui para a convergência de tecnologias, possibilitando o uso de um mesmo cluster, mesmo de baixo custo, em cargas de trabalho de Big Data, computação científica e aplicações tradicionais.Big Data has revolutionized the exploration of data on a large scale. Simultaneously, HPC clusters are employed in scientific simulations with increasingly higher resolutions, utilizing a rapidly growing volume of data. While they make use of more robust distributed file systems, HPC clusters transfer data across the network during processing, whereas Big Data frameworks leverage data locality to process them without network movement, utilizing low-cost hardware. To promote the simultaneous use of the same cluster for scientific applications and Big Data processing, this work proposes a new distributed file system, AwareFS. Based on the POSIX standard, AwareFS features a scalable and resilient architecture, using a local write protocol to exploit data locality even during updates. This novel storage technology enables rewriting and random access, employing a distributed lock control system to ensure consistency and flexibility in concurrent access by multiple clients, both in reading and writing. Results obtained from market benchmarks have validated the efficiency of AwareFS across different read and write profiles, sequential and random, demonstrating the benefits of the local write protocol and the scalability by adding servers. AwareFS contributes to the convergence of technologies, enabling the use of the same, even low-cost, cluster in Big Data workloads, scientific computing, and traditional applications.Biblioteca Digitais de Teses e Dissertações da USPSato, Liria MatsumotoSilva, Érico Correia da2024-02-07info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/3/3141/tde-11042024-081949/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-10-09T12:45:10Zoai:teses.usp.br:tde-11042024-081949Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-10-09T12:45:10Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Exploração da localidade dos dados e locks distribuídos para leitura e escrita em um sistema de arquivos para Big Data ou computação científica;
Untitled in english
title Exploração da localidade dos dados e locks distribuídos para leitura e escrita em um sistema de arquivos para Big Data ou computação científica;
spellingShingle Exploração da localidade dos dados e locks distribuídos para leitura e escrita em um sistema de arquivos para Big Data ou computação científica;
Silva, Érico Correia da
Análise de dados científicos
Big Data
Big Data
Data locality
Distributed file systems
Distributed lock management, Scientific data analysis
Gerenciamento de lock distribuído
Hadoop
Localidade dos dados
Sistemas de arquivo distribuído
title_short Exploração da localidade dos dados e locks distribuídos para leitura e escrita em um sistema de arquivos para Big Data ou computação científica;
title_full Exploração da localidade dos dados e locks distribuídos para leitura e escrita em um sistema de arquivos para Big Data ou computação científica;
title_fullStr Exploração da localidade dos dados e locks distribuídos para leitura e escrita em um sistema de arquivos para Big Data ou computação científica;
title_full_unstemmed Exploração da localidade dos dados e locks distribuídos para leitura e escrita em um sistema de arquivos para Big Data ou computação científica;
title_sort Exploração da localidade dos dados e locks distribuídos para leitura e escrita em um sistema de arquivos para Big Data ou computação científica;
author Silva, Érico Correia da
author_facet Silva, Érico Correia da
author_role author
dc.contributor.none.fl_str_mv Sato, Liria Matsumoto
dc.contributor.author.fl_str_mv Silva, Érico Correia da
dc.subject.por.fl_str_mv Análise de dados científicos
Big Data
Big Data
Data locality
Distributed file systems
Distributed lock management, Scientific data analysis
Gerenciamento de lock distribuído
Hadoop
Localidade dos dados
Sistemas de arquivo distribuído
topic Análise de dados científicos
Big Data
Big Data
Data locality
Distributed file systems
Distributed lock management, Scientific data analysis
Gerenciamento de lock distribuído
Hadoop
Localidade dos dados
Sistemas de arquivo distribuído
description O Big Data tem revolucionado a exploração de dados em larga escala. Ao mesmo tempo, clusters HPC são usados em simulações científicas com resoluções cada vez mais altas, utilizando um volume de dados que vem crescendo de forma acentuada. Embora façam uso de sistemas de arquivo distribuídos mais robustos, clusters HPC movimentam o dado pela rede durante o processamento, enquanto frameworks de Big Data exploram a localidade dos dados para processá-los sem movimentação pela rede, utilizando hardware de baixo custo. Para promover o uso simultâneo de um mesmo cluster por aplicações científicas e processamento de Big Data, este trabalho propõe um novo sistema de arquivos distribuído, o AwareFS. Baseado no padrão POSIX, o AwareFS possui uma arquitetura escalável e resiliente, usando um protocolo de escrita local para explorar a localidade dos dados mesmo durante atualizações. Essa nova tecnologia de armazenamento permite reescrita e acesso randômico, utilizando um sistema distribuído de controle de locks para garantir consistência e flexibilidade no acesso concorrente de múltiplos clientes, tanto na leitura quanto na escrita. Resultados obtidos com benchmarks de mercado comprovaram a eficiência do AwareFS em diferentes perfis de leitura e escrita, sequencial e randômica, demonstrando o benefício do protocolo de escrita local e a escalabilidade acrescentando servidores. O AwareFS contribui para a convergência de tecnologias, possibilitando o uso de um mesmo cluster, mesmo de baixo custo, em cargas de trabalho de Big Data, computação científica e aplicações tradicionais.
publishDate 2024
dc.date.none.fl_str_mv 2024-02-07
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/3/3141/tde-11042024-081949/
url https://www.teses.usp.br/teses/disponiveis/3/3141/tde-11042024-081949/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815257716993556480