Watershed-ng: um sistema distribuído e extensível para o processamento de fluxos de dados

Detalhes bibliográficos
Ano de defesa: 2015
Autor(a) principal: Rodrigo Caetano de Oliveira Rocha
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Minas Gerais
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://hdl.handle.net/1843/ESBF-A2EQRM
Resumo: Most high-performance data processing (a.k.a. big-data) systems allowusers to express their computation using abstractions (like MapReduce)that simplify the extraction of parallelism from applications. Mostframeworks, however, do not allow users to specify how communicationmust take place: that element is deeply embedded into the run-timesystem (RTS) abstractions, making changes hard to implement.In this work we describe Wathershed-ng, our re-engineering of the Watershed system, a framework based on the filter-stream paradigm and originally focused on continuous stream processing. Like other big-data environments, Watershed provided object-oriented abstractions to express computation (filters), but the implementation of streams was an RTS element. By isolating stream functionality into appropriate classes, combination of communication patterns and reuse of common message handling functions (like compression and blocking) become possible. The new architecture even allows the design of new communication patterns, for example, allowing users to choose MPI, TCP or shared memory implementations of communication channels as their problem demands. Applications designed for the new interface showed reductions in code size on the order of 50% and above in some cases. The performance results also showed significant improvements, since some implementation bottlenecks were removed in the re-engineering process.
id UFMG_a52dc41751a2b75b85f227e0fa4e550e
oai_identifier_str oai:repositorio.ufmg.br:1843/ESBF-A2EQRM
network_acronym_str UFMG
network_name_str Repositório Institucional da UFMG
repository_id_str
spelling 2019-08-13T19:54:55Z2025-09-09T00:34:58Z2019-08-13T19:54:55Z2015-07-17https://hdl.handle.net/1843/ESBF-A2EQRMMost high-performance data processing (a.k.a. big-data) systems allowusers to express their computation using abstractions (like MapReduce)that simplify the extraction of parallelism from applications. Mostframeworks, however, do not allow users to specify how communicationmust take place: that element is deeply embedded into the run-timesystem (RTS) abstractions, making changes hard to implement.In this work we describe Wathershed-ng, our re-engineering of the Watershed system, a framework based on the filter-stream paradigm and originally focused on continuous stream processing. Like other big-data environments, Watershed provided object-oriented abstractions to express computation (filters), but the implementation of streams was an RTS element. By isolating stream functionality into appropriate classes, combination of communication patterns and reuse of common message handling functions (like compression and blocking) become possible. The new architecture even allows the design of new communication patterns, for example, allowing users to choose MPI, TCP or shared memory implementations of communication channels as their problem demands. Applications designed for the new interface showed reductions in code size on the order of 50% and above in some cases. The performance results also showed significant improvements, since some implementation bottlenecks were removed in the re-engineering process.Universidade Federal de Minas GeraisProcessamento de fluxos de dadosBig dataSistemas distribuídosProgramação paralelaComputaçãoBig dataProgramação paralela (Computação)Sistemas distribuídosWatershed-ng: um sistema distribuído e extensível para o processamento de fluxos de dadosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisRodrigo Caetano de Oliveira Rochainfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGDorgival Olavo Guedes NetoRenato Antonio Celso FerreiraWagner Meira JuniorPlataformas de processamento de dados massivos permitem que usuários expressem as computações utilizando abstrações que simplificam à extração de paralelismo. A maioria das plataformas, no entanto, não permitem que os usuários especifiquem como a comunicação entre os nós de computação deve acontecer. Neste trabalho descrevemos a plataforma Watershed-ng, uma re-engenharia do Watershed, uma plataforma baseada no modelo filtro-fluxo e originalmente focada no processamento de fluxos contínuos de dados. Isolando a funcionalidade dos canais de fluxos de dados em classes de primeira ordem, se tornou possível desenvolver, combinar e reutilizar diversos padrões de comunicação e componentes para o tratamento do fluxo de dados. Aplicações desenvolvidas com o Watershed-ng, integrado ao ambiente Hadoop, apresentaram melhorias significativas de desempenho, bem como uma redução em tamanho de código de até 50%, quando comparado com as plataformas predecessoras.UFMGORIGINALrodrigocaetano.pdfapplication/pdf1598941https://repositorio.ufmg.br//bitstreams/7d116e1c-206f-49f7-b98a-20043cbe03f8/download7a82fe59a87480e501e8c8f1f4a57af3MD51trueAnonymousREADTEXTrodrigocaetano.pdf.txttext/plain118440https://repositorio.ufmg.br//bitstreams/3fb12249-ad16-420f-8772-a3874c1d7fc7/downloadc3d82240a2680086aa662c1da0ca003eMD52falseAnonymousREAD1843/ESBF-A2EQRM2025-09-08 21:34:58.323open.accessoai:repositorio.ufmg.br:1843/ESBF-A2EQRMhttps://repositorio.ufmg.br/Repositório InstitucionalPUBhttps://repositorio.ufmg.br/oairepositorio@ufmg.bropendoar:2025-09-09T00:34:58Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.none.fl_str_mv Watershed-ng: um sistema distribuído e extensível para o processamento de fluxos de dados
title Watershed-ng: um sistema distribuído e extensível para o processamento de fluxos de dados
spellingShingle Watershed-ng: um sistema distribuído e extensível para o processamento de fluxos de dados
Rodrigo Caetano de Oliveira Rocha
Computação
Big data
Programação paralela (Computação)
Sistemas distribuídos
Processamento de fluxos de dados
Big data
Sistemas distribuídos
Programação paralela
title_short Watershed-ng: um sistema distribuído e extensível para o processamento de fluxos de dados
title_full Watershed-ng: um sistema distribuído e extensível para o processamento de fluxos de dados
title_fullStr Watershed-ng: um sistema distribuído e extensível para o processamento de fluxos de dados
title_full_unstemmed Watershed-ng: um sistema distribuído e extensível para o processamento de fluxos de dados
title_sort Watershed-ng: um sistema distribuído e extensível para o processamento de fluxos de dados
author Rodrigo Caetano de Oliveira Rocha
author_facet Rodrigo Caetano de Oliveira Rocha
author_role author
dc.contributor.author.fl_str_mv Rodrigo Caetano de Oliveira Rocha
dc.subject.por.fl_str_mv Computação
Big data
Programação paralela (Computação)
Sistemas distribuídos
topic Computação
Big data
Programação paralela (Computação)
Sistemas distribuídos
Processamento de fluxos de dados
Big data
Sistemas distribuídos
Programação paralela
dc.subject.other.none.fl_str_mv Processamento de fluxos de dados
Big data
Sistemas distribuídos
Programação paralela
description Most high-performance data processing (a.k.a. big-data) systems allowusers to express their computation using abstractions (like MapReduce)that simplify the extraction of parallelism from applications. Mostframeworks, however, do not allow users to specify how communicationmust take place: that element is deeply embedded into the run-timesystem (RTS) abstractions, making changes hard to implement.In this work we describe Wathershed-ng, our re-engineering of the Watershed system, a framework based on the filter-stream paradigm and originally focused on continuous stream processing. Like other big-data environments, Watershed provided object-oriented abstractions to express computation (filters), but the implementation of streams was an RTS element. By isolating stream functionality into appropriate classes, combination of communication patterns and reuse of common message handling functions (like compression and blocking) become possible. The new architecture even allows the design of new communication patterns, for example, allowing users to choose MPI, TCP or shared memory implementations of communication channels as their problem demands. Applications designed for the new interface showed reductions in code size on the order of 50% and above in some cases. The performance results also showed significant improvements, since some implementation bottlenecks were removed in the re-engineering process.
publishDate 2015
dc.date.issued.fl_str_mv 2015-07-17
dc.date.accessioned.fl_str_mv 2019-08-13T19:54:55Z
2025-09-09T00:34:58Z
dc.date.available.fl_str_mv 2019-08-13T19:54:55Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1843/ESBF-A2EQRM
url https://hdl.handle.net/1843/ESBF-A2EQRM
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMG
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Repositório Institucional da UFMG
collection Repositório Institucional da UFMG
bitstream.url.fl_str_mv https://repositorio.ufmg.br//bitstreams/7d116e1c-206f-49f7-b98a-20043cbe03f8/download
https://repositorio.ufmg.br//bitstreams/3fb12249-ad16-420f-8772-a3874c1d7fc7/download
bitstream.checksum.fl_str_mv 7a82fe59a87480e501e8c8f1f4a57af3
c3d82240a2680086aa662c1da0ca003e
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv repositorio@ufmg.br
_version_ 1862105933933445120