Um mecanismo de persistência para um ambiente de processamento de fluxos de dados

Ana Paula de Carvalho

Um mecanismo de persistência para um ambiente de processamento de fluxos de dados

Detalhes bibliográficos
Ano de defesa:	2012
Autor(a) principal:	Ana Paula de Carvalho
Orientador(a):	Renato Antonio Celso Ferreira
Banca de defesa:	Alberto Henrique Frade Laender, Wagner Meira Junior, Luiz Eduardo da Silva Ramos
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade Federal de Minas Gerais
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Processamento de fluxos de dados Persistência de fluxos de dados Computação de alto desempenho
Link de acesso:	http://hdl.handle.net/1843/ESBF-8XFK9G
Resumo:	A contínua evolução da tecnologia nas variadas áreas do conhecimento vem propiciando que volumes cada vez maiores de dados estejam disponíveis. Por isso hoje, mais do que nunca, existe uma demanda real por aplicações capazes de processar grandes volumes de dados. Em geral, essas aplicações precisam executar, com alto desempenho, algoritmos computacionalmente intensivos que processam fluxos de dados. Diversas dessas aplicações também requerem que fluxos de dados sejam persistidos, principalmente pelas seguintes razões: i) possibilitar o rastreamento das transformações realizadas nos dados, ii) permitir que os dados sejam analisados futuramente e iii) reprocessar os dados em casos de falha. O objetivo geral do presente trabalho é contribuir no projeto e implementação do Watershed, um ambiente de execução de alto desempenho que provê abstrações para o desenvolvimento de aplicações distribuídas que processam fluxos de dados massivos. Para tanto, propõe-se nesta dissertação um mecanismo de persistência de fluxos de dados capaz de se acoplar ao Watershed. O ambiente de execução implementa o modelo de programação filtro-fluxo, dessa forma cada aplicação é decomposta em módulos de processamento que se comunicam por canais denominados fluxos. Algumas características diferem o Watershed da maioria dos ambientes/sistemas descritos na literatura, como: suporte ao desenvolvimento e execução de aplicações com topologia dinâmica, suporte a execução simultânea de múltiplas aplicações e possibilidade de compartilhamento de resultados intermediários entre diferentes aplicações. O mecanismo de persistência de fluxos proposto torna o Watershed um ambiente mais genérico e flexível, uma vez que possibilita que os módulos de processamento executem em diferentes períodos de tempo, tendo disponível para consumo todos os dados anteriormente produzidos, além dos dados atuais. O mecanismo também é distribuído, provê transparência no armazenamento dos dados, suporte a manipulação de dados semiestruturados e fornece recursos para que um módulo de processamento filtre de um fluxo apenas as unidades de dados, atuais ou históricas, de seu interesse. Nos experimentos realizados o impacto do mecanismo de persistência no tempo de execução das aplicações foi de no máximo 13%.

Metadados do item

id	UFMG_1a26ec3ec1dd2ae67f6d9e817211c6e3
oai_identifier_str	oai:repositorio.ufmg.br:1843/ESBF-8XFK9G
network_acronym_str	UFMG
network_name_str	Repositório Institucional da UFMG
repository_id_str
spelling	Renato Antonio Celso FerreiraAlberto Henrique Frade LaenderWagner Meira JuniorLuiz Eduardo da Silva RamosAna Paula de Carvalho2019-08-10T07:20:58Z2019-08-10T07:20:58Z2012-08-17http://hdl.handle.net/1843/ESBF-8XFK9GA contínua evolução da tecnologia nas variadas áreas do conhecimento vem propiciando que volumes cada vez maiores de dados estejam disponíveis. Por isso hoje, mais do que nunca, existe uma demanda real por aplicações capazes de processar grandes volumes de dados. Em geral, essas aplicações precisam executar, com alto desempenho, algoritmos computacionalmente intensivos que processam fluxos de dados. Diversas dessas aplicações também requerem que fluxos de dados sejam persistidos, principalmente pelas seguintes razões: i) possibilitar o rastreamento das transformações realizadas nos dados, ii) permitir que os dados sejam analisados futuramente e iii) reprocessar os dados em casos de falha. O objetivo geral do presente trabalho é contribuir no projeto e implementação do Watershed, um ambiente de execução de alto desempenho que provê abstrações para o desenvolvimento de aplicações distribuídas que processam fluxos de dados massivos. Para tanto, propõe-se nesta dissertação um mecanismo de persistência de fluxos de dados capaz de se acoplar ao Watershed. O ambiente de execução implementa o modelo de programação filtro-fluxo, dessa forma cada aplicação é decomposta em módulos de processamento que se comunicam por canais denominados fluxos. Algumas características diferem o Watershed da maioria dos ambientes/sistemas descritos na literatura, como: suporte ao desenvolvimento e execução de aplicações com topologia dinâmica, suporte a execução simultânea de múltiplas aplicações e possibilidade de compartilhamento de resultados intermediários entre diferentes aplicações. O mecanismo de persistência de fluxos proposto torna o Watershed um ambiente mais genérico e flexível, uma vez que possibilita que os módulos de processamento executem em diferentes períodos de tempo, tendo disponível para consumo todos os dados anteriormente produzidos, além dos dados atuais. O mecanismo também é distribuído, provê transparência no armazenamento dos dados, suporte a manipulação de dados semiestruturados e fornece recursos para que um módulo de processamento filtre de um fluxo apenas as unidades de dados, atuais ou históricas, de seu interesse. Nos experimentos realizados o impacto do mecanismo de persistência no tempo de execução das aplicações foi de no máximo 13%.The continuous evolution of technology in several areas of knowledge shows that increasing volumes of data are available. So today there exist, more than ever, a real demand for applications able to process large bodies of data. In general, these applications need to run at a high performance, intensive computationally algorithms that process data streams. Several of these applications also require that data streams are persisted, mainly for the following reasons: i) to enable the tracing of the transformations performed in the data, ii) to allow that the data analyzed in the future and iii) to reprocess the data in case of failure. The overall objective of this work is to contribute in the design and implementation of Watershed, a high-performance execution environment that provides abstractions for the development of distributed applications that process massive data streams. With that aim, we propose in this dissertation a data streams persistence mechanism that can be coupled to the Watershed. The execution environment implements the filter-stream programming model, so each application is decomposed into processing modules that communicate through channels called streams. Some features differ the Watershed from most environments/systems described in the literature, such as: support to the development and implementation of applications with dynamic topology, support the simultaneous execution of multiple applications and the possibility of intermediate results shared between among applications. The persistence mechanism proposed makes the Watershed a more general and flexible environment, since it enables that processing modules run at different time periods, having all data previously produced available for consumption, in addition to the current data. The mechanism is also distributed, it provides transparency in data storage, it supports semi-structured data handling and it provides resources for which a processing module filter from a stream uses only the units data, current or historical(stored), of its interest. In the experiments the impact of the persistence mechanism in the execution time of the applications was up to 13%.Universidade Federal de Minas GeraisUFMGComputaçãoProcessamento de fluxos de dadosPersistência de fluxos de dadosComputação de alto desempenhoUm mecanismo de persistência para um ambiente de processamento de fluxos de dadosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALanapauladecarvalho.pdfapplication/pdf3516467https://repositorio.ufmg.br/bitstream/1843/ESBF-8XFK9G/1/anapauladecarvalho.pdfba4364851b5b29a2d71e4a5aa3fbf36fMD51TEXTanapauladecarvalho.pdf.txtanapauladecarvalho.pdf.txtExtracted texttext/plain123836https://repositorio.ufmg.br/bitstream/1843/ESBF-8XFK9G/2/anapauladecarvalho.pdf.txta2037fdd5d5752de47852e5fdf757208MD521843/ESBF-8XFK9G2019-11-14 05:08:40.831oai:repositorio.ufmg.br:1843/ESBF-8XFK9GRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T08:08:40Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv	Um mecanismo de persistência para um ambiente de processamento de fluxos de dados
title	Um mecanismo de persistência para um ambiente de processamento de fluxos de dados
spellingShingle	Um mecanismo de persistência para um ambiente de processamento de fluxos de dados Ana Paula de Carvalho Processamento de fluxos de dados Persistência de fluxos de dados Computação de alto desempenho Computação
title_short	Um mecanismo de persistência para um ambiente de processamento de fluxos de dados
title_full	Um mecanismo de persistência para um ambiente de processamento de fluxos de dados
title_fullStr	Um mecanismo de persistência para um ambiente de processamento de fluxos de dados
title_full_unstemmed	Um mecanismo de persistência para um ambiente de processamento de fluxos de dados
title_sort	Um mecanismo de persistência para um ambiente de processamento de fluxos de dados
author	Ana Paula de Carvalho
author_facet	Ana Paula de Carvalho
author_role	author
dc.contributor.advisor1.fl_str_mv	Renato Antonio Celso Ferreira
dc.contributor.referee1.fl_str_mv	Alberto Henrique Frade Laender
dc.contributor.referee2.fl_str_mv	Wagner Meira Junior
dc.contributor.referee3.fl_str_mv	Luiz Eduardo da Silva Ramos
dc.contributor.author.fl_str_mv	Ana Paula de Carvalho
contributor_str_mv	Renato Antonio Celso Ferreira Alberto Henrique Frade Laender Wagner Meira Junior Luiz Eduardo da Silva Ramos
dc.subject.por.fl_str_mv	Processamento de fluxos de dados Persistência de fluxos de dados Computação de alto desempenho
topic	Processamento de fluxos de dados Persistência de fluxos de dados Computação de alto desempenho Computação
dc.subject.other.pt_BR.fl_str_mv	Computação
description	A contínua evolução da tecnologia nas variadas áreas do conhecimento vem propiciando que volumes cada vez maiores de dados estejam disponíveis. Por isso hoje, mais do que nunca, existe uma demanda real por aplicações capazes de processar grandes volumes de dados. Em geral, essas aplicações precisam executar, com alto desempenho, algoritmos computacionalmente intensivos que processam fluxos de dados. Diversas dessas aplicações também requerem que fluxos de dados sejam persistidos, principalmente pelas seguintes razões: i) possibilitar o rastreamento das transformações realizadas nos dados, ii) permitir que os dados sejam analisados futuramente e iii) reprocessar os dados em casos de falha. O objetivo geral do presente trabalho é contribuir no projeto e implementação do Watershed, um ambiente de execução de alto desempenho que provê abstrações para o desenvolvimento de aplicações distribuídas que processam fluxos de dados massivos. Para tanto, propõe-se nesta dissertação um mecanismo de persistência de fluxos de dados capaz de se acoplar ao Watershed. O ambiente de execução implementa o modelo de programação filtro-fluxo, dessa forma cada aplicação é decomposta em módulos de processamento que se comunicam por canais denominados fluxos. Algumas características diferem o Watershed da maioria dos ambientes/sistemas descritos na literatura, como: suporte ao desenvolvimento e execução de aplicações com topologia dinâmica, suporte a execução simultânea de múltiplas aplicações e possibilidade de compartilhamento de resultados intermediários entre diferentes aplicações. O mecanismo de persistência de fluxos proposto torna o Watershed um ambiente mais genérico e flexível, uma vez que possibilita que os módulos de processamento executem em diferentes períodos de tempo, tendo disponível para consumo todos os dados anteriormente produzidos, além dos dados atuais. O mecanismo também é distribuído, provê transparência no armazenamento dos dados, suporte a manipulação de dados semiestruturados e fornece recursos para que um módulo de processamento filtre de um fluxo apenas as unidades de dados, atuais ou históricas, de seu interesse. Nos experimentos realizados o impacto do mecanismo de persistência no tempo de execução das aplicações foi de no máximo 13%.
publishDate	2012
dc.date.issued.fl_str_mv	2012-08-17
dc.date.accessioned.fl_str_mv	2019-08-10T07:20:58Z
dc.date.available.fl_str_mv	2019-08-10T07:20:58Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/1843/ESBF-8XFK9G
url	http://hdl.handle.net/1843/ESBF-8XFK9G
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal de Minas Gerais
dc.publisher.initials.fl_str_mv	UFMG
publisher.none.fl_str_mv	Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFMG instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG
instname_str	Universidade Federal de Minas Gerais (UFMG)
instacron_str	UFMG
institution	UFMG
reponame_str	Repositório Institucional da UFMG
collection	Repositório Institucional da UFMG
bitstream.url.fl_str_mv	https://repositorio.ufmg.br/bitstream/1843/ESBF-8XFK9G/1/anapauladecarvalho.pdf https://repositorio.ufmg.br/bitstream/1843/ESBF-8XFK9G/2/anapauladecarvalho.pdf.txt
bitstream.checksum.fl_str_mv	ba4364851b5b29a2d71e4a5aa3fbf36f a2037fdd5d5752de47852e5fdf757208
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_	1797973287580467200

Um mecanismo de persistência para um ambiente de processamento de fluxos de dados

Registros relacionados