Exportação concluída — 

Armazenamento elástico na recepção de dados em fluxo contínuo variável.

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Bulsoni, Felipe Garcia
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/3/3141/tde-20082024-101910/
Resumo: O crescimento do número de usuários e dispositivos conectados à internet, junto ao aumento da quantidade e rapidez com que novas informações são geradas, e a velocidade em que esses dados deixam de ser relevantes e perdem seu valor, contribuem para a dificuldade em utilizar métodos convencionais de computação para extrair informações úteis da grande massa de dados gerada constantemente. Uma solução para a obtenção dessas informações valiosas, com menores custos de armazenamento e maior retorno, seria o Processamento de Fluxos De Dados Contínuos (PFDC). O PFDC, porém, tem seus próprios desafios, tais como garantir que os dados dos fluxos sejam lidos sem perdas, evitar múltiplas leituras dos mesmos dados, processar eficientemente os dados de forma a reduzir latência, e permitir escalabilidade, e todos esses fatores se traduzem em custos elevados. Em cenários que apresentam um fluxo de dados contínuo e de mesma intensidade, é possível otimizar o hardware para a demanda, porém, em casos como o monitoramento de uma rede social, que vê seus picos durante e após algum evento ou em horários de repouso, o fluxo varia de intensidade conforme o momento. Isso significa que o dimensionamento da capacidade de processamento tende a ser feito ou de acordo com o caso médio, arriscando uma sobrecarga do sistema, ou de acordo com o pior caso, gerando gastos desnecessários durante os momentos de baixa utilização. Para resolver esses problemas, uma das possíveis soluções é a utilização de tecnologias de processamento paralelo e distribuído, de forma a viabilizar certo grau de elasticidade aos sistemas. Esta pesquisa visa utilizar tais tecnologias, fazendo uso do modelo de workflow para implementação de uma arquitetura elástica auto-ajustável, a qual poderia responder à variações na intensidade do fluxo de dados com o recrutamento de novos recursos, de forma a ser capaz de lidar com a nova carga e aumentar a confiabilidade do sistema, ou com a liberação de recursos ociosos, de forma a gerar redução de custo pelo melhor aproveitando de recursos. Nesta dissertação é apresentada uma arquitetura empregada no processo de recepção de dados que visa mitigar a perda de dados recebidos em fluxo de dados contínuo de intensidade variável. A abordagem adotada ´e baseada em elasticidade na etapa de recepção dos dados, adicionando ou removendo servidores locais ou na nuvem com recursos de armazenamento na etapa de recepção dos dados. Essa elasticidade permite que o sistema ajuste dinamicamente sua capacidade para lidar com picos de carga sem incorrer em custos excessivos durante períodos de baixa demanda. Foi construído um protótipo utilizando servidores na nuvem, cujos resultados demonstram o sucesso da abordagem.
id USP_b338e9b46f03e993031cfc8430e7f342
oai_identifier_str oai:teses.usp.br:tde-20082024-101910
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Armazenamento elástico na recepção de dados em fluxo contínuo variável.Elastic storage in the reception of variable continuous data flow.Aumento de confiabilidadeCloud computingComputação em nuvemContinuous data stream processing systemsElasticidade de recursosModelo workflowReliability enhancement, Workflow modelResource elasticitySistemas de processamento de fluxo de dados contínuosO crescimento do número de usuários e dispositivos conectados à internet, junto ao aumento da quantidade e rapidez com que novas informações são geradas, e a velocidade em que esses dados deixam de ser relevantes e perdem seu valor, contribuem para a dificuldade em utilizar métodos convencionais de computação para extrair informações úteis da grande massa de dados gerada constantemente. Uma solução para a obtenção dessas informações valiosas, com menores custos de armazenamento e maior retorno, seria o Processamento de Fluxos De Dados Contínuos (PFDC). O PFDC, porém, tem seus próprios desafios, tais como garantir que os dados dos fluxos sejam lidos sem perdas, evitar múltiplas leituras dos mesmos dados, processar eficientemente os dados de forma a reduzir latência, e permitir escalabilidade, e todos esses fatores se traduzem em custos elevados. Em cenários que apresentam um fluxo de dados contínuo e de mesma intensidade, é possível otimizar o hardware para a demanda, porém, em casos como o monitoramento de uma rede social, que vê seus picos durante e após algum evento ou em horários de repouso, o fluxo varia de intensidade conforme o momento. Isso significa que o dimensionamento da capacidade de processamento tende a ser feito ou de acordo com o caso médio, arriscando uma sobrecarga do sistema, ou de acordo com o pior caso, gerando gastos desnecessários durante os momentos de baixa utilização. Para resolver esses problemas, uma das possíveis soluções é a utilização de tecnologias de processamento paralelo e distribuído, de forma a viabilizar certo grau de elasticidade aos sistemas. Esta pesquisa visa utilizar tais tecnologias, fazendo uso do modelo de workflow para implementação de uma arquitetura elástica auto-ajustável, a qual poderia responder à variações na intensidade do fluxo de dados com o recrutamento de novos recursos, de forma a ser capaz de lidar com a nova carga e aumentar a confiabilidade do sistema, ou com a liberação de recursos ociosos, de forma a gerar redução de custo pelo melhor aproveitando de recursos. Nesta dissertação é apresentada uma arquitetura empregada no processo de recepção de dados que visa mitigar a perda de dados recebidos em fluxo de dados contínuo de intensidade variável. A abordagem adotada ´e baseada em elasticidade na etapa de recepção dos dados, adicionando ou removendo servidores locais ou na nuvem com recursos de armazenamento na etapa de recepção dos dados. Essa elasticidade permite que o sistema ajuste dinamicamente sua capacidade para lidar com picos de carga sem incorrer em custos excessivos durante períodos de baixa demanda. Foi construído um protótipo utilizando servidores na nuvem, cujos resultados demonstram o sucesso da abordagem.The growing number of users and devices connected to the internet, coupled with the increase in data generated, and the speed in which such data loses relevancy and value, are all contributing factors to the difficulty in utilizing conventional computational methods to extract useful information from the big mass of data constantly generated in the web. A solution to this problem, which would enable obtaining such valuable information with lower storage costs and better results, is Data Stream Processing (DSP) or Stream Processing (SP). Stream Processing, however, presents its own challenges, such as ensuring that data is read without losses (lossless reception); avoiding reading the same data multiple times (and even worse, considering the same data to be different data); processing data in an efficient manner to reduce latency; and enabling scalability. All of these challenges usually translate to increases in total cost of the solution, and ultimately elevated costs. When dealing with scenarios which present a continuous flow of data, one can optimize the hardware usage according to the demand, however, in cases such as monitoring a social network, which presents peak usage right after some significant event or in specific times of the day, the flow of data itself is variable. This means that dimensioning the processing capacity of the system tends to be done either according to a mean case, risking overloading the system at peak moments, or according to the worst case scenario, which means having the hardware sit idle or with low usage most of the time, increasing overall cost of the system in an unnecessary manner. To solve these problems, one solution is using Stream Processing technologies, coupled with distributed and parallel processing, in a way to enable a certain degree of elasticity in the system. This research aims to utilize such technologies, making use of the workflow model to implement an architecture elastic and self-adjusting, which can respond to variations in the data flow intensity by recruiting more resources, becoming capable of handling an increasing load and increasing the confiability and reliability of the system as a whole, or by releasing idle resources, providing a cost reduction by better handling available system resources. This dissertation presents an architecture employed in the data reception process aimed at mitigating data loss in continuous data streams of variable intensity. The adopted approach is based on elasticity in the data reception stage, adding or removing local or cloud servers with storage resources as needed. This elasticity allows the system to dynamically adjust its capacity to handle load peaks without incurring excessive costs during periods of low demand. A prototype was built using cloud servers, and the results demonstrate the success of the approach.Biblioteca Digitais de Teses e Dissertações da USPSato, Liria MatsumotoBulsoni, Felipe Garcia2024-04-23info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/3/3141/tde-20082024-101910/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-10-09T12:45:11Zoai:teses.usp.br:tde-20082024-101910Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-10-09T12:45:11Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Armazenamento elástico na recepção de dados em fluxo contínuo variável.
Elastic storage in the reception of variable continuous data flow.
title Armazenamento elástico na recepção de dados em fluxo contínuo variável.
spellingShingle Armazenamento elástico na recepção de dados em fluxo contínuo variável.
Bulsoni, Felipe Garcia
Aumento de confiabilidade
Cloud computing
Computação em nuvem
Continuous data stream processing systems
Elasticidade de recursos
Modelo workflow
Reliability enhancement, Workflow model
Resource elasticity
Sistemas de processamento de fluxo de dados contínuos
title_short Armazenamento elástico na recepção de dados em fluxo contínuo variável.
title_full Armazenamento elástico na recepção de dados em fluxo contínuo variável.
title_fullStr Armazenamento elástico na recepção de dados em fluxo contínuo variável.
title_full_unstemmed Armazenamento elástico na recepção de dados em fluxo contínuo variável.
title_sort Armazenamento elástico na recepção de dados em fluxo contínuo variável.
author Bulsoni, Felipe Garcia
author_facet Bulsoni, Felipe Garcia
author_role author
dc.contributor.none.fl_str_mv Sato, Liria Matsumoto
dc.contributor.author.fl_str_mv Bulsoni, Felipe Garcia
dc.subject.por.fl_str_mv Aumento de confiabilidade
Cloud computing
Computação em nuvem
Continuous data stream processing systems
Elasticidade de recursos
Modelo workflow
Reliability enhancement, Workflow model
Resource elasticity
Sistemas de processamento de fluxo de dados contínuos
topic Aumento de confiabilidade
Cloud computing
Computação em nuvem
Continuous data stream processing systems
Elasticidade de recursos
Modelo workflow
Reliability enhancement, Workflow model
Resource elasticity
Sistemas de processamento de fluxo de dados contínuos
description O crescimento do número de usuários e dispositivos conectados à internet, junto ao aumento da quantidade e rapidez com que novas informações são geradas, e a velocidade em que esses dados deixam de ser relevantes e perdem seu valor, contribuem para a dificuldade em utilizar métodos convencionais de computação para extrair informações úteis da grande massa de dados gerada constantemente. Uma solução para a obtenção dessas informações valiosas, com menores custos de armazenamento e maior retorno, seria o Processamento de Fluxos De Dados Contínuos (PFDC). O PFDC, porém, tem seus próprios desafios, tais como garantir que os dados dos fluxos sejam lidos sem perdas, evitar múltiplas leituras dos mesmos dados, processar eficientemente os dados de forma a reduzir latência, e permitir escalabilidade, e todos esses fatores se traduzem em custos elevados. Em cenários que apresentam um fluxo de dados contínuo e de mesma intensidade, é possível otimizar o hardware para a demanda, porém, em casos como o monitoramento de uma rede social, que vê seus picos durante e após algum evento ou em horários de repouso, o fluxo varia de intensidade conforme o momento. Isso significa que o dimensionamento da capacidade de processamento tende a ser feito ou de acordo com o caso médio, arriscando uma sobrecarga do sistema, ou de acordo com o pior caso, gerando gastos desnecessários durante os momentos de baixa utilização. Para resolver esses problemas, uma das possíveis soluções é a utilização de tecnologias de processamento paralelo e distribuído, de forma a viabilizar certo grau de elasticidade aos sistemas. Esta pesquisa visa utilizar tais tecnologias, fazendo uso do modelo de workflow para implementação de uma arquitetura elástica auto-ajustável, a qual poderia responder à variações na intensidade do fluxo de dados com o recrutamento de novos recursos, de forma a ser capaz de lidar com a nova carga e aumentar a confiabilidade do sistema, ou com a liberação de recursos ociosos, de forma a gerar redução de custo pelo melhor aproveitando de recursos. Nesta dissertação é apresentada uma arquitetura empregada no processo de recepção de dados que visa mitigar a perda de dados recebidos em fluxo de dados contínuo de intensidade variável. A abordagem adotada ´e baseada em elasticidade na etapa de recepção dos dados, adicionando ou removendo servidores locais ou na nuvem com recursos de armazenamento na etapa de recepção dos dados. Essa elasticidade permite que o sistema ajuste dinamicamente sua capacidade para lidar com picos de carga sem incorrer em custos excessivos durante períodos de baixa demanda. Foi construído um protótipo utilizando servidores na nuvem, cujos resultados demonstram o sucesso da abordagem.
publishDate 2024
dc.date.none.fl_str_mv 2024-04-23
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/3/3141/tde-20082024-101910/
url https://www.teses.usp.br/teses/disponiveis/3/3141/tde-20082024-101910/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1818279215040036864