Armazenamento elástico na recepção de dados em fluxo contínuo variável.
| Ano de defesa: | 2024 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.teses.usp.br/teses/disponiveis/3/3141/tde-20082024-101910/ |
Resumo: | O crescimento do número de usuários e dispositivos conectados à internet, junto ao aumento da quantidade e rapidez com que novas informações são geradas, e a velocidade em que esses dados deixam de ser relevantes e perdem seu valor, contribuem para a dificuldade em utilizar métodos convencionais de computação para extrair informações úteis da grande massa de dados gerada constantemente. Uma solução para a obtenção dessas informações valiosas, com menores custos de armazenamento e maior retorno, seria o Processamento de Fluxos De Dados Contínuos (PFDC). O PFDC, porém, tem seus próprios desafios, tais como garantir que os dados dos fluxos sejam lidos sem perdas, evitar múltiplas leituras dos mesmos dados, processar eficientemente os dados de forma a reduzir latência, e permitir escalabilidade, e todos esses fatores se traduzem em custos elevados. Em cenários que apresentam um fluxo de dados contínuo e de mesma intensidade, é possível otimizar o hardware para a demanda, porém, em casos como o monitoramento de uma rede social, que vê seus picos durante e após algum evento ou em horários de repouso, o fluxo varia de intensidade conforme o momento. Isso significa que o dimensionamento da capacidade de processamento tende a ser feito ou de acordo com o caso médio, arriscando uma sobrecarga do sistema, ou de acordo com o pior caso, gerando gastos desnecessários durante os momentos de baixa utilização. Para resolver esses problemas, uma das possíveis soluções é a utilização de tecnologias de processamento paralelo e distribuído, de forma a viabilizar certo grau de elasticidade aos sistemas. Esta pesquisa visa utilizar tais tecnologias, fazendo uso do modelo de workflow para implementação de uma arquitetura elástica auto-ajustável, a qual poderia responder à variações na intensidade do fluxo de dados com o recrutamento de novos recursos, de forma a ser capaz de lidar com a nova carga e aumentar a confiabilidade do sistema, ou com a liberação de recursos ociosos, de forma a gerar redução de custo pelo melhor aproveitando de recursos. Nesta dissertação é apresentada uma arquitetura empregada no processo de recepção de dados que visa mitigar a perda de dados recebidos em fluxo de dados contínuo de intensidade variável. A abordagem adotada ´e baseada em elasticidade na etapa de recepção dos dados, adicionando ou removendo servidores locais ou na nuvem com recursos de armazenamento na etapa de recepção dos dados. Essa elasticidade permite que o sistema ajuste dinamicamente sua capacidade para lidar com picos de carga sem incorrer em custos excessivos durante períodos de baixa demanda. Foi construído um protótipo utilizando servidores na nuvem, cujos resultados demonstram o sucesso da abordagem. |
| id |
USP_b338e9b46f03e993031cfc8430e7f342 |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-20082024-101910 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Armazenamento elástico na recepção de dados em fluxo contínuo variável.Elastic storage in the reception of variable continuous data flow.Aumento de confiabilidadeCloud computingComputação em nuvemContinuous data stream processing systemsElasticidade de recursosModelo workflowReliability enhancement, Workflow modelResource elasticitySistemas de processamento de fluxo de dados contínuosO crescimento do número de usuários e dispositivos conectados à internet, junto ao aumento da quantidade e rapidez com que novas informações são geradas, e a velocidade em que esses dados deixam de ser relevantes e perdem seu valor, contribuem para a dificuldade em utilizar métodos convencionais de computação para extrair informações úteis da grande massa de dados gerada constantemente. Uma solução para a obtenção dessas informações valiosas, com menores custos de armazenamento e maior retorno, seria o Processamento de Fluxos De Dados Contínuos (PFDC). O PFDC, porém, tem seus próprios desafios, tais como garantir que os dados dos fluxos sejam lidos sem perdas, evitar múltiplas leituras dos mesmos dados, processar eficientemente os dados de forma a reduzir latência, e permitir escalabilidade, e todos esses fatores se traduzem em custos elevados. Em cenários que apresentam um fluxo de dados contínuo e de mesma intensidade, é possível otimizar o hardware para a demanda, porém, em casos como o monitoramento de uma rede social, que vê seus picos durante e após algum evento ou em horários de repouso, o fluxo varia de intensidade conforme o momento. Isso significa que o dimensionamento da capacidade de processamento tende a ser feito ou de acordo com o caso médio, arriscando uma sobrecarga do sistema, ou de acordo com o pior caso, gerando gastos desnecessários durante os momentos de baixa utilização. Para resolver esses problemas, uma das possíveis soluções é a utilização de tecnologias de processamento paralelo e distribuído, de forma a viabilizar certo grau de elasticidade aos sistemas. Esta pesquisa visa utilizar tais tecnologias, fazendo uso do modelo de workflow para implementação de uma arquitetura elástica auto-ajustável, a qual poderia responder à variações na intensidade do fluxo de dados com o recrutamento de novos recursos, de forma a ser capaz de lidar com a nova carga e aumentar a confiabilidade do sistema, ou com a liberação de recursos ociosos, de forma a gerar redução de custo pelo melhor aproveitando de recursos. Nesta dissertação é apresentada uma arquitetura empregada no processo de recepção de dados que visa mitigar a perda de dados recebidos em fluxo de dados contínuo de intensidade variável. A abordagem adotada ´e baseada em elasticidade na etapa de recepção dos dados, adicionando ou removendo servidores locais ou na nuvem com recursos de armazenamento na etapa de recepção dos dados. Essa elasticidade permite que o sistema ajuste dinamicamente sua capacidade para lidar com picos de carga sem incorrer em custos excessivos durante períodos de baixa demanda. Foi construído um protótipo utilizando servidores na nuvem, cujos resultados demonstram o sucesso da abordagem.The growing number of users and devices connected to the internet, coupled with the increase in data generated, and the speed in which such data loses relevancy and value, are all contributing factors to the difficulty in utilizing conventional computational methods to extract useful information from the big mass of data constantly generated in the web. A solution to this problem, which would enable obtaining such valuable information with lower storage costs and better results, is Data Stream Processing (DSP) or Stream Processing (SP). Stream Processing, however, presents its own challenges, such as ensuring that data is read without losses (lossless reception); avoiding reading the same data multiple times (and even worse, considering the same data to be different data); processing data in an efficient manner to reduce latency; and enabling scalability. All of these challenges usually translate to increases in total cost of the solution, and ultimately elevated costs. When dealing with scenarios which present a continuous flow of data, one can optimize the hardware usage according to the demand, however, in cases such as monitoring a social network, which presents peak usage right after some significant event or in specific times of the day, the flow of data itself is variable. This means that dimensioning the processing capacity of the system tends to be done either according to a mean case, risking overloading the system at peak moments, or according to the worst case scenario, which means having the hardware sit idle or with low usage most of the time, increasing overall cost of the system in an unnecessary manner. To solve these problems, one solution is using Stream Processing technologies, coupled with distributed and parallel processing, in a way to enable a certain degree of elasticity in the system. This research aims to utilize such technologies, making use of the workflow model to implement an architecture elastic and self-adjusting, which can respond to variations in the data flow intensity by recruiting more resources, becoming capable of handling an increasing load and increasing the confiability and reliability of the system as a whole, or by releasing idle resources, providing a cost reduction by better handling available system resources. This dissertation presents an architecture employed in the data reception process aimed at mitigating data loss in continuous data streams of variable intensity. The adopted approach is based on elasticity in the data reception stage, adding or removing local or cloud servers with storage resources as needed. This elasticity allows the system to dynamically adjust its capacity to handle load peaks without incurring excessive costs during periods of low demand. A prototype was built using cloud servers, and the results demonstrate the success of the approach.Biblioteca Digitais de Teses e Dissertações da USPSato, Liria MatsumotoBulsoni, Felipe Garcia2024-04-23info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/3/3141/tde-20082024-101910/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-10-09T12:45:11Zoai:teses.usp.br:tde-20082024-101910Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-10-09T12:45:11Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Armazenamento elástico na recepção de dados em fluxo contínuo variável. Elastic storage in the reception of variable continuous data flow. |
| title |
Armazenamento elástico na recepção de dados em fluxo contínuo variável. |
| spellingShingle |
Armazenamento elástico na recepção de dados em fluxo contínuo variável. Bulsoni, Felipe Garcia Aumento de confiabilidade Cloud computing Computação em nuvem Continuous data stream processing systems Elasticidade de recursos Modelo workflow Reliability enhancement, Workflow model Resource elasticity Sistemas de processamento de fluxo de dados contínuos |
| title_short |
Armazenamento elástico na recepção de dados em fluxo contínuo variável. |
| title_full |
Armazenamento elástico na recepção de dados em fluxo contínuo variável. |
| title_fullStr |
Armazenamento elástico na recepção de dados em fluxo contínuo variável. |
| title_full_unstemmed |
Armazenamento elástico na recepção de dados em fluxo contínuo variável. |
| title_sort |
Armazenamento elástico na recepção de dados em fluxo contínuo variável. |
| author |
Bulsoni, Felipe Garcia |
| author_facet |
Bulsoni, Felipe Garcia |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Sato, Liria Matsumoto |
| dc.contributor.author.fl_str_mv |
Bulsoni, Felipe Garcia |
| dc.subject.por.fl_str_mv |
Aumento de confiabilidade Cloud computing Computação em nuvem Continuous data stream processing systems Elasticidade de recursos Modelo workflow Reliability enhancement, Workflow model Resource elasticity Sistemas de processamento de fluxo de dados contínuos |
| topic |
Aumento de confiabilidade Cloud computing Computação em nuvem Continuous data stream processing systems Elasticidade de recursos Modelo workflow Reliability enhancement, Workflow model Resource elasticity Sistemas de processamento de fluxo de dados contínuos |
| description |
O crescimento do número de usuários e dispositivos conectados à internet, junto ao aumento da quantidade e rapidez com que novas informações são geradas, e a velocidade em que esses dados deixam de ser relevantes e perdem seu valor, contribuem para a dificuldade em utilizar métodos convencionais de computação para extrair informações úteis da grande massa de dados gerada constantemente. Uma solução para a obtenção dessas informações valiosas, com menores custos de armazenamento e maior retorno, seria o Processamento de Fluxos De Dados Contínuos (PFDC). O PFDC, porém, tem seus próprios desafios, tais como garantir que os dados dos fluxos sejam lidos sem perdas, evitar múltiplas leituras dos mesmos dados, processar eficientemente os dados de forma a reduzir latência, e permitir escalabilidade, e todos esses fatores se traduzem em custos elevados. Em cenários que apresentam um fluxo de dados contínuo e de mesma intensidade, é possível otimizar o hardware para a demanda, porém, em casos como o monitoramento de uma rede social, que vê seus picos durante e após algum evento ou em horários de repouso, o fluxo varia de intensidade conforme o momento. Isso significa que o dimensionamento da capacidade de processamento tende a ser feito ou de acordo com o caso médio, arriscando uma sobrecarga do sistema, ou de acordo com o pior caso, gerando gastos desnecessários durante os momentos de baixa utilização. Para resolver esses problemas, uma das possíveis soluções é a utilização de tecnologias de processamento paralelo e distribuído, de forma a viabilizar certo grau de elasticidade aos sistemas. Esta pesquisa visa utilizar tais tecnologias, fazendo uso do modelo de workflow para implementação de uma arquitetura elástica auto-ajustável, a qual poderia responder à variações na intensidade do fluxo de dados com o recrutamento de novos recursos, de forma a ser capaz de lidar com a nova carga e aumentar a confiabilidade do sistema, ou com a liberação de recursos ociosos, de forma a gerar redução de custo pelo melhor aproveitando de recursos. Nesta dissertação é apresentada uma arquitetura empregada no processo de recepção de dados que visa mitigar a perda de dados recebidos em fluxo de dados contínuo de intensidade variável. A abordagem adotada ´e baseada em elasticidade na etapa de recepção dos dados, adicionando ou removendo servidores locais ou na nuvem com recursos de armazenamento na etapa de recepção dos dados. Essa elasticidade permite que o sistema ajuste dinamicamente sua capacidade para lidar com picos de carga sem incorrer em custos excessivos durante períodos de baixa demanda. Foi construído um protótipo utilizando servidores na nuvem, cujos resultados demonstram o sucesso da abordagem. |
| publishDate |
2024 |
| dc.date.none.fl_str_mv |
2024-04-23 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/3/3141/tde-20082024-101910/ |
| url |
https://www.teses.usp.br/teses/disponiveis/3/3141/tde-20082024-101910/ |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1818279215040036864 |