Dataflows de tempo real como abstração para ferramentas de processamento de Big Data
| Ano de defesa: | 2020 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.teses.usp.br/teses/disponiveis/45/45134/tde-26052020-230822/ |
Resumo: | Grandes volumes de dados, provenientes de diversas fontes, são gerados continuamente nas cidades. O processamento e análise desses dados desempenham um papel fundamental na implementação de iniciativas para cidades inteligentes. Para processar Big Data urbano, é fundamental o uso de ferramentas de alto desempenho, que possam se beneficiar de computação paralela e distribuída para acelerar o processamento e prover respostas rápidas. Entretanto, esse uso não é trivial, pois as ferramentas, geralmente, não são interoperáveis e demandam que seus usuários tenham conhecimentos de computação paralela e distribuída e bancos de dados. Além disso, em cidades inteligentes, uma aplicação precisa ser capaz de se adaptar ao contexto atual de sua execução. Por exemplo, uma aplicação que mostra a situação atual do trânsito, em um contexto de indisponibilidade momentânea de dados coletados em tempo real, deve poder mostrar uma previsão do trânsito baseada em dados históricos, sendo necessária a combinação de processamento de dados em tempo real e em lotes. O objetivo deste trabalho é facilitar o uso de ferramentas de processamento de Big Data para desenvolvedores de software. Para isso, foi criada uma interface para especificação de workflows para o processamento de dados (ou dataflows) e um sistema de software que possibilita a execução deles em diferentes ferramentas de Big Data. Por um lado, a interface sintetiza os principais recursos dessas ferramentas, abstraindo suas especificidades e fornecendo uma representação padronizada para eles. Por outro lado, o sistema de software mapeia os dataflows definidos por meio da interface em modelos inteligíveis às ferramentas. A interface e o sistema propostos formam uma camada de abstração sobre os arcabouços de Big Data. Ambos foram validados e avaliados por meio da implementação de uma aplicação no domínio de mobilidade urbana, que processa dados reais da cidade de São Paulo. A aplicação escrita com o auxílio da interface foi analisada por meio de métricas de código-fonte. A partir da análise, foi possível concluir que houve ganhos com o uso da interface, como a redução no número de linhas, métodos, atributos, bem como a diminuição da complexidade ciclomática do código-fonte. |
| id |
USP_21f244e0b707bb1392aa4f6a8c3297cb |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-26052020-230822 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Dataflows de tempo real como abstração para ferramentas de processamento de Big DataReal time dataflows as abstraction for Big Data processing toolsBig data processingCidades inteligentesDataflowsDataflowsProcessamento de big dataSmart citiesWorkflowsWorkflowsGrandes volumes de dados, provenientes de diversas fontes, são gerados continuamente nas cidades. O processamento e análise desses dados desempenham um papel fundamental na implementação de iniciativas para cidades inteligentes. Para processar Big Data urbano, é fundamental o uso de ferramentas de alto desempenho, que possam se beneficiar de computação paralela e distribuída para acelerar o processamento e prover respostas rápidas. Entretanto, esse uso não é trivial, pois as ferramentas, geralmente, não são interoperáveis e demandam que seus usuários tenham conhecimentos de computação paralela e distribuída e bancos de dados. Além disso, em cidades inteligentes, uma aplicação precisa ser capaz de se adaptar ao contexto atual de sua execução. Por exemplo, uma aplicação que mostra a situação atual do trânsito, em um contexto de indisponibilidade momentânea de dados coletados em tempo real, deve poder mostrar uma previsão do trânsito baseada em dados históricos, sendo necessária a combinação de processamento de dados em tempo real e em lotes. O objetivo deste trabalho é facilitar o uso de ferramentas de processamento de Big Data para desenvolvedores de software. Para isso, foi criada uma interface para especificação de workflows para o processamento de dados (ou dataflows) e um sistema de software que possibilita a execução deles em diferentes ferramentas de Big Data. Por um lado, a interface sintetiza os principais recursos dessas ferramentas, abstraindo suas especificidades e fornecendo uma representação padronizada para eles. Por outro lado, o sistema de software mapeia os dataflows definidos por meio da interface em modelos inteligíveis às ferramentas. A interface e o sistema propostos formam uma camada de abstração sobre os arcabouços de Big Data. Ambos foram validados e avaliados por meio da implementação de uma aplicação no domínio de mobilidade urbana, que processa dados reais da cidade de São Paulo. A aplicação escrita com o auxílio da interface foi analisada por meio de métricas de código-fonte. A partir da análise, foi possível concluir que houve ganhos com o uso da interface, como a redução no número de linhas, métodos, atributos, bem como a diminuição da complexidade ciclomática do código-fonte.Large volumes of data, from different sources, are continuously generated in cities. Processing and analyzing these data play a key role in implementing smart city initiatives. In order to process urban Big Data, it is essential to use high performance tools, which can benefit from parallel and distributed computing to accelerate the processing and provide quick answers. However, this use is not trivial, as the tools are not interoperable and require knowledge of parallel and distributed computing and databases from their users. In addition, in smart cities, applications need to be able to self-adapt to the current context of their execution. For example, an application that shows the current traffic situation, in a context of momentary unavailability of data collected in real time, should be able to show a traffic forecast based on historical data, using a combination of real time and batch data processing. In this work, the goal is to facilitate the use of Big Data processing tools for software developers and, for that, we created an interface to specify workflows for data processing (or dataflows) and a software system that makes it possible to run them in different Big Data tools. On the one hand, the interface summarizes the main features of these tools, abstracting their specificities and providing a standardized representation for them. On the other hand, the software system maps the dataflows defined through the interface to intelligible models for the tools. The developed interface and system form an abstraction layer over the Big Data frameworks. Both were validated and evaluated through the implementation of an application in the field of urban mobility, using real data collected from the city of São Paulo. The application written with the aid of the interface was analyzed using source code metrics. From the analysis, it was possible to conclude that there was gain from the use of the interface, such as reducing the number of lines, methods, attributes, as well as decreasing the cyclomatic complexity of its source code.Biblioteca Digitais de Teses e Dissertações da USPBraghetto, Kelly RosaMagano, Fernanda de Camargo2020-04-29info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/45/45134/tde-26052020-230822/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2020-05-27T18:43:02Zoai:teses.usp.br:tde-26052020-230822Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212020-05-27T18:43:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Dataflows de tempo real como abstração para ferramentas de processamento de Big Data Real time dataflows as abstraction for Big Data processing tools |
| title |
Dataflows de tempo real como abstração para ferramentas de processamento de Big Data |
| spellingShingle |
Dataflows de tempo real como abstração para ferramentas de processamento de Big Data Magano, Fernanda de Camargo Big data processing Cidades inteligentes Dataflows Dataflows Processamento de big data Smart cities Workflows Workflows |
| title_short |
Dataflows de tempo real como abstração para ferramentas de processamento de Big Data |
| title_full |
Dataflows de tempo real como abstração para ferramentas de processamento de Big Data |
| title_fullStr |
Dataflows de tempo real como abstração para ferramentas de processamento de Big Data |
| title_full_unstemmed |
Dataflows de tempo real como abstração para ferramentas de processamento de Big Data |
| title_sort |
Dataflows de tempo real como abstração para ferramentas de processamento de Big Data |
| author |
Magano, Fernanda de Camargo |
| author_facet |
Magano, Fernanda de Camargo |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Braghetto, Kelly Rosa |
| dc.contributor.author.fl_str_mv |
Magano, Fernanda de Camargo |
| dc.subject.por.fl_str_mv |
Big data processing Cidades inteligentes Dataflows Dataflows Processamento de big data Smart cities Workflows Workflows |
| topic |
Big data processing Cidades inteligentes Dataflows Dataflows Processamento de big data Smart cities Workflows Workflows |
| description |
Grandes volumes de dados, provenientes de diversas fontes, são gerados continuamente nas cidades. O processamento e análise desses dados desempenham um papel fundamental na implementação de iniciativas para cidades inteligentes. Para processar Big Data urbano, é fundamental o uso de ferramentas de alto desempenho, que possam se beneficiar de computação paralela e distribuída para acelerar o processamento e prover respostas rápidas. Entretanto, esse uso não é trivial, pois as ferramentas, geralmente, não são interoperáveis e demandam que seus usuários tenham conhecimentos de computação paralela e distribuída e bancos de dados. Além disso, em cidades inteligentes, uma aplicação precisa ser capaz de se adaptar ao contexto atual de sua execução. Por exemplo, uma aplicação que mostra a situação atual do trânsito, em um contexto de indisponibilidade momentânea de dados coletados em tempo real, deve poder mostrar uma previsão do trânsito baseada em dados históricos, sendo necessária a combinação de processamento de dados em tempo real e em lotes. O objetivo deste trabalho é facilitar o uso de ferramentas de processamento de Big Data para desenvolvedores de software. Para isso, foi criada uma interface para especificação de workflows para o processamento de dados (ou dataflows) e um sistema de software que possibilita a execução deles em diferentes ferramentas de Big Data. Por um lado, a interface sintetiza os principais recursos dessas ferramentas, abstraindo suas especificidades e fornecendo uma representação padronizada para eles. Por outro lado, o sistema de software mapeia os dataflows definidos por meio da interface em modelos inteligíveis às ferramentas. A interface e o sistema propostos formam uma camada de abstração sobre os arcabouços de Big Data. Ambos foram validados e avaliados por meio da implementação de uma aplicação no domínio de mobilidade urbana, que processa dados reais da cidade de São Paulo. A aplicação escrita com o auxílio da interface foi analisada por meio de métricas de código-fonte. A partir da análise, foi possível concluir que houve ganhos com o uso da interface, como a redução no número de linhas, métodos, atributos, bem como a diminuição da complexidade ciclomática do código-fonte. |
| publishDate |
2020 |
| dc.date.none.fl_str_mv |
2020-04-29 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/45/45134/tde-26052020-230822/ |
| url |
https://www.teses.usp.br/teses/disponiveis/45/45134/tde-26052020-230822/ |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1815258456296259584 |