A model for automatized data integration in hadoop-based data lakes

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Couto, Júlia Mara Colleoni lattes
Orientador(a): Ruiz, Duncan Dubugras Alcoba lattes
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Pontifícia Universidade Católica do Rio Grande do Sul
Programa de Pós-Graduação: Programa de Pós-Graduação em Ciência da Computação
Departamento: Escola Politécnica
País: Brasil
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: https://tede2.pucrs.br/tede2/handle/tede/10250
Resumo: A imensa quantidade de dados que são gerados atualmente pelos nossos sistemas computacionais e dispositivos, conhecida por big data, requer tecnologias específicas, como data lakes, para que possam ser armazenados, processados e distribuídos. Data lakes são arquiteturas onde dados dos mais diversos formatos são armazenados para que sejam consultados quando necessário, sem a necessidade de esquemas prévios. Data lakes possibilitam o gerenciamento de ecossistemas de big data, e, hoje em dia, a maioria é criada tendo como base o framework Hadoop. Um dos desafios relacionados a data lakes é a integração dos dados de variados formatos. A integração dos dados é uma tarefa complexa que requer a atenção de um especialista, toma tempo e é sujeita a erros. Contudo, essa tarefa pode ser facilitada se forem utilizadas técnicas para conhecer o perfil dos dados. Nesta tese, desenvolve-se um modelo para automatizar o processo de integração de dados heterogêneos em data lakes baseados em Hadoop. O método desenhado para auxiliar a atingir os objetivos de pesquisa divide-se em 5 fases: Fundamentação, Implementação, Experimentação, Avaliação e Modelo final. As principais contribuições desta tese incluem os achados de três revisões sistemáticas da literatura, onde são exaustivamente discutidos os temas relacionados a data lakes, big data profiling e integração de dados em data lakes, e que serviram de base para o desenvolvimento de um modelo que possibilita a integração automatizada de dados heterogêneos em data lakes baseados no Hadoop, além dos experimentos com dados de bioinformática.
id P_RS_a504f6cc70e6ee3559cb8de64a26a302
oai_identifier_str oai:tede2.pucrs.br:tede/10250
network_acronym_str P_RS
network_name_str Biblioteca Digital de Teses e Dissertações da PUC_RS
repository_id_str
spelling Ruiz, Duncan Dubugras Alcobahttp://lattes.cnpq.br/8250832800932125http://lattes.cnpq.br/0619802843633726Couto, Júlia Mara Colleoni2022-05-24T21:12:14Z2022-03-31https://tede2.pucrs.br/tede2/handle/tede/10250A imensa quantidade de dados que são gerados atualmente pelos nossos sistemas computacionais e dispositivos, conhecida por big data, requer tecnologias específicas, como data lakes, para que possam ser armazenados, processados e distribuídos. Data lakes são arquiteturas onde dados dos mais diversos formatos são armazenados para que sejam consultados quando necessário, sem a necessidade de esquemas prévios. Data lakes possibilitam o gerenciamento de ecossistemas de big data, e, hoje em dia, a maioria é criada tendo como base o framework Hadoop. Um dos desafios relacionados a data lakes é a integração dos dados de variados formatos. A integração dos dados é uma tarefa complexa que requer a atenção de um especialista, toma tempo e é sujeita a erros. Contudo, essa tarefa pode ser facilitada se forem utilizadas técnicas para conhecer o perfil dos dados. Nesta tese, desenvolve-se um modelo para automatizar o processo de integração de dados heterogêneos em data lakes baseados em Hadoop. O método desenhado para auxiliar a atingir os objetivos de pesquisa divide-se em 5 fases: Fundamentação, Implementação, Experimentação, Avaliação e Modelo final. As principais contribuições desta tese incluem os achados de três revisões sistemáticas da literatura, onde são exaustivamente discutidos os temas relacionados a data lakes, big data profiling e integração de dados em data lakes, e que serviram de base para o desenvolvimento de um modelo que possibilita a integração automatizada de dados heterogêneos em data lakes baseados no Hadoop, além dos experimentos com dados de bioinformática.The massive amount of data currently generated by our computing systems and devices, known as big data, require specific technologies to be stored, processed, and distributed. Data lakes are architectures to store data of various formats to be queried when necessary, without needing a predefined schema. Data lakes aim to manage big data ecosystems, and most are currently created based on the Hadoop framework. A known challenge related to data lakes is integrating data from different formats. Data integration is a complex task that requires the attention of a specialist, besides being time-consuming and error-prone. However, this task can be facilitated if we use techniques to know the data profile. This thesis develops a model to automate the heterogeneous data integration process in Hadoop-based data lakes. In this sense, we design a method with five phases to help achieve the research objective: Foundation, Implementation, Experimentation, Evaluation, and Final Model. Our main contributions include the findings of three systematic literature reviews, where we deeply discuss themes related to data lakes, big data profiling, and data integration in data lakes, which served as a basis for the development of a model that enables the automatized integration of heterogeneous data in Hadoop-based data lakes, besides the experiments with bioinformatics data.Submitted by PPG Ciência da Computação (ppgcc@pucrs.br) on 2022-05-24T13:56:04Z No. of bitstreams: 1 JULIA_MARA_COLLEONI_COUTO_TES.pdf: 2996794 bytes, checksum: d0cf4e247394144891edcf726dd847f3 (MD5)Approved for entry into archive by Sarajane Pan (sarajane.pan@pucrs.br) on 2022-05-24T21:06:49Z (GMT) No. of bitstreams: 1 JULIA_MARA_COLLEONI_COUTO_TES.pdf: 2996794 bytes, checksum: d0cf4e247394144891edcf726dd847f3 (MD5)Made available in DSpace on 2022-05-24T21:12:14Z (GMT). No. of bitstreams: 1 JULIA_MARA_COLLEONI_COUTO_TES.pdf: 2996794 bytes, checksum: d0cf4e247394144891edcf726dd847f3 (MD5) Previous issue date: 2022-03-31Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESapplication/pdfhttps://tede2.pucrs.br/tede2/retrieve/184206/JULIA_MARA_COLLEONI_COUTO_TES.pdf.jpgengPontifícia Universidade Católica do Rio Grande do SulPrograma de Pós-Graduação em Ciência da ComputaçãoPUCRSBrasilEscola PolitécnicaBig DataData LakeHadoopData ProfilingData IntegrationBig DataData LakeHadoopPerfilagem de DadosIntegração de DadosCIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAOA model for automatized data integration in hadoop-based data lakesinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisTrabalho não apresenta restrição para publicação-4570527706994352458500500600-8620782570833253013590462550136975366info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da PUC_RSinstname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)instacron:PUC_RSTHUMBNAILJULIA_MARA_COLLEONI_COUTO_TES.pdf.jpgJULIA_MARA_COLLEONI_COUTO_TES.pdf.jpgimage/jpeg5336https://tede2.pucrs.br/tede2/bitstream/tede/10250/4/JULIA_MARA_COLLEONI_COUTO_TES.pdf.jpg45dd815b1edb58a392fb1ea9c5a7515aMD54TEXTJULIA_MARA_COLLEONI_COUTO_TES.pdf.txtJULIA_MARA_COLLEONI_COUTO_TES.pdf.txttext/plain224150https://tede2.pucrs.br/tede2/bitstream/tede/10250/3/JULIA_MARA_COLLEONI_COUTO_TES.pdf.txtb9b9c37b1c5a3af63787f6d96e1ba3d7MD53ORIGINALJULIA_MARA_COLLEONI_COUTO_TES.pdfJULIA_MARA_COLLEONI_COUTO_TES.pdfapplication/pdf2996794https://tede2.pucrs.br/tede2/bitstream/tede/10250/2/JULIA_MARA_COLLEONI_COUTO_TES.pdfd0cf4e247394144891edcf726dd847f3MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-8590https://tede2.pucrs.br/tede2/bitstream/tede/10250/1/license.txt220e11f2d3ba5354f917c7035aadef24MD51tede/102502022-05-24 20:00:17.553oai:tede2.pucrs.br:tede/10250QXV0b3JpemE/P28gcGFyYSBQdWJsaWNhPz9vIEVsZXRyP25pY2E6IENvbSBiYXNlIG5vIGRpc3Bvc3RvIG5hIExlaSBGZWRlcmFsIG4/OS42MTAsIGRlIDE5IGRlIGZldmVyZWlybyBkZSAxOTk4LCBvIGF1dG9yIEFVVE9SSVpBIGEgcHVibGljYT8/byBlbGV0cj9uaWNhIGRhIHByZXNlbnRlIG9icmEgbm8gYWNlcnZvIGRhIEJpYmxpb3RlY2EgRGlnaXRhbCBkYSBQb250aWY/Y2lhIFVuaXZlcnNpZGFkZSBDYXQ/bGljYSBkbyBSaW8gR3JhbmRlIGRvIFN1bCwgc2VkaWFkYSBhIEF2LiBJcGlyYW5nYSA2NjgxLCBQb3J0byBBbGVncmUsIFJpbyBHcmFuZGUgZG8gU3VsLCBjb20gcmVnaXN0cm8gZGUgQ05QSiA4ODYzMDQxMzAwMDItODEgYmVtIGNvbW8gZW0gb3V0cmFzIGJpYmxpb3RlY2FzIGRpZ2l0YWlzLCBuYWNpb25haXMgZSBpbnRlcm5hY2lvbmFpcywgY29ucz9yY2lvcyBlIHJlZGVzID9zIHF1YWlzIGEgYmlibGlvdGVjYSBkYSBQVUNSUyBwb3NzYSBhIHZpciBwYXJ0aWNpcGFyLCBzZW0gP251cyBhbHVzaXZvIGFvcyBkaXJlaXRvcyBhdXRvcmFpcywgYSB0P3R1bG8gZGUgZGl2dWxnYT8/byBkYSBwcm9kdT8/byBjaWVudD9maWNhLgo=Biblioteca Digital de Teses e Dissertaçõeshttp://tede2.pucrs.br/tede2/PRIhttps://tede2.pucrs.br/oai/requestbiblioteca.central@pucrs.br||opendoar:2022-05-24T23:00:17Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)false
dc.title.por.fl_str_mv A model for automatized data integration in hadoop-based data lakes
title A model for automatized data integration in hadoop-based data lakes
spellingShingle A model for automatized data integration in hadoop-based data lakes
Couto, Júlia Mara Colleoni
Big Data
Data Lake
Hadoop
Data Profiling
Data Integration
Big Data
Data Lake
Hadoop
Perfilagem de Dados
Integração de Dados
CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
title_short A model for automatized data integration in hadoop-based data lakes
title_full A model for automatized data integration in hadoop-based data lakes
title_fullStr A model for automatized data integration in hadoop-based data lakes
title_full_unstemmed A model for automatized data integration in hadoop-based data lakes
title_sort A model for automatized data integration in hadoop-based data lakes
author Couto, Júlia Mara Colleoni
author_facet Couto, Júlia Mara Colleoni
author_role author
dc.contributor.advisor1.fl_str_mv Ruiz, Duncan Dubugras Alcoba
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/8250832800932125
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/0619802843633726
dc.contributor.author.fl_str_mv Couto, Júlia Mara Colleoni
contributor_str_mv Ruiz, Duncan Dubugras Alcoba
dc.subject.eng.fl_str_mv Big Data
Data Lake
Hadoop
Data Profiling
Data Integration
topic Big Data
Data Lake
Hadoop
Data Profiling
Data Integration
Big Data
Data Lake
Hadoop
Perfilagem de Dados
Integração de Dados
CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
dc.subject.por.fl_str_mv Big Data
Data Lake
Hadoop
Perfilagem de Dados
Integração de Dados
dc.subject.cnpq.fl_str_mv CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
description A imensa quantidade de dados que são gerados atualmente pelos nossos sistemas computacionais e dispositivos, conhecida por big data, requer tecnologias específicas, como data lakes, para que possam ser armazenados, processados e distribuídos. Data lakes são arquiteturas onde dados dos mais diversos formatos são armazenados para que sejam consultados quando necessário, sem a necessidade de esquemas prévios. Data lakes possibilitam o gerenciamento de ecossistemas de big data, e, hoje em dia, a maioria é criada tendo como base o framework Hadoop. Um dos desafios relacionados a data lakes é a integração dos dados de variados formatos. A integração dos dados é uma tarefa complexa que requer a atenção de um especialista, toma tempo e é sujeita a erros. Contudo, essa tarefa pode ser facilitada se forem utilizadas técnicas para conhecer o perfil dos dados. Nesta tese, desenvolve-se um modelo para automatizar o processo de integração de dados heterogêneos em data lakes baseados em Hadoop. O método desenhado para auxiliar a atingir os objetivos de pesquisa divide-se em 5 fases: Fundamentação, Implementação, Experimentação, Avaliação e Modelo final. As principais contribuições desta tese incluem os achados de três revisões sistemáticas da literatura, onde são exaustivamente discutidos os temas relacionados a data lakes, big data profiling e integração de dados em data lakes, e que serviram de base para o desenvolvimento de um modelo que possibilita a integração automatizada de dados heterogêneos em data lakes baseados no Hadoop, além dos experimentos com dados de bioinformática.
publishDate 2022
dc.date.accessioned.fl_str_mv 2022-05-24T21:12:14Z
dc.date.issued.fl_str_mv 2022-03-31
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://tede2.pucrs.br/tede2/handle/tede/10250
url https://tede2.pucrs.br/tede2/handle/tede/10250
dc.language.iso.fl_str_mv eng
language eng
dc.relation.program.fl_str_mv -4570527706994352458
dc.relation.confidence.fl_str_mv 500
500
600
dc.relation.cnpq.fl_str_mv -862078257083325301
dc.relation.sponsorship.fl_str_mv 3590462550136975366
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Pontifícia Universidade Católica do Rio Grande do Sul
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Ciência da Computação
dc.publisher.initials.fl_str_mv PUCRS
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Escola Politécnica
publisher.none.fl_str_mv Pontifícia Universidade Católica do Rio Grande do Sul
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS
instname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron:PUC_RS
instname_str Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron_str PUC_RS
institution PUC_RS
reponame_str Biblioteca Digital de Teses e Dissertações da PUC_RS
collection Biblioteca Digital de Teses e Dissertações da PUC_RS
bitstream.url.fl_str_mv https://tede2.pucrs.br/tede2/bitstream/tede/10250/4/JULIA_MARA_COLLEONI_COUTO_TES.pdf.jpg
https://tede2.pucrs.br/tede2/bitstream/tede/10250/3/JULIA_MARA_COLLEONI_COUTO_TES.pdf.txt
https://tede2.pucrs.br/tede2/bitstream/tede/10250/2/JULIA_MARA_COLLEONI_COUTO_TES.pdf
https://tede2.pucrs.br/tede2/bitstream/tede/10250/1/license.txt
bitstream.checksum.fl_str_mv 45dd815b1edb58a392fb1ea9c5a7515a
b9b9c37b1c5a3af63787f6d96e1ba3d7
d0cf4e247394144891edcf726dd847f3
220e11f2d3ba5354f917c7035aadef24
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
repository.mail.fl_str_mv biblioteca.central@pucrs.br||
_version_ 1799765530222002176