A model for automatized data integration in hadoop-based data lakes
| Ano de defesa: | 2022 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Tese |
| Tipo de acesso: | Acesso aberto |
| Idioma: | eng |
| Instituição de defesa: |
Pontifícia Universidade Católica do Rio Grande do Sul
Escola Politécnica Brasil PUCRS Programa de Pós-Graduação em Ciência da Computação |
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://tede2.pucrs.br/tede2/handle/tede/10250 |
Resumo: | The massive amount of data currently generated by our computing systems and devices, known as big data, require specific technologies to be stored, processed, and distributed. Data lakes are architectures to store data of various formats to be queried when necessary, without needing a predefined schema. Data lakes aim to manage big data ecosystems, and most are currently created based on the Hadoop framework. A known challenge related to data lakes is integrating data from different formats. Data integration is a complex task that requires the attention of a specialist, besides being time-consuming and error-prone. However, this task can be facilitated if we use techniques to know the data profile. This thesis develops a model to automate the heterogeneous data integration process in Hadoop-based data lakes. In this sense, we design a method with five phases to help achieve the research objective: Foundation, Implementation, Experimentation, Evaluation, and Final Model. Our main contributions include the findings of three systematic literature reviews, where we deeply discuss themes related to data lakes, big data profiling, and data integration in data lakes, which served as a basis for the development of a model that enables the automatized integration of heterogeneous data in Hadoop-based data lakes, besides the experiments with bioinformatics data. |
| id |
P_RS_a504f6cc70e6ee3559cb8de64a26a302 |
|---|---|
| oai_identifier_str |
oai:tede2.pucrs.br:tede/10250 |
| network_acronym_str |
P_RS |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da PUC_RS |
| repository_id_str |
|
| spelling |
A model for automatized data integration in hadoop-based data lakesBig DataData LakeHadoopData ProfilingData IntegrationBig DataData LakeHadoopPerfilagem de DadosIntegração de DadosCIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAOThe massive amount of data currently generated by our computing systems and devices, known as big data, require specific technologies to be stored, processed, and distributed. Data lakes are architectures to store data of various formats to be queried when necessary, without needing a predefined schema. Data lakes aim to manage big data ecosystems, and most are currently created based on the Hadoop framework. A known challenge related to data lakes is integrating data from different formats. Data integration is a complex task that requires the attention of a specialist, besides being time-consuming and error-prone. However, this task can be facilitated if we use techniques to know the data profile. This thesis develops a model to automate the heterogeneous data integration process in Hadoop-based data lakes. In this sense, we design a method with five phases to help achieve the research objective: Foundation, Implementation, Experimentation, Evaluation, and Final Model. Our main contributions include the findings of three systematic literature reviews, where we deeply discuss themes related to data lakes, big data profiling, and data integration in data lakes, which served as a basis for the development of a model that enables the automatized integration of heterogeneous data in Hadoop-based data lakes, besides the experiments with bioinformatics data.A imensa quantidade de dados que são gerados atualmente pelos nossos sistemas computacionais e dispositivos, conhecida por big data, requer tecnologias específicas, como data lakes, para que possam ser armazenados, processados e distribuídos. Data lakes são arquiteturas onde dados dos mais diversos formatos são armazenados para que sejam consultados quando necessário, sem a necessidade de esquemas prévios. Data lakes possibilitam o gerenciamento de ecossistemas de big data, e, hoje em dia, a maioria é criada tendo como base o framework Hadoop. Um dos desafios relacionados a data lakes é a integração dos dados de variados formatos. A integração dos dados é uma tarefa complexa que requer a atenção de um especialista, toma tempo e é sujeita a erros. Contudo, essa tarefa pode ser facilitada se forem utilizadas técnicas para conhecer o perfil dos dados. Nesta tese, desenvolve-se um modelo para automatizar o processo de integração de dados heterogêneos em data lakes baseados em Hadoop. O método desenhado para auxiliar a atingir os objetivos de pesquisa divide-se em 5 fases: Fundamentação, Implementação, Experimentação, Avaliação e Modelo final. As principais contribuições desta tese incluem os achados de três revisões sistemáticas da literatura, onde são exaustivamente discutidos os temas relacionados a data lakes, big data profiling e integração de dados em data lakes, e que serviram de base para o desenvolvimento de um modelo que possibilita a integração automatizada de dados heterogêneos em data lakes baseados no Hadoop, além dos experimentos com dados de bioinformática.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESPontifícia Universidade Católica do Rio Grande do SulEscola PolitécnicaBrasilPUCRSPrograma de Pós-Graduação em Ciência da ComputaçãoRuiz, Duncan Dubugras Alcobahttp://lattes.cnpq.br/8250832800932125Couto, Júlia Mara Colleoni2022-05-24T21:12:14Z2022-03-31info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://tede2.pucrs.br/tede2/handle/tede/10250enginfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da PUC_RSinstname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)instacron:PUC_RS2022-05-24T23:00:17Zoai:tede2.pucrs.br:tede/10250Biblioteca Digital de Teses e Dissertaçõeshttp://tede2.pucrs.br/tede2/PRIhttps://tede2.pucrs.br/oai/requestbiblioteca.central@pucrs.br||opendoar:2022-05-24T23:00:17Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)false |
| dc.title.none.fl_str_mv |
A model for automatized data integration in hadoop-based data lakes |
| title |
A model for automatized data integration in hadoop-based data lakes |
| spellingShingle |
A model for automatized data integration in hadoop-based data lakes Couto, Júlia Mara Colleoni Big Data Data Lake Hadoop Data Profiling Data Integration Big Data Data Lake Hadoop Perfilagem de Dados Integração de Dados CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO |
| title_short |
A model for automatized data integration in hadoop-based data lakes |
| title_full |
A model for automatized data integration in hadoop-based data lakes |
| title_fullStr |
A model for automatized data integration in hadoop-based data lakes |
| title_full_unstemmed |
A model for automatized data integration in hadoop-based data lakes |
| title_sort |
A model for automatized data integration in hadoop-based data lakes |
| author |
Couto, Júlia Mara Colleoni |
| author_facet |
Couto, Júlia Mara Colleoni |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Ruiz, Duncan Dubugras Alcoba http://lattes.cnpq.br/8250832800932125 |
| dc.contributor.author.fl_str_mv |
Couto, Júlia Mara Colleoni |
| dc.subject.por.fl_str_mv |
Big Data Data Lake Hadoop Data Profiling Data Integration Big Data Data Lake Hadoop Perfilagem de Dados Integração de Dados CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO |
| topic |
Big Data Data Lake Hadoop Data Profiling Data Integration Big Data Data Lake Hadoop Perfilagem de Dados Integração de Dados CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO |
| description |
The massive amount of data currently generated by our computing systems and devices, known as big data, require specific technologies to be stored, processed, and distributed. Data lakes are architectures to store data of various formats to be queried when necessary, without needing a predefined schema. Data lakes aim to manage big data ecosystems, and most are currently created based on the Hadoop framework. A known challenge related to data lakes is integrating data from different formats. Data integration is a complex task that requires the attention of a specialist, besides being time-consuming and error-prone. However, this task can be facilitated if we use techniques to know the data profile. This thesis develops a model to automate the heterogeneous data integration process in Hadoop-based data lakes. In this sense, we design a method with five phases to help achieve the research objective: Foundation, Implementation, Experimentation, Evaluation, and Final Model. Our main contributions include the findings of three systematic literature reviews, where we deeply discuss themes related to data lakes, big data profiling, and data integration in data lakes, which served as a basis for the development of a model that enables the automatized integration of heterogeneous data in Hadoop-based data lakes, besides the experiments with bioinformatics data. |
| publishDate |
2022 |
| dc.date.none.fl_str_mv |
2022-05-24T21:12:14Z 2022-03-31 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
| format |
doctoralThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://tede2.pucrs.br/tede2/handle/tede/10250 |
| url |
https://tede2.pucrs.br/tede2/handle/tede/10250 |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Pontifícia Universidade Católica do Rio Grande do Sul Escola Politécnica Brasil PUCRS Programa de Pós-Graduação em Ciência da Computação |
| publisher.none.fl_str_mv |
Pontifícia Universidade Católica do Rio Grande do Sul Escola Politécnica Brasil PUCRS Programa de Pós-Graduação em Ciência da Computação |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS instname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) instacron:PUC_RS |
| instname_str |
Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) |
| instacron_str |
PUC_RS |
| institution |
PUC_RS |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da PUC_RS |
| collection |
Biblioteca Digital de Teses e Dissertações da PUC_RS |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) |
| repository.mail.fl_str_mv |
biblioteca.central@pucrs.br|| |
| _version_ |
1850041308707553280 |