Implementação de algoritmos de regras de associação nos arcabouços Hadoop-MapReduce e Spark

Castro, Eduardo Petrini Silva

Implementação de algoritmos de regras de associação nos arcabouços Hadoop-MapReduce e Spark

Detalhes bibliográficos
Ano de defesa:	2016
Autor(a) principal:	Castro, Eduardo Petrini Silva
Orientador(a):	Pereira, Denilson Alves
Banca de defesa:	Esmin, Ahmed Ali Abdalla, Naldi, Murilo Coelho
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade Federal de Lavras
Programa de Pós-Graduação:	Programa de Pós-Graduação em Ciência da Computação
Departamento:	Departamento de Ciência da Computação
País:	brasil
Palavras-chave em Português:	Mineração de dados Algoritmos de computador Regras de associação (Computação) Data mining Computer algorithms Association rules (Computer science) Hadoop MapReduce Spark
Área do conhecimento CNPq:	Análise de Algoritmos e Complexidade de Computação
Link de acesso:	https://repositorio.ufla.br/handle/1/12162
Resumo:	Em meio ao grande volume de dados produzidos constantemente em sistemas de informação computadorizados, há algoritmos de mineração de dados capazes de encontrar informações ocultas nesses dados. Uma das técnicas implementadas por esses algoritmos é conhecida como regras de associação, a qual visa encontrar relações entre itens de um mesmo conjunto de dados. Uma proposta recente utiliza regras de associação para tratar o problema de classificação de ofertas de produtos em lojas de vendas online. Porém, para grandes volumes de dados, o tempo de execução do algoritmo proposto se torna problemático, dificultando seu uso. Existem frameworks que possibilitam a implementação de algoritmos distribuídos em cluster de computadores, como o Hadoop e Spark. Muitos algoritmos de mineração de dados, como o algoritmo Apriori, que gera regras de associação, tiveram diversas propostas de implementações utilizando o modelo MapReduce. Este trabalho realizou um estudo das soluções propostas de implementações do algoritmo Apriori para o Hadoop-MapReduce. Os algoritmos também foram implementados no Spark e foi feito um comparativo entre as implementações de ambos frameworks. Os resultados mostram que as implementações no Spark superam as implementações no Hadoop-MapReduce na maioria das experimentos. Porém, não houve uma implementação única que se sobressaia em todas as situações avaliadas. Também foi implementada no Hadoop-MapReduce e Spark uma alternativa para o problema de classificação de ofertas de produtos de lojas de vendas online de modo a permitir o processamento de grandes volumes de dados em tempo hábil. Os resultados mostram elevada capacidade das adaptações em processar volume de dados maiores.

Metadados do item

id	UFLA_2feafb72778bad87f9f4336586b581a1
oai_identifier_str	oai:repositorio.ufla.br:1/12162
network_acronym_str	UFLA
network_name_str	Repositório Institucional da UFLA
repository_id_str
spelling	2017-01-18T19:17:15Z2017-01-18T19:17:15Z2017-01-172016-09-15CASTRO, E. P. S. Implementação de algoritmos de regras de associação nos arcabouços Hadoop-MapReduce e Spark. 2016. 158 p. Dissertação (Mestrado em Ciência da Computação)-Universidade Federal de Lavras, Lavras, 2016.https://repositorio.ufla.br/handle/1/12162Em meio ao grande volume de dados produzidos constantemente em sistemas de informação computadorizados, há algoritmos de mineração de dados capazes de encontrar informações ocultas nesses dados. Uma das técnicas implementadas por esses algoritmos é conhecida como regras de associação, a qual visa encontrar relações entre itens de um mesmo conjunto de dados. Uma proposta recente utiliza regras de associação para tratar o problema de classificação de ofertas de produtos em lojas de vendas online. Porém, para grandes volumes de dados, o tempo de execução do algoritmo proposto se torna problemático, dificultando seu uso. Existem frameworks que possibilitam a implementação de algoritmos distribuídos em cluster de computadores, como o Hadoop e Spark. Muitos algoritmos de mineração de dados, como o algoritmo Apriori, que gera regras de associação, tiveram diversas propostas de implementações utilizando o modelo MapReduce. Este trabalho realizou um estudo das soluções propostas de implementações do algoritmo Apriori para o Hadoop-MapReduce. Os algoritmos também foram implementados no Spark e foi feito um comparativo entre as implementações de ambos frameworks. Os resultados mostram que as implementações no Spark superam as implementações no Hadoop-MapReduce na maioria das experimentos. Porém, não houve uma implementação única que se sobressaia em todas as situações avaliadas. Também foi implementada no Hadoop-MapReduce e Spark uma alternativa para o problema de classificação de ofertas de produtos de lojas de vendas online de modo a permitir o processamento de grandes volumes de dados em tempo hábil. Os resultados mostram elevada capacidade das adaptações em processar volume de dados maiores.In midst to the big amount of data constantly produced on computerized information systems, there are data mining algorithms able to find hidden information in this data. One of techniques implemented by this algorithms is known as association rules, which aims to find associations between items on same dataset. A recent proposal uses association rules to deal with product offer classification in online store. However, for big amount of data, the proposed algorithm runtime becomes unfeasible. There are frameworks enabling distributed algorithms implementation in computer cluster like Hadoop and Spark. Many data mining algorithms, such as Apriori Algorithm for association rules, has several implementation proposals using MapReduce. This work performed a study of proposed solutions of Apriori implementation on Hadoop-MapReduce. The algorithms was also adapted to Spark and a comparative was performed between frameworks. The results show that Spark implementations overcomes Hadoop-MapReduce implementations at runtime in most experiments. However, there is no single implementation that is the best in all the evaluated situations. An alternative to the product offer classification in online store problem on Hadoop-MapReduce and Spark was also carried out. The results show large capacity of adaptation to process big amount of data.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)Universidade Federal de LavrasPrograma de Pós-Graduação em Ciência da ComputaçãoUFLAbrasilDepartamento de Ciência da ComputaçãoAnálise de Algoritmos e Complexidade de ComputaçãoMineração de dadosAlgoritmos de computadorRegras de associação (Computação)Data miningComputer algorithmsAssociation rules (Computer science)HadoopMapReduceSparkImplementação de algoritmos de regras de associação nos arcabouços Hadoop-MapReduce e SparkAssociation rules algorithms implementation on Hadoop-MapReduce and Spark frameworksinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisPereira, Denilson AlvesEsmin, Ahmed Ali AbdallaNaldi, Murilo Coelhohttp://lattes.cnpq.br/3221982681792493Castro, Eduardo Petrini Silvainfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFLAinstname:Universidade Federal de Lavras (UFLA)instacron:UFLAORIGINALDISSERTAÇÃO_Implementação de algoritmos de regras de associação nos arcabouços Hadoop-MapReduce e Spark.pdfDISSERTAÇÃO_Implementação de algoritmos de regras de associação nos arcabouços Hadoop-MapReduce e Spark.pdfapplication/pdf2805556https://repositorio.ufla.br/bitstreams/9a727dd2-b0e9-4b91-9ee8-5aad60ed29d1/downloadc1bbbc217488b7e933db478ac1975577MD52trueAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-8953https://repositorio.ufla.br/bitstreams/770a4bf8-154f-46a4-a33f-50003628ef3e/download760884c1e72224de569e74f79eb87ce3MD51falseAnonymousREADTEXTDISSERTAÇÃO_Implementação de algoritmos de regras de associação nos arcabouços Hadoop-MapReduce e Spark.pdf.txtDISSERTAÇÃO_Implementação de algoritmos de regras de associação nos arcabouços Hadoop-MapReduce e Spark.pdf.txtExtracted texttext/plain102821https://repositorio.ufla.br/bitstreams/260d39bc-3684-4625-b90b-75cce99ff0be/download082b4fa89dd8d5c376a1a888257d9ccfMD53falseAnonymousREADTHUMBNAILDISSERTAÇÃO_Implementação de algoritmos de regras de associação nos arcabouços Hadoop-MapReduce e Spark.pdf.jpgDISSERTAÇÃO_Implementação de algoritmos de regras de associação nos arcabouços Hadoop-MapReduce e Spark.pdf.jpgGenerated Thumbnailimage/jpeg2817https://repositorio.ufla.br/bitstreams/7d074940-a7df-4fa8-b298-60128268bf85/downloadcf884883df251b49fcfd958750be0eb6MD54falseAnonymousREAD1/121622025-08-06 11:04:59.301open.accessoai:repositorio.ufla.br:1/12162https://repositorio.ufla.brRepositório InstitucionalPUBhttps://repositorio.ufla.br/server/oai/requestnivaldo@ufla.br \|\| repositorio.biblioteca@ufla.bropendoar:2025-08-06T14:04:59Repositório Institucional da UFLA - Universidade Federal de Lavras (UFLA)falseREVDTEFSQcOHw4NPIERFIERJU1RSSUJVScOHw4NPIE7Dg08tRVhDTFVTSVZBCk8gcmVmZXJpZG8gYXV0b3I6CmEpIERlY2xhcmEgcXVlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIMOpIHNldSB0cmFiYWxobyBvcmlnaW5hbCwgZSBxdWUKZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4KRGVjbGFyYSB0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2UsIHRhbnRvIHF1YW50bwpsaGUgw6kgcG9zc8OtdmVsIHNhYmVyLCBvcyBkaXJlaXRvcyBkZSBxdWFscXVlciBvdXRyYSBwZXNzb2Egb3UKZW50aWRhZGUuCmIpIFNlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIGNvbnTDqW0gbWF0ZXJpYWwgZG8gcXVhbCBuw6NvIGRldMOpbSBvcwpkaXJlaXRvcyBkZSBhdXRvciwgZGVjbGFyYSBxdWUgb2J0ZXZlIGF1dG9yaXphw6fDo28gZG8gZGV0ZW50b3IgZG9zCmRpcmVpdG9zIGRlIGF1dG9yIHBhcmEgY29uY2VkZXIgw6AgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZGUgTGF2cmFzIG9zCmRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgY3Vqb3MKZGlyZWl0b3Mgc8OjbyBkZSB0ZXJjZWlyb3MgZXN0w6EgY2xhcmFtZW50ZSBpZGVudGlmaWNhZG8gZSByZWNvbmhlY2lkbwpubyB0ZXh0byBvdSBjb250ZcO6ZG8gZG8gZG9jdW1lbnRvIGVudHJlZ3VlLiBTZSBvIGRvY3VtZW50byBlbnRyZWd1ZSDDqQpiYXNlYWRvIGVtIHRyYWJhbGhvIGZpbmFuY2lhZG8gb3UgYXBvaWFkbyBwb3Igb3V0cmEgaW5zdGl0dWnDp8OjbyBxdWUKbsOjbyBhIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIExhdnJhcywgZGVjbGFyYSBxdWUgY3VtcHJpdSBxdWFpc3F1ZXIKb2JyaWdhw6fDtWVzIGV4aWdpZGFzIHBlbG8gcmVzcGVjdGl2byBjb250cmF0byBvdSBhY29yZG8uCgo=
dc.title.pt_BR.fl_str_mv	Implementação de algoritmos de regras de associação nos arcabouços Hadoop-MapReduce e Spark
dc.title.alternative.pt_BR.fl_str_mv	Association rules algorithms implementation on Hadoop-MapReduce and Spark frameworks
title	Implementação de algoritmos de regras de associação nos arcabouços Hadoop-MapReduce e Spark
spellingShingle	Implementação de algoritmos de regras de associação nos arcabouços Hadoop-MapReduce e Spark Castro, Eduardo Petrini Silva Análise de Algoritmos e Complexidade de Computação Mineração de dados Algoritmos de computador Regras de associação (Computação) Data mining Computer algorithms Association rules (Computer science) Hadoop MapReduce Spark
title_short	Implementação de algoritmos de regras de associação nos arcabouços Hadoop-MapReduce e Spark
title_full	Implementação de algoritmos de regras de associação nos arcabouços Hadoop-MapReduce e Spark
title_fullStr	Implementação de algoritmos de regras de associação nos arcabouços Hadoop-MapReduce e Spark
title_full_unstemmed	Implementação de algoritmos de regras de associação nos arcabouços Hadoop-MapReduce e Spark
title_sort	Implementação de algoritmos de regras de associação nos arcabouços Hadoop-MapReduce e Spark
author	Castro, Eduardo Petrini Silva
author_facet	Castro, Eduardo Petrini Silva
author_role	author
dc.contributor.advisor1.fl_str_mv	Pereira, Denilson Alves
dc.contributor.referee1.fl_str_mv	Esmin, Ahmed Ali Abdalla
dc.contributor.referee2.fl_str_mv	Naldi, Murilo Coelho
dc.contributor.authorLattes.fl_str_mv	http://lattes.cnpq.br/3221982681792493
dc.contributor.author.fl_str_mv	Castro, Eduardo Petrini Silva
contributor_str_mv	Pereira, Denilson Alves Esmin, Ahmed Ali Abdalla Naldi, Murilo Coelho
dc.subject.cnpq.fl_str_mv	Análise de Algoritmos e Complexidade de Computação
topic	Análise de Algoritmos e Complexidade de Computação Mineração de dados Algoritmos de computador Regras de associação (Computação) Data mining Computer algorithms Association rules (Computer science) Hadoop MapReduce Spark
dc.subject.por.fl_str_mv	Mineração de dados Algoritmos de computador Regras de associação (Computação) Data mining Computer algorithms Association rules (Computer science) Hadoop MapReduce Spark
description	Em meio ao grande volume de dados produzidos constantemente em sistemas de informação computadorizados, há algoritmos de mineração de dados capazes de encontrar informações ocultas nesses dados. Uma das técnicas implementadas por esses algoritmos é conhecida como regras de associação, a qual visa encontrar relações entre itens de um mesmo conjunto de dados. Uma proposta recente utiliza regras de associação para tratar o problema de classificação de ofertas de produtos em lojas de vendas online. Porém, para grandes volumes de dados, o tempo de execução do algoritmo proposto se torna problemático, dificultando seu uso. Existem frameworks que possibilitam a implementação de algoritmos distribuídos em cluster de computadores, como o Hadoop e Spark. Muitos algoritmos de mineração de dados, como o algoritmo Apriori, que gera regras de associação, tiveram diversas propostas de implementações utilizando o modelo MapReduce. Este trabalho realizou um estudo das soluções propostas de implementações do algoritmo Apriori para o Hadoop-MapReduce. Os algoritmos também foram implementados no Spark e foi feito um comparativo entre as implementações de ambos frameworks. Os resultados mostram que as implementações no Spark superam as implementações no Hadoop-MapReduce na maioria das experimentos. Porém, não houve uma implementação única que se sobressaia em todas as situações avaliadas. Também foi implementada no Hadoop-MapReduce e Spark uma alternativa para o problema de classificação de ofertas de produtos de lojas de vendas online de modo a permitir o processamento de grandes volumes de dados em tempo hábil. Os resultados mostram elevada capacidade das adaptações em processar volume de dados maiores.
publishDate	2016
dc.date.submitted.none.fl_str_mv	2016-09-15
dc.date.accessioned.fl_str_mv	2017-01-18T19:17:15Z
dc.date.available.fl_str_mv	2017-01-18T19:17:15Z
dc.date.issued.fl_str_mv	2017-01-17
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.citation.fl_str_mv	CASTRO, E. P. S. Implementação de algoritmos de regras de associação nos arcabouços Hadoop-MapReduce e Spark. 2016. 158 p. Dissertação (Mestrado em Ciência da Computação)-Universidade Federal de Lavras, Lavras, 2016.
dc.identifier.uri.fl_str_mv	https://repositorio.ufla.br/handle/1/12162
identifier_str_mv	CASTRO, E. P. S. Implementação de algoritmos de regras de associação nos arcabouços Hadoop-MapReduce e Spark. 2016. 158 p. Dissertação (Mestrado em Ciência da Computação)-Universidade Federal de Lavras, Lavras, 2016.
url	https://repositorio.ufla.br/handle/1/12162
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal de Lavras
dc.publisher.program.fl_str_mv	Programa de Pós-Graduação em Ciência da Computação
dc.publisher.initials.fl_str_mv	UFLA
dc.publisher.country.fl_str_mv	brasil
dc.publisher.department.fl_str_mv	Departamento de Ciência da Computação
publisher.none.fl_str_mv	Universidade Federal de Lavras
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFLA instname:Universidade Federal de Lavras (UFLA) instacron:UFLA
instname_str	Universidade Federal de Lavras (UFLA)
instacron_str	UFLA
institution	UFLA
reponame_str	Repositório Institucional da UFLA
collection	Repositório Institucional da UFLA
bitstream.url.fl_str_mv	https://repositorio.ufla.br/bitstreams/9a727dd2-b0e9-4b91-9ee8-5aad60ed29d1/download https://repositorio.ufla.br/bitstreams/770a4bf8-154f-46a4-a33f-50003628ef3e/download https://repositorio.ufla.br/bitstreams/260d39bc-3684-4625-b90b-75cce99ff0be/download https://repositorio.ufla.br/bitstreams/7d074940-a7df-4fa8-b298-60128268bf85/download
bitstream.checksum.fl_str_mv	c1bbbc217488b7e933db478ac1975577 760884c1e72224de569e74f79eb87ce3 082b4fa89dd8d5c376a1a888257d9ccf cf884883df251b49fcfd958750be0eb6
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFLA - Universidade Federal de Lavras (UFLA)
repository.mail.fl_str_mv	nivaldo@ufla.br \|\| repositorio.biblioteca@ufla.br
_version_	1854947720918204416

Implementação de algoritmos de regras de associação nos arcabouços Hadoop-MapReduce e Spark

Registros relacionados