Estratégias evolucionárias para otimização no tratamento de dados ausentes por imputação múltipla de dados

Detalhes bibliográficos
Ano de defesa: 2016
Autor(a) principal: LOBATO, Fábio Manoel França lattes
Orientador(a): SANTANA, Ádamo Lima de lattes
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal do Pará
Programa de Pós-Graduação: Programa de Pós-Graduação em Engenharia Elétrica
Departamento: Instituto de Tecnologia
País: Brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: http://repositorio.ufpa.br/jspui/handle/2011/7267
Resumo: A análise de dados envolve aquisição e organização de informação com o objetivo de se obter conhecimento a partir deles, propiciando avanços científicos nos mais variados campos, bem como provendo vantagens competitivas às corporações. Neste âmbito, um problema ubíquo na área merece destaque, os valores ausentes, pois a maior parte das técnicas de análise de dados não consegue lidar de forma satisfatória com dados incompletos, impactando negativamente o resultado final. Visando contornar os efeitos danosos desta problemática, diversos trabalhos vêm sendo desenvolvidos nas áreas de análise estatística e aprendizado de máquina, com destaque para o estudo de métodos de Imputação Múltipla de Dados (IMD), que consiste no preenchimento dos dados ausentes por valores plausíveis. Tal metodologia pode ser vista como um problema de otimização combinatória, onde buscam-se valores candidatos à imputação de forma a reduzir o viés imposto por esta problemática. Meta-heurísticas, em especial, métodos baseados em Computação Evolucionária (CE) têm sido aplicadas com sucesso em problemas de otimização combinatórios. Apesar dos recentes avanços na área, percebe-se algumas falhas na modelagem dos métodos de imputação baseados em CE existentes. Visando preencher tais lacunas encontradas na literatura, esta tese apresenta uma descrição da IMD como um problema de otimização combinatória e propõe métodos baseados em CE neste contexto. Além disso, em virtude das falhas encontradas na modelagem dos métodos recentemente propostos na literatura e da necessidade de se adotar diferentes medidas de desempenho para avaliar a eficiência dos métodos de imputação, também é proposto neste projeto de tese um algoritmo genético multiobjetivo para a imputação de dados no contexto de classificação de padrões. Este método mostra-se flexível quanto aos tipos de dados, além de evitar a análise de caso completo. Dado a flexibilidade da abordagem proposta, é possível ainda utilizá-lo em outros cenários como no aprendizado não supervisionado, classificação multirrótulo e em análise de séries temporais.
id UFPA_8b245e7ff6baef44603f971a35aef626
oai_identifier_str oai:repositorio.ufpa.br:2011/7267
network_acronym_str UFPA
network_name_str Repositório Institucional da UFPA
repository_id_str
spelling 2017-01-10T16:57:42Z2017-01-10T16:57:42Z2016-02-16LOBATO, Fábio Manoel França. Estratégias evolucionárias para otimização no tratamento de dados ausentes por imputação múltipla de dados. 2016. 138 f. Tese (Doutorado) - Universidade Federal do Pará, Instituto de Tecnologia, Belém, 2016. Programa de Pós-Graduação em Engenharia Elétrica.http://repositorio.ufpa.br/jspui/handle/2011/7267A análise de dados envolve aquisição e organização de informação com o objetivo de se obter conhecimento a partir deles, propiciando avanços científicos nos mais variados campos, bem como provendo vantagens competitivas às corporações. Neste âmbito, um problema ubíquo na área merece destaque, os valores ausentes, pois a maior parte das técnicas de análise de dados não consegue lidar de forma satisfatória com dados incompletos, impactando negativamente o resultado final. Visando contornar os efeitos danosos desta problemática, diversos trabalhos vêm sendo desenvolvidos nas áreas de análise estatística e aprendizado de máquina, com destaque para o estudo de métodos de Imputação Múltipla de Dados (IMD), que consiste no preenchimento dos dados ausentes por valores plausíveis. Tal metodologia pode ser vista como um problema de otimização combinatória, onde buscam-se valores candidatos à imputação de forma a reduzir o viés imposto por esta problemática. Meta-heurísticas, em especial, métodos baseados em Computação Evolucionária (CE) têm sido aplicadas com sucesso em problemas de otimização combinatórios. Apesar dos recentes avanços na área, percebe-se algumas falhas na modelagem dos métodos de imputação baseados em CE existentes. Visando preencher tais lacunas encontradas na literatura, esta tese apresenta uma descrição da IMD como um problema de otimização combinatória e propõe métodos baseados em CE neste contexto. Além disso, em virtude das falhas encontradas na modelagem dos métodos recentemente propostos na literatura e da necessidade de se adotar diferentes medidas de desempenho para avaliar a eficiência dos métodos de imputação, também é proposto neste projeto de tese um algoritmo genético multiobjetivo para a imputação de dados no contexto de classificação de padrões. Este método mostra-se flexível quanto aos tipos de dados, além de evitar a análise de caso completo. Dado a flexibilidade da abordagem proposta, é possível ainda utilizá-lo em outros cenários como no aprendizado não supervisionado, classificação multirrótulo e em análise de séries temporais.The data analysis process includes information acquisition and organization in order to obtain knowledge from them, bringing scientific advances in various fields, as well as providing competitive advantages to corporations. In this context, an ubiquitous problem in the area deserves attention, the missing data, since most of the data analysis techniques can not deal satisfactorily with this problem, which negatively impacts the final results. In order to avoid the harmful effects of missing data, several studies have been proposed in the areas of statistical analysis and machine learning, especially the study of Multiple Data Imputation, which consists in the missing data substitution by plausible values. This methodology can be seen as a combinatorial optimization problem, where the goal is to find candidate values to substitute the missing ones in order to reduce the bias imposed by this issue. Metaheuristics, in particular, methods based in evolutionary computing have been successfully applied in combinatorial optimization problems. Despite the recent advances in this area, it is perceived some shortcomings in the modeling of imputation methods based on evolutionary computing. Aiming to fill these gaps in the literature, this thesis presents a description of multiple data imputation as a combinatorial optimization problem and proposes imputation methods based on evolutionary computing. In addition, due to the limitations found in the methods presented in the recent literature, and the necessity of adoption of different evaluation measures to assess the imputation methods performance, a multi-objective genetic algorithm for data imputation in pattern classification context is also proposed. This method proves to be flexible regarding to data types and avoid the complete-case analysis. Because the flexibility of the proposed approach, it is also possible to use it in other scenarios such as the unsupervised learning, multi-label classification and time series analysis.CNPq - Conselho Nacional de Desenvolvimento Científico e TecnológicoCAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorporUniversidade Federal do ParáPrograma de Pós-Graduação em Engenharia ElétricaUFPABrasilInstituto de TecnologiaCNPQ::ENGENHARIAS::ENGENHARIA ELETRICACNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAOMineração de dados (Computação)Imputação de dadosAlgoritmos genéticosOtimização combinatóriaComputação evolucionáriaEstratégias evolucionárias para otimização no tratamento de dados ausentes por imputação múltipla de dadosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisSANTANA, Ádamo Lima dehttp://lattes.cnpq.br/4073088744952858http://lattes.cnpq.br/3003315337750206LOBATO, Fábio Manoel Françainfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFPAinstname:Universidade Federal do Pará (UFPA)instacron:UFPAORIGINALTese_EstrategiasEvolucionariasOtimizacao.pdfTese_EstrategiasEvolucionariasOtimizacao.pdfapplication/pdf5582868http://repositorio.ufpa.br/oai/bitstream/2011/7267/1/Tese_EstrategiasEvolucionariasOtimizacao.pdf54c5dbfe417941cefd31b320a9aa99bbMD51CC-LICENSElicense_urllicense_urltext/plain; charset=utf-849http://repositorio.ufpa.br/oai/bitstream/2011/7267/2/license_url4afdbb8c545fd630ea7db775da747b2fMD52license_textlicense_texttext/html; charset=utf-80http://repositorio.ufpa.br/oai/bitstream/2011/7267/3/license_textd41d8cd98f00b204e9800998ecf8427eMD53license_rdflicense_rdfapplication/rdf+xml; charset=utf-80http://repositorio.ufpa.br/oai/bitstream/2011/7267/4/license_rdfd41d8cd98f00b204e9800998ecf8427eMD54LICENSElicense.txtlicense.txttext/plain; charset=utf-81866http://repositorio.ufpa.br/oai/bitstream/2011/7267/5/license.txt43cd690d6a359e86c1fe3d5b7cba0c9bMD55TEXTTese_EstrategiasEvolucionariasOtimizacao.pdf.txtTese_EstrategiasEvolucionariasOtimizacao.pdf.txtExtracted texttext/plain398826http://repositorio.ufpa.br/oai/bitstream/2011/7267/6/Tese_EstrategiasEvolucionariasOtimizacao.pdf.txtc4a7cd3351ba05b5dc3e45093f286bebMD562011/72672018-01-03 09:54:32.673oai:repositorio.ufpa.br:2011/7267TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKCkNvbSBhIGFwcmVzZW50YcOnw6NvIGRlc3RhIGxpY2Vuw6dhLCB2b2PDqiAobyBhdXRvciAoZXMpIG91IG8gdGl0dWxhciBkb3MgZGlyZWl0b3MgZGUgYXV0b3IpIGNvbmNlZGUgYW8gUmVwb3NpdMOzcmlvIApJbnN0aXR1Y2lvbmFsIG8gZGlyZWl0byBuw6NvLWV4Y2x1c2l2byBkZSByZXByb2R1emlyLCAgdHJhZHV6aXIgKGNvbmZvcm1lIGRlZmluaWRvIGFiYWl4byksIGUvb3UgZGlzdHJpYnVpciBhIApzdWEgcHVibGljYcOnw6NvIChpbmNsdWluZG8gbyByZXN1bW8pIHBvciB0b2RvIG8gbXVuZG8gbm8gZm9ybWF0byBpbXByZXNzbyBlIGVsZXRyw7RuaWNvIGUgZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIApmb3JtYXRvcyDDoXVkaW8gb3UgdsOtZGVvLgoKVm9jw6ogY29uY29yZGEgcXVlIG8gRGVwb3NpdGEgcG9kZSwgc2VtIGFsdGVyYXIgbyBjb250ZcO6ZG8sIHRyYW5zcG9yIGEgc3VhIHB1YmxpY2HDp8OjbyBwYXJhIHF1YWxxdWVyIG1laW8gb3UgZm9ybWF0byAKcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBvIERlcG9zaXRhIHBvZGUgbWFudGVyIG1haXMgZGUgdW1hIGPDs3BpYSBkZSBzdWEgcHVibGljYcOnw6NvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIAplIHByZXNlcnZhw6fDo28uCgpWb2PDqiBkZWNsYXJhIHF1ZSBhIHN1YSBwdWJsaWNhw6fDo28gw6kgb3JpZ2luYWwgZSBxdWUgdm9jw6ogdGVtIG8gcG9kZXIgZGUgY29uY2VkZXIgb3MgZGlyZWl0b3MgY29udGlkb3MgbmVzdGEgbGljZW7Dp2EuIApWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRhIHN1YSBwdWJsaWNhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgCmRlIG5pbmd1w6ltLgoKQ2FzbyBhIHN1YSBwdWJsaWNhw6fDo28gY29udGVuaGEgbWF0ZXJpYWwgcXVlIHZvY8OqIG7Do28gcG9zc3VpIGEgdGl0dWxhcmlkYWRlIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgdm9jw6ogZGVjbGFyYSBxdWUgCm9idGV2ZSBhIHBlcm1pc3PDo28gaXJyZXN0cml0YSBkbyBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgcGFyYSBjb25jZWRlciBhbyBEZXBvc2l0YSBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgCm5lc3RhIGxpY2Vuw6dhLCBlIHF1ZSBlc3NlIG1hdGVyaWFsIGRlIHByb3ByaWVkYWRlIGRlIHRlcmNlaXJvcyBlc3TDoSBjbGFyYW1lbnRlIGlkZW50aWZpY2FkbyBlIHJlY29uaGVjaWRvIG5vIHRleHRvIApvdSBubyBjb250ZcO6ZG8gZGEgcHVibGljYcOnw6NvIG9yYSBkZXBvc2l0YWRhLgoKQ0FTTyBBIFBVQkxJQ0HDh8ODTyBPUkEgREVQT1NJVEFEQSBURU5IQSBTSURPIFJFU1VMVEFETyBERSBVTSBQQVRST0PDjU5JTyBPVSBBUE9JTyBERSBVTUEgQUfDik5DSUEgREUgRk9NRU5UTyBPVSBPVVRSTyAKT1JHQU5JU01PLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyBUQU1Cw4lNIEFTIERFTUFJUyBPQlJJR0HDh8OVRVMgCkVYSUdJREFTIFBPUiBDT05UUkFUTyBPVSBBQ09SRE8uCgpPIERlcG9zaXRhIHNlIGNvbXByb21ldGUgYSBpZGVudGlmaWNhciBjbGFyYW1lbnRlIG8gc2V1IG5vbWUgKHMpIG91IG8ocykgbm9tZShzKSBkbyhzKSBkZXRlbnRvcihlcykgZG9zIGRpcmVpdG9zIAphdXRvcmFpcyBkYSBwdWJsaWNhw6fDo28sIGUgbsOjbyBmYXLDoSBxdWFscXVlciBhbHRlcmHDp8OjbywgYWzDqW0gZGFxdWVsYXMgY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4KRepositório InstitucionalPUBhttp://repositorio.ufpa.br/oai/requestriufpabc@ufpa.bropendoar:21232018-01-03T12:54:32Repositório Institucional da UFPA - Universidade Federal do Pará (UFPA)false
dc.title.pt_BR.fl_str_mv Estratégias evolucionárias para otimização no tratamento de dados ausentes por imputação múltipla de dados
title Estratégias evolucionárias para otimização no tratamento de dados ausentes por imputação múltipla de dados
spellingShingle Estratégias evolucionárias para otimização no tratamento de dados ausentes por imputação múltipla de dados
LOBATO, Fábio Manoel França
CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
Mineração de dados (Computação)
Imputação de dados
Algoritmos genéticos
Otimização combinatória
Computação evolucionária
title_short Estratégias evolucionárias para otimização no tratamento de dados ausentes por imputação múltipla de dados
title_full Estratégias evolucionárias para otimização no tratamento de dados ausentes por imputação múltipla de dados
title_fullStr Estratégias evolucionárias para otimização no tratamento de dados ausentes por imputação múltipla de dados
title_full_unstemmed Estratégias evolucionárias para otimização no tratamento de dados ausentes por imputação múltipla de dados
title_sort Estratégias evolucionárias para otimização no tratamento de dados ausentes por imputação múltipla de dados
author LOBATO, Fábio Manoel França
author_facet LOBATO, Fábio Manoel França
author_role author
dc.contributor.advisor1.fl_str_mv SANTANA, Ádamo Lima de
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/4073088744952858
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/3003315337750206
dc.contributor.author.fl_str_mv LOBATO, Fábio Manoel França
contributor_str_mv SANTANA, Ádamo Lima de
dc.subject.cnpq.fl_str_mv CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
topic CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
Mineração de dados (Computação)
Imputação de dados
Algoritmos genéticos
Otimização combinatória
Computação evolucionária
dc.subject.por.fl_str_mv Mineração de dados (Computação)
Imputação de dados
Algoritmos genéticos
Otimização combinatória
Computação evolucionária
description A análise de dados envolve aquisição e organização de informação com o objetivo de se obter conhecimento a partir deles, propiciando avanços científicos nos mais variados campos, bem como provendo vantagens competitivas às corporações. Neste âmbito, um problema ubíquo na área merece destaque, os valores ausentes, pois a maior parte das técnicas de análise de dados não consegue lidar de forma satisfatória com dados incompletos, impactando negativamente o resultado final. Visando contornar os efeitos danosos desta problemática, diversos trabalhos vêm sendo desenvolvidos nas áreas de análise estatística e aprendizado de máquina, com destaque para o estudo de métodos de Imputação Múltipla de Dados (IMD), que consiste no preenchimento dos dados ausentes por valores plausíveis. Tal metodologia pode ser vista como um problema de otimização combinatória, onde buscam-se valores candidatos à imputação de forma a reduzir o viés imposto por esta problemática. Meta-heurísticas, em especial, métodos baseados em Computação Evolucionária (CE) têm sido aplicadas com sucesso em problemas de otimização combinatórios. Apesar dos recentes avanços na área, percebe-se algumas falhas na modelagem dos métodos de imputação baseados em CE existentes. Visando preencher tais lacunas encontradas na literatura, esta tese apresenta uma descrição da IMD como um problema de otimização combinatória e propõe métodos baseados em CE neste contexto. Além disso, em virtude das falhas encontradas na modelagem dos métodos recentemente propostos na literatura e da necessidade de se adotar diferentes medidas de desempenho para avaliar a eficiência dos métodos de imputação, também é proposto neste projeto de tese um algoritmo genético multiobjetivo para a imputação de dados no contexto de classificação de padrões. Este método mostra-se flexível quanto aos tipos de dados, além de evitar a análise de caso completo. Dado a flexibilidade da abordagem proposta, é possível ainda utilizá-lo em outros cenários como no aprendizado não supervisionado, classificação multirrótulo e em análise de séries temporais.
publishDate 2016
dc.date.issued.fl_str_mv 2016-02-16
dc.date.accessioned.fl_str_mv 2017-01-10T16:57:42Z
dc.date.available.fl_str_mv 2017-01-10T16:57:42Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv LOBATO, Fábio Manoel França. Estratégias evolucionárias para otimização no tratamento de dados ausentes por imputação múltipla de dados. 2016. 138 f. Tese (Doutorado) - Universidade Federal do Pará, Instituto de Tecnologia, Belém, 2016. Programa de Pós-Graduação em Engenharia Elétrica.
dc.identifier.uri.fl_str_mv http://repositorio.ufpa.br/jspui/handle/2011/7267
identifier_str_mv LOBATO, Fábio Manoel França. Estratégias evolucionárias para otimização no tratamento de dados ausentes por imputação múltipla de dados. 2016. 138 f. Tese (Doutorado) - Universidade Federal do Pará, Instituto de Tecnologia, Belém, 2016. Programa de Pós-Graduação em Engenharia Elétrica.
url http://repositorio.ufpa.br/jspui/handle/2011/7267
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal do Pará
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Engenharia Elétrica
dc.publisher.initials.fl_str_mv UFPA
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Instituto de Tecnologia
publisher.none.fl_str_mv Universidade Federal do Pará
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPA
instname:Universidade Federal do Pará (UFPA)
instacron:UFPA
instname_str Universidade Federal do Pará (UFPA)
instacron_str UFPA
institution UFPA
reponame_str Repositório Institucional da UFPA
collection Repositório Institucional da UFPA
bitstream.url.fl_str_mv http://repositorio.ufpa.br/oai/bitstream/2011/7267/1/Tese_EstrategiasEvolucionariasOtimizacao.pdf
http://repositorio.ufpa.br/oai/bitstream/2011/7267/2/license_url
http://repositorio.ufpa.br/oai/bitstream/2011/7267/3/license_text
http://repositorio.ufpa.br/oai/bitstream/2011/7267/4/license_rdf
http://repositorio.ufpa.br/oai/bitstream/2011/7267/5/license.txt
http://repositorio.ufpa.br/oai/bitstream/2011/7267/6/Tese_EstrategiasEvolucionariasOtimizacao.pdf.txt
bitstream.checksum.fl_str_mv 54c5dbfe417941cefd31b320a9aa99bb
4afdbb8c545fd630ea7db775da747b2f
d41d8cd98f00b204e9800998ecf8427e
d41d8cd98f00b204e9800998ecf8427e
43cd690d6a359e86c1fe3d5b7cba0c9b
c4a7cd3351ba05b5dc3e45093f286beb
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFPA - Universidade Federal do Pará (UFPA)
repository.mail.fl_str_mv riufpabc@ufpa.br
_version_ 1793525847269834752