Avaliação experimental da imputação múltipla e composta de valores ausentes no processo mineração de dados.

Detalhes bibliográficos
Ano de defesa: 2010
Autor(a) principal: Michelle de Oliveira Parreira
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Instituto Tecnológico de Aeronáutica
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=1018
Resumo: O problema de tratamento de valores ausentes em Mineração de Dados tem sido um desafio de pesquisa. O tratamento incorreto das ausências pode implicar prejuízo à qualidade e à validação dos resultados gerados no processo de Mineração. Uma forma de tratar esses dados é utilizar métodos de imputação, ou seja, o preenchimento dos dados através de dados estimados a partir das relações conhecidas dos dados reais. Assim, este trabalho propõe realizar vários experimentos de imputação de valores ausentes com a integração dos conceitos de imputação múltipla e composta com o objetivo de melhorar o desempenho baseado nos valores estimados para preenchimento. A abordagem desta pesquisa levou em consideração o tipo do conjunto de dados, características de distribuição destes dados, tipos e quantidade de atributos univariados e multivariados com valores ausentes, além de diferentes taxas de porcentagens e mecanismos de ausência de dados. O objetivo de inserir valores ausentes artificialmente em um conjunto completo foi permitir a avaliação da qualidade dos métodos de imputação a partir da relação dos valores imputados e dos valores originais eliminados. Aplicou-se o conceito de imputação composta para dinamizar e aperfeiçoar o processo de imputação. Para tanto foram usados dois métodos em conjunto: método de procedimentos baseados em imputação única, Hot Deck (visão estocástica) e Média (visão determinística); e método com procedimentos baseados em modelos, Estimativa de Densidade de Probabilidade, através do método do K-Vizinhos Mais Próximos (KNN). Comparou-se, conseqüentemente, com a imputação por Média e Máxima Verossimilhança, além do método de eliminação ListWise. Posteriormente, análises das qualidades das imputações realizadas são avaliadas através de medidas estatísticas, mostrando bom comportamento do método KNN no contexto geral de imputações.
id ITA_bc74cd93524b93ef6e770c8022455e52
oai_identifier_str oai:agregador.ibict.br.BDTD_ITA:oai:ita.br:1018
network_acronym_str ITA
network_name_str Biblioteca Digital de Teses e Dissertações do ITA
spelling Avaliação experimental da imputação múltipla e composta de valores ausentes no processo mineração de dados.Mineração de dadosAlgoritmosIdentificação de parâmetrosRotinas de entrada e saída de dadosRecuperação da informaçãoModelos matemáticosMétodos estatísticosComplexidade computacionalMatemáticaO problema de tratamento de valores ausentes em Mineração de Dados tem sido um desafio de pesquisa. O tratamento incorreto das ausências pode implicar prejuízo à qualidade e à validação dos resultados gerados no processo de Mineração. Uma forma de tratar esses dados é utilizar métodos de imputação, ou seja, o preenchimento dos dados através de dados estimados a partir das relações conhecidas dos dados reais. Assim, este trabalho propõe realizar vários experimentos de imputação de valores ausentes com a integração dos conceitos de imputação múltipla e composta com o objetivo de melhorar o desempenho baseado nos valores estimados para preenchimento. A abordagem desta pesquisa levou em consideração o tipo do conjunto de dados, características de distribuição destes dados, tipos e quantidade de atributos univariados e multivariados com valores ausentes, além de diferentes taxas de porcentagens e mecanismos de ausência de dados. O objetivo de inserir valores ausentes artificialmente em um conjunto completo foi permitir a avaliação da qualidade dos métodos de imputação a partir da relação dos valores imputados e dos valores originais eliminados. Aplicou-se o conceito de imputação composta para dinamizar e aperfeiçoar o processo de imputação. Para tanto foram usados dois métodos em conjunto: método de procedimentos baseados em imputação única, Hot Deck (visão estocástica) e Média (visão determinística); e método com procedimentos baseados em modelos, Estimativa de Densidade de Probabilidade, através do método do K-Vizinhos Mais Próximos (KNN). Comparou-se, conseqüentemente, com a imputação por Média e Máxima Verossimilhança, além do método de eliminação ListWise. Posteriormente, análises das qualidades das imputações realizadas são avaliadas através de medidas estatísticas, mostrando bom comportamento do método KNN no contexto geral de imputações.Instituto Tecnológico de AeronáuticaCarlos Henrique Quartucci ForsterMichelle de Oliveira Parreira2010-07-01info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=1018reponame:Biblioteca Digital de Teses e Dissertações do ITAinstname:Instituto Tecnológico de Aeronáuticainstacron:ITAporinfo:eu-repo/semantics/openAccessapplication/pdf2019-02-02T14:02:03Zoai:agregador.ibict.br.BDTD_ITA:oai:ita.br:1018http://oai.bdtd.ibict.br/requestopendoar:null2020-05-28 19:35:04.395Biblioteca Digital de Teses e Dissertações do ITA - Instituto Tecnológico de Aeronáuticatrue
dc.title.none.fl_str_mv Avaliação experimental da imputação múltipla e composta de valores ausentes no processo mineração de dados.
title Avaliação experimental da imputação múltipla e composta de valores ausentes no processo mineração de dados.
spellingShingle Avaliação experimental da imputação múltipla e composta de valores ausentes no processo mineração de dados.
Michelle de Oliveira Parreira
Mineração de dados
Algoritmos
Identificação de parâmetros
Rotinas de entrada e saída de dados
Recuperação da informação
Modelos matemáticos
Métodos estatísticos
Complexidade computacional
Matemática
title_short Avaliação experimental da imputação múltipla e composta de valores ausentes no processo mineração de dados.
title_full Avaliação experimental da imputação múltipla e composta de valores ausentes no processo mineração de dados.
title_fullStr Avaliação experimental da imputação múltipla e composta de valores ausentes no processo mineração de dados.
title_full_unstemmed Avaliação experimental da imputação múltipla e composta de valores ausentes no processo mineração de dados.
title_sort Avaliação experimental da imputação múltipla e composta de valores ausentes no processo mineração de dados.
author Michelle de Oliveira Parreira
author_facet Michelle de Oliveira Parreira
author_role author
dc.contributor.none.fl_str_mv Carlos Henrique Quartucci Forster
dc.contributor.author.fl_str_mv Michelle de Oliveira Parreira
dc.subject.por.fl_str_mv Mineração de dados
Algoritmos
Identificação de parâmetros
Rotinas de entrada e saída de dados
Recuperação da informação
Modelos matemáticos
Métodos estatísticos
Complexidade computacional
Matemática
topic Mineração de dados
Algoritmos
Identificação de parâmetros
Rotinas de entrada e saída de dados
Recuperação da informação
Modelos matemáticos
Métodos estatísticos
Complexidade computacional
Matemática
dc.description.none.fl_txt_mv O problema de tratamento de valores ausentes em Mineração de Dados tem sido um desafio de pesquisa. O tratamento incorreto das ausências pode implicar prejuízo à qualidade e à validação dos resultados gerados no processo de Mineração. Uma forma de tratar esses dados é utilizar métodos de imputação, ou seja, o preenchimento dos dados através de dados estimados a partir das relações conhecidas dos dados reais. Assim, este trabalho propõe realizar vários experimentos de imputação de valores ausentes com a integração dos conceitos de imputação múltipla e composta com o objetivo de melhorar o desempenho baseado nos valores estimados para preenchimento. A abordagem desta pesquisa levou em consideração o tipo do conjunto de dados, características de distribuição destes dados, tipos e quantidade de atributos univariados e multivariados com valores ausentes, além de diferentes taxas de porcentagens e mecanismos de ausência de dados. O objetivo de inserir valores ausentes artificialmente em um conjunto completo foi permitir a avaliação da qualidade dos métodos de imputação a partir da relação dos valores imputados e dos valores originais eliminados. Aplicou-se o conceito de imputação composta para dinamizar e aperfeiçoar o processo de imputação. Para tanto foram usados dois métodos em conjunto: método de procedimentos baseados em imputação única, Hot Deck (visão estocástica) e Média (visão determinística); e método com procedimentos baseados em modelos, Estimativa de Densidade de Probabilidade, através do método do K-Vizinhos Mais Próximos (KNN). Comparou-se, conseqüentemente, com a imputação por Média e Máxima Verossimilhança, além do método de eliminação ListWise. Posteriormente, análises das qualidades das imputações realizadas são avaliadas através de medidas estatísticas, mostrando bom comportamento do método KNN no contexto geral de imputações.
description O problema de tratamento de valores ausentes em Mineração de Dados tem sido um desafio de pesquisa. O tratamento incorreto das ausências pode implicar prejuízo à qualidade e à validação dos resultados gerados no processo de Mineração. Uma forma de tratar esses dados é utilizar métodos de imputação, ou seja, o preenchimento dos dados através de dados estimados a partir das relações conhecidas dos dados reais. Assim, este trabalho propõe realizar vários experimentos de imputação de valores ausentes com a integração dos conceitos de imputação múltipla e composta com o objetivo de melhorar o desempenho baseado nos valores estimados para preenchimento. A abordagem desta pesquisa levou em consideração o tipo do conjunto de dados, características de distribuição destes dados, tipos e quantidade de atributos univariados e multivariados com valores ausentes, além de diferentes taxas de porcentagens e mecanismos de ausência de dados. O objetivo de inserir valores ausentes artificialmente em um conjunto completo foi permitir a avaliação da qualidade dos métodos de imputação a partir da relação dos valores imputados e dos valores originais eliminados. Aplicou-se o conceito de imputação composta para dinamizar e aperfeiçoar o processo de imputação. Para tanto foram usados dois métodos em conjunto: método de procedimentos baseados em imputação única, Hot Deck (visão estocástica) e Média (visão determinística); e método com procedimentos baseados em modelos, Estimativa de Densidade de Probabilidade, através do método do K-Vizinhos Mais Próximos (KNN). Comparou-se, conseqüentemente, com a imputação por Média e Máxima Verossimilhança, além do método de eliminação ListWise. Posteriormente, análises das qualidades das imputações realizadas são avaliadas através de medidas estatísticas, mostrando bom comportamento do método KNN no contexto geral de imputações.
publishDate 2010
dc.date.none.fl_str_mv 2010-07-01
dc.type.driver.fl_str_mv info:eu-repo/semantics/publishedVersion
info:eu-repo/semantics/masterThesis
status_str publishedVersion
format masterThesis
dc.identifier.uri.fl_str_mv http://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=1018
url http://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=1018
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Instituto Tecnológico de Aeronáutica
publisher.none.fl_str_mv Instituto Tecnológico de Aeronáutica
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações do ITA
instname:Instituto Tecnológico de Aeronáutica
instacron:ITA
reponame_str Biblioteca Digital de Teses e Dissertações do ITA
collection Biblioteca Digital de Teses e Dissertações do ITA
instname_str Instituto Tecnológico de Aeronáutica
instacron_str ITA
institution ITA
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações do ITA - Instituto Tecnológico de Aeronáutica
repository.mail.fl_str_mv
subject_por_txtF_mv Mineração de dados
Algoritmos
Identificação de parâmetros
Rotinas de entrada e saída de dados
Recuperação da informação
Modelos matemáticos
Métodos estatísticos
Complexidade computacional
Matemática
_version_ 1706804991271895040