Avaliação experimental da imputação múltipla e composta de valores ausentes no processo mineração de dados.
Ano de defesa: | 2010 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Instituto Tecnológico de Aeronáutica
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | http://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=1018 |
Resumo: | O problema de tratamento de valores ausentes em Mineração de Dados tem sido um desafio de pesquisa. O tratamento incorreto das ausências pode implicar prejuízo à qualidade e à validação dos resultados gerados no processo de Mineração. Uma forma de tratar esses dados é utilizar métodos de imputação, ou seja, o preenchimento dos dados através de dados estimados a partir das relações conhecidas dos dados reais. Assim, este trabalho propõe realizar vários experimentos de imputação de valores ausentes com a integração dos conceitos de imputação múltipla e composta com o objetivo de melhorar o desempenho baseado nos valores estimados para preenchimento. A abordagem desta pesquisa levou em consideração o tipo do conjunto de dados, características de distribuição destes dados, tipos e quantidade de atributos univariados e multivariados com valores ausentes, além de diferentes taxas de porcentagens e mecanismos de ausência de dados. O objetivo de inserir valores ausentes artificialmente em um conjunto completo foi permitir a avaliação da qualidade dos métodos de imputação a partir da relação dos valores imputados e dos valores originais eliminados. Aplicou-se o conceito de imputação composta para dinamizar e aperfeiçoar o processo de imputação. Para tanto foram usados dois métodos em conjunto: método de procedimentos baseados em imputação única, Hot Deck (visão estocástica) e Média (visão determinística); e método com procedimentos baseados em modelos, Estimativa de Densidade de Probabilidade, através do método do K-Vizinhos Mais Próximos (KNN). Comparou-se, conseqüentemente, com a imputação por Média e Máxima Verossimilhança, além do método de eliminação ListWise. Posteriormente, análises das qualidades das imputações realizadas são avaliadas através de medidas estatísticas, mostrando bom comportamento do método KNN no contexto geral de imputações. |
id |
ITA_bc74cd93524b93ef6e770c8022455e52 |
---|---|
oai_identifier_str |
oai:agregador.ibict.br.BDTD_ITA:oai:ita.br:1018 |
network_acronym_str |
ITA |
network_name_str |
Biblioteca Digital de Teses e Dissertações do ITA |
spelling |
Avaliação experimental da imputação múltipla e composta de valores ausentes no processo mineração de dados.Mineração de dadosAlgoritmosIdentificação de parâmetrosRotinas de entrada e saída de dadosRecuperação da informaçãoModelos matemáticosMétodos estatísticosComplexidade computacionalMatemáticaO problema de tratamento de valores ausentes em Mineração de Dados tem sido um desafio de pesquisa. O tratamento incorreto das ausências pode implicar prejuízo à qualidade e à validação dos resultados gerados no processo de Mineração. Uma forma de tratar esses dados é utilizar métodos de imputação, ou seja, o preenchimento dos dados através de dados estimados a partir das relações conhecidas dos dados reais. Assim, este trabalho propõe realizar vários experimentos de imputação de valores ausentes com a integração dos conceitos de imputação múltipla e composta com o objetivo de melhorar o desempenho baseado nos valores estimados para preenchimento. A abordagem desta pesquisa levou em consideração o tipo do conjunto de dados, características de distribuição destes dados, tipos e quantidade de atributos univariados e multivariados com valores ausentes, além de diferentes taxas de porcentagens e mecanismos de ausência de dados. O objetivo de inserir valores ausentes artificialmente em um conjunto completo foi permitir a avaliação da qualidade dos métodos de imputação a partir da relação dos valores imputados e dos valores originais eliminados. Aplicou-se o conceito de imputação composta para dinamizar e aperfeiçoar o processo de imputação. Para tanto foram usados dois métodos em conjunto: método de procedimentos baseados em imputação única, Hot Deck (visão estocástica) e Média (visão determinística); e método com procedimentos baseados em modelos, Estimativa de Densidade de Probabilidade, através do método do K-Vizinhos Mais Próximos (KNN). Comparou-se, conseqüentemente, com a imputação por Média e Máxima Verossimilhança, além do método de eliminação ListWise. Posteriormente, análises das qualidades das imputações realizadas são avaliadas através de medidas estatísticas, mostrando bom comportamento do método KNN no contexto geral de imputações.Instituto Tecnológico de AeronáuticaCarlos Henrique Quartucci ForsterMichelle de Oliveira Parreira2010-07-01info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=1018reponame:Biblioteca Digital de Teses e Dissertações do ITAinstname:Instituto Tecnológico de Aeronáuticainstacron:ITAporinfo:eu-repo/semantics/openAccessapplication/pdf2019-02-02T14:02:03Zoai:agregador.ibict.br.BDTD_ITA:oai:ita.br:1018http://oai.bdtd.ibict.br/requestopendoar:null2020-05-28 19:35:04.395Biblioteca Digital de Teses e Dissertações do ITA - Instituto Tecnológico de Aeronáuticatrue |
dc.title.none.fl_str_mv |
Avaliação experimental da imputação múltipla e composta de valores ausentes no processo mineração de dados. |
title |
Avaliação experimental da imputação múltipla e composta de valores ausentes no processo mineração de dados. |
spellingShingle |
Avaliação experimental da imputação múltipla e composta de valores ausentes no processo mineração de dados. Michelle de Oliveira Parreira Mineração de dados Algoritmos Identificação de parâmetros Rotinas de entrada e saída de dados Recuperação da informação Modelos matemáticos Métodos estatísticos Complexidade computacional Matemática |
title_short |
Avaliação experimental da imputação múltipla e composta de valores ausentes no processo mineração de dados. |
title_full |
Avaliação experimental da imputação múltipla e composta de valores ausentes no processo mineração de dados. |
title_fullStr |
Avaliação experimental da imputação múltipla e composta de valores ausentes no processo mineração de dados. |
title_full_unstemmed |
Avaliação experimental da imputação múltipla e composta de valores ausentes no processo mineração de dados. |
title_sort |
Avaliação experimental da imputação múltipla e composta de valores ausentes no processo mineração de dados. |
author |
Michelle de Oliveira Parreira |
author_facet |
Michelle de Oliveira Parreira |
author_role |
author |
dc.contributor.none.fl_str_mv |
Carlos Henrique Quartucci Forster |
dc.contributor.author.fl_str_mv |
Michelle de Oliveira Parreira |
dc.subject.por.fl_str_mv |
Mineração de dados Algoritmos Identificação de parâmetros Rotinas de entrada e saída de dados Recuperação da informação Modelos matemáticos Métodos estatísticos Complexidade computacional Matemática |
topic |
Mineração de dados Algoritmos Identificação de parâmetros Rotinas de entrada e saída de dados Recuperação da informação Modelos matemáticos Métodos estatísticos Complexidade computacional Matemática |
dc.description.none.fl_txt_mv |
O problema de tratamento de valores ausentes em Mineração de Dados tem sido um desafio de pesquisa. O tratamento incorreto das ausências pode implicar prejuízo à qualidade e à validação dos resultados gerados no processo de Mineração. Uma forma de tratar esses dados é utilizar métodos de imputação, ou seja, o preenchimento dos dados através de dados estimados a partir das relações conhecidas dos dados reais. Assim, este trabalho propõe realizar vários experimentos de imputação de valores ausentes com a integração dos conceitos de imputação múltipla e composta com o objetivo de melhorar o desempenho baseado nos valores estimados para preenchimento. A abordagem desta pesquisa levou em consideração o tipo do conjunto de dados, características de distribuição destes dados, tipos e quantidade de atributos univariados e multivariados com valores ausentes, além de diferentes taxas de porcentagens e mecanismos de ausência de dados. O objetivo de inserir valores ausentes artificialmente em um conjunto completo foi permitir a avaliação da qualidade dos métodos de imputação a partir da relação dos valores imputados e dos valores originais eliminados. Aplicou-se o conceito de imputação composta para dinamizar e aperfeiçoar o processo de imputação. Para tanto foram usados dois métodos em conjunto: método de procedimentos baseados em imputação única, Hot Deck (visão estocástica) e Média (visão determinística); e método com procedimentos baseados em modelos, Estimativa de Densidade de Probabilidade, através do método do K-Vizinhos Mais Próximos (KNN). Comparou-se, conseqüentemente, com a imputação por Média e Máxima Verossimilhança, além do método de eliminação ListWise. Posteriormente, análises das qualidades das imputações realizadas são avaliadas através de medidas estatísticas, mostrando bom comportamento do método KNN no contexto geral de imputações. |
description |
O problema de tratamento de valores ausentes em Mineração de Dados tem sido um desafio de pesquisa. O tratamento incorreto das ausências pode implicar prejuízo à qualidade e à validação dos resultados gerados no processo de Mineração. Uma forma de tratar esses dados é utilizar métodos de imputação, ou seja, o preenchimento dos dados através de dados estimados a partir das relações conhecidas dos dados reais. Assim, este trabalho propõe realizar vários experimentos de imputação de valores ausentes com a integração dos conceitos de imputação múltipla e composta com o objetivo de melhorar o desempenho baseado nos valores estimados para preenchimento. A abordagem desta pesquisa levou em consideração o tipo do conjunto de dados, características de distribuição destes dados, tipos e quantidade de atributos univariados e multivariados com valores ausentes, além de diferentes taxas de porcentagens e mecanismos de ausência de dados. O objetivo de inserir valores ausentes artificialmente em um conjunto completo foi permitir a avaliação da qualidade dos métodos de imputação a partir da relação dos valores imputados e dos valores originais eliminados. Aplicou-se o conceito de imputação composta para dinamizar e aperfeiçoar o processo de imputação. Para tanto foram usados dois métodos em conjunto: método de procedimentos baseados em imputação única, Hot Deck (visão estocástica) e Média (visão determinística); e método com procedimentos baseados em modelos, Estimativa de Densidade de Probabilidade, através do método do K-Vizinhos Mais Próximos (KNN). Comparou-se, conseqüentemente, com a imputação por Média e Máxima Verossimilhança, além do método de eliminação ListWise. Posteriormente, análises das qualidades das imputações realizadas são avaliadas através de medidas estatísticas, mostrando bom comportamento do método KNN no contexto geral de imputações. |
publishDate |
2010 |
dc.date.none.fl_str_mv |
2010-07-01 |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis |
status_str |
publishedVersion |
format |
masterThesis |
dc.identifier.uri.fl_str_mv |
http://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=1018 |
url |
http://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=1018 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Instituto Tecnológico de Aeronáutica |
publisher.none.fl_str_mv |
Instituto Tecnológico de Aeronáutica |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações do ITA instname:Instituto Tecnológico de Aeronáutica instacron:ITA |
reponame_str |
Biblioteca Digital de Teses e Dissertações do ITA |
collection |
Biblioteca Digital de Teses e Dissertações do ITA |
instname_str |
Instituto Tecnológico de Aeronáutica |
instacron_str |
ITA |
institution |
ITA |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações do ITA - Instituto Tecnológico de Aeronáutica |
repository.mail.fl_str_mv |
|
subject_por_txtF_mv |
Mineração de dados Algoritmos Identificação de parâmetros Rotinas de entrada e saída de dados Recuperação da informação Modelos matemáticos Métodos estatísticos Complexidade computacional Matemática |
_version_ |
1706804991271895040 |