A data-centric approach to missing data imputation: addressing noise, adversarial, and fairness challenges

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Mangussi, Arthur Dantas
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
dARK ID: ark:/48912/001300001sfsj
Idioma: eng
Instituição de defesa: Universidade Federal de São Paulo
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://hdl.handle.net/11600/73755
Resumo: Dados produzidos em contextos reais frequentemente apresentam desafios como desbalanceamento, ruído e valores ausentes. Estudos recentes em aprendizado de máquina destacam que aprimorar a qualidade dos dados utilizados no treinamento é tão crucial quanto melhorar os modelos em si, o que constitui o campo de pesquisa conhecido como Inteligência Artificial Centrada em Dados (Data-Centric AI). Valores ausentes, definidos como a falta de informação em uma ou mais variáveis de um conjunto de dados, representam um desafio recorrente nesse campo. Tradicionalmente, o estudo de valores ausentes segue quatro etapas principais: aquisição de dados completos, amputação (geração artificial de valores ausentes), imputação (substituição dos valores ausentes por estratégias pré-definidas) e avaliação dos métodos de imputação e do desempenho de modelos treinados com dados imputados. Esta dissertação visa analisar a interação entre valores ausentes e outros problemas de qualidade encontrados em dados reais, como ruído, ataques adversariais e justiça algorítmica. Para cada análise, utilizamos o setup experimental clássico da literatura em estudos de dados ausentes. De maneira geral, a qualidade dos dados interfere na qualidade da imputação, podendo impactá-la positiva ou negativamente. No caso da interação entre dados ausentes e ruído, uma simples etapa de pré-processamento, como a aplicação de um filtro de ruído, pode melhorar a qualidade da imputação. Observou-se também que a escolha do método de imputação influencia os desfechos de justiça dos modelos, sugerindo a existência de trade-offs entre justiça e predição. Por fim, enquanto ataques adversariais são amplamente conhecidos por deteriorarem modelos preditivos, esta dissertação evidencia que eles afetam significativamente a eficácia dos métodos de imputação também, reforçando a necessidade de estratégias robustas e integradas para lidar com múltiplos problemas nos dados. Essas análises estão alinhadas com a premissa da Inteligência Artificial Centrada em Dados, na medida em que a melhoria da qualidade dos dados contribui para o desempenho de modelos de aprendizado de máquina em etapas subsequentes. Esta dissertação também contribui para a etapa de amputação, ao apresentar a primeira biblioteca Python capaz de gerar valores ausentes artificialmente utilizando diversas estratégias e mecanismos, possibilitando resultados reprodutíveis, avaliações justas de métodos de imputação e a criação de cenários realistas para a aplicação prática dessas técnicas.
id UFSP_38c54da5c6971a3e86543aa4cc2defba
oai_identifier_str oai:repositorio.unifesp.br:11600/73755
network_acronym_str UFSP
network_name_str Repositório Institucional da UNIFESP
repository_id_str
spelling A data-centric approach to missing data imputation: addressing noise, adversarial, and fairness challengesMachine learningData-centric AIMissing dataNão se aplicaDados produzidos em contextos reais frequentemente apresentam desafios como desbalanceamento, ruído e valores ausentes. Estudos recentes em aprendizado de máquina destacam que aprimorar a qualidade dos dados utilizados no treinamento é tão crucial quanto melhorar os modelos em si, o que constitui o campo de pesquisa conhecido como Inteligência Artificial Centrada em Dados (Data-Centric AI). Valores ausentes, definidos como a falta de informação em uma ou mais variáveis de um conjunto de dados, representam um desafio recorrente nesse campo. Tradicionalmente, o estudo de valores ausentes segue quatro etapas principais: aquisição de dados completos, amputação (geração artificial de valores ausentes), imputação (substituição dos valores ausentes por estratégias pré-definidas) e avaliação dos métodos de imputação e do desempenho de modelos treinados com dados imputados. Esta dissertação visa analisar a interação entre valores ausentes e outros problemas de qualidade encontrados em dados reais, como ruído, ataques adversariais e justiça algorítmica. Para cada análise, utilizamos o setup experimental clássico da literatura em estudos de dados ausentes. De maneira geral, a qualidade dos dados interfere na qualidade da imputação, podendo impactá-la positiva ou negativamente. No caso da interação entre dados ausentes e ruído, uma simples etapa de pré-processamento, como a aplicação de um filtro de ruído, pode melhorar a qualidade da imputação. Observou-se também que a escolha do método de imputação influencia os desfechos de justiça dos modelos, sugerindo a existência de trade-offs entre justiça e predição. Por fim, enquanto ataques adversariais são amplamente conhecidos por deteriorarem modelos preditivos, esta dissertação evidencia que eles afetam significativamente a eficácia dos métodos de imputação também, reforçando a necessidade de estratégias robustas e integradas para lidar com múltiplos problemas nos dados. Essas análises estão alinhadas com a premissa da Inteligência Artificial Centrada em Dados, na medida em que a melhoria da qualidade dos dados contribui para o desempenho de modelos de aprendizado de máquina em etapas subsequentes. Esta dissertação também contribui para a etapa de amputação, ao apresentar a primeira biblioteca Python capaz de gerar valores ausentes artificialmente utilizando diversas estratégias e mecanismos, possibilitando resultados reprodutíveis, avaliações justas de métodos de imputação e a criação de cenários realistas para a aplicação prática dessas técnicas.Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)2022/10553-62023/13688-2Universidade Federal de São PauloLorena, Ana CarolinaAbreu, Pedro Henriqueshttp://lattes.cnpq.br/3451628262694747http://lattes.cnpq.br/7990546714683786Mangussi, Arthur Dantas2025-03-18T15:50:46Z2025-03-18T15:50:46Z2025-02-05info:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/publishedVersion93 f.application/pdfhttps://hdl.handle.net/11600/73755ark:/48912/001300001sfsjeng2025-02-05info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNIFESPinstname:Universidade Federal de São Paulo (UNIFESP)instacron:UNIFESP2025-03-19T04:02:41Zoai:repositorio.unifesp.br:11600/73755Repositório InstitucionalPUBhttp://www.repositorio.unifesp.br/oai/requestbiblioteca.csp@unifesp.bropendoar:34652025-03-19T04:02:41Repositório Institucional da UNIFESP - Universidade Federal de São Paulo (UNIFESP)false
dc.title.none.fl_str_mv A data-centric approach to missing data imputation: addressing noise, adversarial, and fairness challenges
title A data-centric approach to missing data imputation: addressing noise, adversarial, and fairness challenges
spellingShingle A data-centric approach to missing data imputation: addressing noise, adversarial, and fairness challenges
Mangussi, Arthur Dantas
Machine learning
Data-centric AI
Missing data
Não se aplica
title_short A data-centric approach to missing data imputation: addressing noise, adversarial, and fairness challenges
title_full A data-centric approach to missing data imputation: addressing noise, adversarial, and fairness challenges
title_fullStr A data-centric approach to missing data imputation: addressing noise, adversarial, and fairness challenges
title_full_unstemmed A data-centric approach to missing data imputation: addressing noise, adversarial, and fairness challenges
title_sort A data-centric approach to missing data imputation: addressing noise, adversarial, and fairness challenges
author Mangussi, Arthur Dantas
author_facet Mangussi, Arthur Dantas
author_role author
dc.contributor.none.fl_str_mv Lorena, Ana Carolina
Abreu, Pedro Henriques
http://lattes.cnpq.br/3451628262694747
http://lattes.cnpq.br/7990546714683786
dc.contributor.author.fl_str_mv Mangussi, Arthur Dantas
dc.subject.por.fl_str_mv Machine learning
Data-centric AI
Missing data
Não se aplica
topic Machine learning
Data-centric AI
Missing data
Não se aplica
description Dados produzidos em contextos reais frequentemente apresentam desafios como desbalanceamento, ruído e valores ausentes. Estudos recentes em aprendizado de máquina destacam que aprimorar a qualidade dos dados utilizados no treinamento é tão crucial quanto melhorar os modelos em si, o que constitui o campo de pesquisa conhecido como Inteligência Artificial Centrada em Dados (Data-Centric AI). Valores ausentes, definidos como a falta de informação em uma ou mais variáveis de um conjunto de dados, representam um desafio recorrente nesse campo. Tradicionalmente, o estudo de valores ausentes segue quatro etapas principais: aquisição de dados completos, amputação (geração artificial de valores ausentes), imputação (substituição dos valores ausentes por estratégias pré-definidas) e avaliação dos métodos de imputação e do desempenho de modelos treinados com dados imputados. Esta dissertação visa analisar a interação entre valores ausentes e outros problemas de qualidade encontrados em dados reais, como ruído, ataques adversariais e justiça algorítmica. Para cada análise, utilizamos o setup experimental clássico da literatura em estudos de dados ausentes. De maneira geral, a qualidade dos dados interfere na qualidade da imputação, podendo impactá-la positiva ou negativamente. No caso da interação entre dados ausentes e ruído, uma simples etapa de pré-processamento, como a aplicação de um filtro de ruído, pode melhorar a qualidade da imputação. Observou-se também que a escolha do método de imputação influencia os desfechos de justiça dos modelos, sugerindo a existência de trade-offs entre justiça e predição. Por fim, enquanto ataques adversariais são amplamente conhecidos por deteriorarem modelos preditivos, esta dissertação evidencia que eles afetam significativamente a eficácia dos métodos de imputação também, reforçando a necessidade de estratégias robustas e integradas para lidar com múltiplos problemas nos dados. Essas análises estão alinhadas com a premissa da Inteligência Artificial Centrada em Dados, na medida em que a melhoria da qualidade dos dados contribui para o desempenho de modelos de aprendizado de máquina em etapas subsequentes. Esta dissertação também contribui para a etapa de amputação, ao apresentar a primeira biblioteca Python capaz de gerar valores ausentes artificialmente utilizando diversas estratégias e mecanismos, possibilitando resultados reprodutíveis, avaliações justas de métodos de imputação e a criação de cenários realistas para a aplicação prática dessas técnicas.
publishDate 2025
dc.date.none.fl_str_mv 2025-03-18T15:50:46Z
2025-03-18T15:50:46Z
2025-02-05
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/11600/73755
dc.identifier.dark.fl_str_mv ark:/48912/001300001sfsj
url https://hdl.handle.net/11600/73755
identifier_str_mv ark:/48912/001300001sfsj
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 93 f.
application/pdf
dc.coverage.none.fl_str_mv 2025-02-05
dc.publisher.none.fl_str_mv Universidade Federal de São Paulo
publisher.none.fl_str_mv Universidade Federal de São Paulo
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNIFESP
instname:Universidade Federal de São Paulo (UNIFESP)
instacron:UNIFESP
instname_str Universidade Federal de São Paulo (UNIFESP)
instacron_str UNIFESP
institution UNIFESP
reponame_str Repositório Institucional da UNIFESP
collection Repositório Institucional da UNIFESP
repository.name.fl_str_mv Repositório Institucional da UNIFESP - Universidade Federal de São Paulo (UNIFESP)
repository.mail.fl_str_mv biblioteca.csp@unifesp.br
_version_ 1848497929619243008