A data-centric approach to missing data imputation: addressing noise, adversarial, and fairness challenges

Mangussi, Arthur Dantas

A data-centric approach to missing data imputation: addressing noise, adversarial, and fairness challenges

Detalhes bibliográficos
Ano de defesa:	2025
Autor(a) principal:	Mangussi, Arthur Dantas
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
dARK ID:	ark:/48912/001300001sfsj
Idioma:	eng
Instituição de defesa:	Universidade Federal de São Paulo
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Machine learning Data-centric AI Missing data Não se aplica
Link de acesso:	https://hdl.handle.net/11600/73755
Resumo:	Dados produzidos em contextos reais frequentemente apresentam desafios como desbalanceamento, ruído e valores ausentes. Estudos recentes em aprendizado de máquina destacam que aprimorar a qualidade dos dados utilizados no treinamento é tão crucial quanto melhorar os modelos em si, o que constitui o campo de pesquisa conhecido como Inteligência Artificial Centrada em Dados (Data-Centric AI). Valores ausentes, definidos como a falta de informação em uma ou mais variáveis de um conjunto de dados, representam um desafio recorrente nesse campo. Tradicionalmente, o estudo de valores ausentes segue quatro etapas principais: aquisição de dados completos, amputação (geração artificial de valores ausentes), imputação (substituição dos valores ausentes por estratégias pré-definidas) e avaliação dos métodos de imputação e do desempenho de modelos treinados com dados imputados. Esta dissertação visa analisar a interação entre valores ausentes e outros problemas de qualidade encontrados em dados reais, como ruído, ataques adversariais e justiça algorítmica. Para cada análise, utilizamos o setup experimental clássico da literatura em estudos de dados ausentes. De maneira geral, a qualidade dos dados interfere na qualidade da imputação, podendo impactá-la positiva ou negativamente. No caso da interação entre dados ausentes e ruído, uma simples etapa de pré-processamento, como a aplicação de um filtro de ruído, pode melhorar a qualidade da imputação. Observou-se também que a escolha do método de imputação influencia os desfechos de justiça dos modelos, sugerindo a existência de trade-offs entre justiça e predição. Por fim, enquanto ataques adversariais são amplamente conhecidos por deteriorarem modelos preditivos, esta dissertação evidencia que eles afetam significativamente a eficácia dos métodos de imputação também, reforçando a necessidade de estratégias robustas e integradas para lidar com múltiplos problemas nos dados. Essas análises estão alinhadas com a premissa da Inteligência Artificial Centrada em Dados, na medida em que a melhoria da qualidade dos dados contribui para o desempenho de modelos de aprendizado de máquina em etapas subsequentes. Esta dissertação também contribui para a etapa de amputação, ao apresentar a primeira biblioteca Python capaz de gerar valores ausentes artificialmente utilizando diversas estratégias e mecanismos, possibilitando resultados reprodutíveis, avaliações justas de métodos de imputação e a criação de cenários realistas para a aplicação prática dessas técnicas.

Metadados do item

id	UFSP_38c54da5c6971a3e86543aa4cc2defba
oai_identifier_str	oai:repositorio.unifesp.br:11600/73755
network_acronym_str	UFSP
network_name_str	Repositório Institucional da UNIFESP
repository_id_str
spelling	A data-centric approach to missing data imputation: addressing noise, adversarial, and fairness challengesMachine learningData-centric AIMissing dataNão se aplicaDados produzidos em contextos reais frequentemente apresentam desafios como desbalanceamento, ruído e valores ausentes. Estudos recentes em aprendizado de máquina destacam que aprimorar a qualidade dos dados utilizados no treinamento é tão crucial quanto melhorar os modelos em si, o que constitui o campo de pesquisa conhecido como Inteligência Artificial Centrada em Dados (Data-Centric AI). Valores ausentes, definidos como a falta de informação em uma ou mais variáveis de um conjunto de dados, representam um desafio recorrente nesse campo. Tradicionalmente, o estudo de valores ausentes segue quatro etapas principais: aquisição de dados completos, amputação (geração artificial de valores ausentes), imputação (substituição dos valores ausentes por estratégias pré-definidas) e avaliação dos métodos de imputação e do desempenho de modelos treinados com dados imputados. Esta dissertação visa analisar a interação entre valores ausentes e outros problemas de qualidade encontrados em dados reais, como ruído, ataques adversariais e justiça algorítmica. Para cada análise, utilizamos o setup experimental clássico da literatura em estudos de dados ausentes. De maneira geral, a qualidade dos dados interfere na qualidade da imputação, podendo impactá-la positiva ou negativamente. No caso da interação entre dados ausentes e ruído, uma simples etapa de pré-processamento, como a aplicação de um filtro de ruído, pode melhorar a qualidade da imputação. Observou-se também que a escolha do método de imputação influencia os desfechos de justiça dos modelos, sugerindo a existência de trade-offs entre justiça e predição. Por fim, enquanto ataques adversariais são amplamente conhecidos por deteriorarem modelos preditivos, esta dissertação evidencia que eles afetam significativamente a eficácia dos métodos de imputação também, reforçando a necessidade de estratégias robustas e integradas para lidar com múltiplos problemas nos dados. Essas análises estão alinhadas com a premissa da Inteligência Artificial Centrada em Dados, na medida em que a melhoria da qualidade dos dados contribui para o desempenho de modelos de aprendizado de máquina em etapas subsequentes. Esta dissertação também contribui para a etapa de amputação, ao apresentar a primeira biblioteca Python capaz de gerar valores ausentes artificialmente utilizando diversas estratégias e mecanismos, possibilitando resultados reprodutíveis, avaliações justas de métodos de imputação e a criação de cenários realistas para a aplicação prática dessas técnicas.Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)2022/10553-62023/13688-2Universidade Federal de São PauloLorena, Ana CarolinaAbreu, Pedro Henriqueshttp://lattes.cnpq.br/3451628262694747http://lattes.cnpq.br/7990546714683786Mangussi, Arthur Dantas2025-03-18T15:50:46Z2025-03-18T15:50:46Z2025-02-05info:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/publishedVersion93 f.application/pdfhttps://hdl.handle.net/11600/73755ark:/48912/001300001sfsjeng2025-02-05info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNIFESPinstname:Universidade Federal de São Paulo (UNIFESP)instacron:UNIFESP2025-03-19T04:02:41Zoai:repositorio.unifesp.br:11600/73755Repositório InstitucionalPUBhttp://www.repositorio.unifesp.br/oai/requestbiblioteca.csp@unifesp.bropendoar:34652025-03-19T04:02:41Repositório Institucional da UNIFESP - Universidade Federal de São Paulo (UNIFESP)false
dc.title.none.fl_str_mv	A data-centric approach to missing data imputation: addressing noise, adversarial, and fairness challenges
title	A data-centric approach to missing data imputation: addressing noise, adversarial, and fairness challenges
spellingShingle	A data-centric approach to missing data imputation: addressing noise, adversarial, and fairness challenges Mangussi, Arthur Dantas Machine learning Data-centric AI Missing data Não se aplica
title_short	A data-centric approach to missing data imputation: addressing noise, adversarial, and fairness challenges
title_full	A data-centric approach to missing data imputation: addressing noise, adversarial, and fairness challenges
title_fullStr	A data-centric approach to missing data imputation: addressing noise, adversarial, and fairness challenges
title_full_unstemmed	A data-centric approach to missing data imputation: addressing noise, adversarial, and fairness challenges
title_sort	A data-centric approach to missing data imputation: addressing noise, adversarial, and fairness challenges
author	Mangussi, Arthur Dantas
author_facet	Mangussi, Arthur Dantas
author_role	author
dc.contributor.none.fl_str_mv	Lorena, Ana Carolina Abreu, Pedro Henriques http://lattes.cnpq.br/3451628262694747 http://lattes.cnpq.br/7990546714683786
dc.contributor.author.fl_str_mv	Mangussi, Arthur Dantas
dc.subject.por.fl_str_mv	Machine learning Data-centric AI Missing data Não se aplica
topic	Machine learning Data-centric AI Missing data Não se aplica
description	Dados produzidos em contextos reais frequentemente apresentam desafios como desbalanceamento, ruído e valores ausentes. Estudos recentes em aprendizado de máquina destacam que aprimorar a qualidade dos dados utilizados no treinamento é tão crucial quanto melhorar os modelos em si, o que constitui o campo de pesquisa conhecido como Inteligência Artificial Centrada em Dados (Data-Centric AI). Valores ausentes, definidos como a falta de informação em uma ou mais variáveis de um conjunto de dados, representam um desafio recorrente nesse campo. Tradicionalmente, o estudo de valores ausentes segue quatro etapas principais: aquisição de dados completos, amputação (geração artificial de valores ausentes), imputação (substituição dos valores ausentes por estratégias pré-definidas) e avaliação dos métodos de imputação e do desempenho de modelos treinados com dados imputados. Esta dissertação visa analisar a interação entre valores ausentes e outros problemas de qualidade encontrados em dados reais, como ruído, ataques adversariais e justiça algorítmica. Para cada análise, utilizamos o setup experimental clássico da literatura em estudos de dados ausentes. De maneira geral, a qualidade dos dados interfere na qualidade da imputação, podendo impactá-la positiva ou negativamente. No caso da interação entre dados ausentes e ruído, uma simples etapa de pré-processamento, como a aplicação de um filtro de ruído, pode melhorar a qualidade da imputação. Observou-se também que a escolha do método de imputação influencia os desfechos de justiça dos modelos, sugerindo a existência de trade-offs entre justiça e predição. Por fim, enquanto ataques adversariais são amplamente conhecidos por deteriorarem modelos preditivos, esta dissertação evidencia que eles afetam significativamente a eficácia dos métodos de imputação também, reforçando a necessidade de estratégias robustas e integradas para lidar com múltiplos problemas nos dados. Essas análises estão alinhadas com a premissa da Inteligência Artificial Centrada em Dados, na medida em que a melhoria da qualidade dos dados contribui para o desempenho de modelos de aprendizado de máquina em etapas subsequentes. Esta dissertação também contribui para a etapa de amputação, ao apresentar a primeira biblioteca Python capaz de gerar valores ausentes artificialmente utilizando diversas estratégias e mecanismos, possibilitando resultados reprodutíveis, avaliações justas de métodos de imputação e a criação de cenários realistas para a aplicação prática dessas técnicas.
publishDate	2025
dc.date.none.fl_str_mv	2025-03-18T15:50:46Z 2025-03-18T15:50:46Z 2025-02-05
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://hdl.handle.net/11600/73755
dc.identifier.dark.fl_str_mv	ark:/48912/001300001sfsj
url	https://hdl.handle.net/11600/73755
identifier_str_mv	ark:/48912/001300001sfsj
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	93 f. application/pdf
dc.coverage.none.fl_str_mv	2025-02-05
dc.publisher.none.fl_str_mv	Universidade Federal de São Paulo
publisher.none.fl_str_mv	Universidade Federal de São Paulo
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UNIFESP instname:Universidade Federal de São Paulo (UNIFESP) instacron:UNIFESP
instname_str	Universidade Federal de São Paulo (UNIFESP)
instacron_str	UNIFESP
institution	UNIFESP
reponame_str	Repositório Institucional da UNIFESP
collection	Repositório Institucional da UNIFESP
repository.name.fl_str_mv	Repositório Institucional da UNIFESP - Universidade Federal de São Paulo (UNIFESP)
repository.mail.fl_str_mv	biblioteca.csp@unifesp.br
_version_	1848497929619243008

A data-centric approach to missing data imputation: addressing noise, adversarial, and fairness challenges

Registros relacionados