A data-centric approach to missing data imputation: addressing noise, adversarial, and fairness challenges
| Ano de defesa: | 2025 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| dARK ID: | ark:/48912/001300001sfsj |
| Idioma: | eng |
| Instituição de defesa: |
Universidade Federal de São Paulo
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://hdl.handle.net/11600/73755 |
Resumo: | Dados produzidos em contextos reais frequentemente apresentam desafios como desbalanceamento, ruído e valores ausentes. Estudos recentes em aprendizado de máquina destacam que aprimorar a qualidade dos dados utilizados no treinamento é tão crucial quanto melhorar os modelos em si, o que constitui o campo de pesquisa conhecido como Inteligência Artificial Centrada em Dados (Data-Centric AI). Valores ausentes, definidos como a falta de informação em uma ou mais variáveis de um conjunto de dados, representam um desafio recorrente nesse campo. Tradicionalmente, o estudo de valores ausentes segue quatro etapas principais: aquisição de dados completos, amputação (geração artificial de valores ausentes), imputação (substituição dos valores ausentes por estratégias pré-definidas) e avaliação dos métodos de imputação e do desempenho de modelos treinados com dados imputados. Esta dissertação visa analisar a interação entre valores ausentes e outros problemas de qualidade encontrados em dados reais, como ruído, ataques adversariais e justiça algorítmica. Para cada análise, utilizamos o setup experimental clássico da literatura em estudos de dados ausentes. De maneira geral, a qualidade dos dados interfere na qualidade da imputação, podendo impactá-la positiva ou negativamente. No caso da interação entre dados ausentes e ruído, uma simples etapa de pré-processamento, como a aplicação de um filtro de ruído, pode melhorar a qualidade da imputação. Observou-se também que a escolha do método de imputação influencia os desfechos de justiça dos modelos, sugerindo a existência de trade-offs entre justiça e predição. Por fim, enquanto ataques adversariais são amplamente conhecidos por deteriorarem modelos preditivos, esta dissertação evidencia que eles afetam significativamente a eficácia dos métodos de imputação também, reforçando a necessidade de estratégias robustas e integradas para lidar com múltiplos problemas nos dados. Essas análises estão alinhadas com a premissa da Inteligência Artificial Centrada em Dados, na medida em que a melhoria da qualidade dos dados contribui para o desempenho de modelos de aprendizado de máquina em etapas subsequentes. Esta dissertação também contribui para a etapa de amputação, ao apresentar a primeira biblioteca Python capaz de gerar valores ausentes artificialmente utilizando diversas estratégias e mecanismos, possibilitando resultados reprodutíveis, avaliações justas de métodos de imputação e a criação de cenários realistas para a aplicação prática dessas técnicas. |
| id |
UFSP_38c54da5c6971a3e86543aa4cc2defba |
|---|---|
| oai_identifier_str |
oai:repositorio.unifesp.br:11600/73755 |
| network_acronym_str |
UFSP |
| network_name_str |
Repositório Institucional da UNIFESP |
| repository_id_str |
|
| spelling |
A data-centric approach to missing data imputation: addressing noise, adversarial, and fairness challengesMachine learningData-centric AIMissing dataNão se aplicaDados produzidos em contextos reais frequentemente apresentam desafios como desbalanceamento, ruído e valores ausentes. Estudos recentes em aprendizado de máquina destacam que aprimorar a qualidade dos dados utilizados no treinamento é tão crucial quanto melhorar os modelos em si, o que constitui o campo de pesquisa conhecido como Inteligência Artificial Centrada em Dados (Data-Centric AI). Valores ausentes, definidos como a falta de informação em uma ou mais variáveis de um conjunto de dados, representam um desafio recorrente nesse campo. Tradicionalmente, o estudo de valores ausentes segue quatro etapas principais: aquisição de dados completos, amputação (geração artificial de valores ausentes), imputação (substituição dos valores ausentes por estratégias pré-definidas) e avaliação dos métodos de imputação e do desempenho de modelos treinados com dados imputados. Esta dissertação visa analisar a interação entre valores ausentes e outros problemas de qualidade encontrados em dados reais, como ruído, ataques adversariais e justiça algorítmica. Para cada análise, utilizamos o setup experimental clássico da literatura em estudos de dados ausentes. De maneira geral, a qualidade dos dados interfere na qualidade da imputação, podendo impactá-la positiva ou negativamente. No caso da interação entre dados ausentes e ruído, uma simples etapa de pré-processamento, como a aplicação de um filtro de ruído, pode melhorar a qualidade da imputação. Observou-se também que a escolha do método de imputação influencia os desfechos de justiça dos modelos, sugerindo a existência de trade-offs entre justiça e predição. Por fim, enquanto ataques adversariais são amplamente conhecidos por deteriorarem modelos preditivos, esta dissertação evidencia que eles afetam significativamente a eficácia dos métodos de imputação também, reforçando a necessidade de estratégias robustas e integradas para lidar com múltiplos problemas nos dados. Essas análises estão alinhadas com a premissa da Inteligência Artificial Centrada em Dados, na medida em que a melhoria da qualidade dos dados contribui para o desempenho de modelos de aprendizado de máquina em etapas subsequentes. Esta dissertação também contribui para a etapa de amputação, ao apresentar a primeira biblioteca Python capaz de gerar valores ausentes artificialmente utilizando diversas estratégias e mecanismos, possibilitando resultados reprodutíveis, avaliações justas de métodos de imputação e a criação de cenários realistas para a aplicação prática dessas técnicas.Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)2022/10553-62023/13688-2Universidade Federal de São PauloLorena, Ana CarolinaAbreu, Pedro Henriqueshttp://lattes.cnpq.br/3451628262694747http://lattes.cnpq.br/7990546714683786Mangussi, Arthur Dantas2025-03-18T15:50:46Z2025-03-18T15:50:46Z2025-02-05info:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/publishedVersion93 f.application/pdfhttps://hdl.handle.net/11600/73755ark:/48912/001300001sfsjeng2025-02-05info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNIFESPinstname:Universidade Federal de São Paulo (UNIFESP)instacron:UNIFESP2025-03-19T04:02:41Zoai:repositorio.unifesp.br:11600/73755Repositório InstitucionalPUBhttp://www.repositorio.unifesp.br/oai/requestbiblioteca.csp@unifesp.bropendoar:34652025-03-19T04:02:41Repositório Institucional da UNIFESP - Universidade Federal de São Paulo (UNIFESP)false |
| dc.title.none.fl_str_mv |
A data-centric approach to missing data imputation: addressing noise, adversarial, and fairness challenges |
| title |
A data-centric approach to missing data imputation: addressing noise, adversarial, and fairness challenges |
| spellingShingle |
A data-centric approach to missing data imputation: addressing noise, adversarial, and fairness challenges Mangussi, Arthur Dantas Machine learning Data-centric AI Missing data Não se aplica |
| title_short |
A data-centric approach to missing data imputation: addressing noise, adversarial, and fairness challenges |
| title_full |
A data-centric approach to missing data imputation: addressing noise, adversarial, and fairness challenges |
| title_fullStr |
A data-centric approach to missing data imputation: addressing noise, adversarial, and fairness challenges |
| title_full_unstemmed |
A data-centric approach to missing data imputation: addressing noise, adversarial, and fairness challenges |
| title_sort |
A data-centric approach to missing data imputation: addressing noise, adversarial, and fairness challenges |
| author |
Mangussi, Arthur Dantas |
| author_facet |
Mangussi, Arthur Dantas |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Lorena, Ana Carolina Abreu, Pedro Henriques http://lattes.cnpq.br/3451628262694747 http://lattes.cnpq.br/7990546714683786 |
| dc.contributor.author.fl_str_mv |
Mangussi, Arthur Dantas |
| dc.subject.por.fl_str_mv |
Machine learning Data-centric AI Missing data Não se aplica |
| topic |
Machine learning Data-centric AI Missing data Não se aplica |
| description |
Dados produzidos em contextos reais frequentemente apresentam desafios como desbalanceamento, ruído e valores ausentes. Estudos recentes em aprendizado de máquina destacam que aprimorar a qualidade dos dados utilizados no treinamento é tão crucial quanto melhorar os modelos em si, o que constitui o campo de pesquisa conhecido como Inteligência Artificial Centrada em Dados (Data-Centric AI). Valores ausentes, definidos como a falta de informação em uma ou mais variáveis de um conjunto de dados, representam um desafio recorrente nesse campo. Tradicionalmente, o estudo de valores ausentes segue quatro etapas principais: aquisição de dados completos, amputação (geração artificial de valores ausentes), imputação (substituição dos valores ausentes por estratégias pré-definidas) e avaliação dos métodos de imputação e do desempenho de modelos treinados com dados imputados. Esta dissertação visa analisar a interação entre valores ausentes e outros problemas de qualidade encontrados em dados reais, como ruído, ataques adversariais e justiça algorítmica. Para cada análise, utilizamos o setup experimental clássico da literatura em estudos de dados ausentes. De maneira geral, a qualidade dos dados interfere na qualidade da imputação, podendo impactá-la positiva ou negativamente. No caso da interação entre dados ausentes e ruído, uma simples etapa de pré-processamento, como a aplicação de um filtro de ruído, pode melhorar a qualidade da imputação. Observou-se também que a escolha do método de imputação influencia os desfechos de justiça dos modelos, sugerindo a existência de trade-offs entre justiça e predição. Por fim, enquanto ataques adversariais são amplamente conhecidos por deteriorarem modelos preditivos, esta dissertação evidencia que eles afetam significativamente a eficácia dos métodos de imputação também, reforçando a necessidade de estratégias robustas e integradas para lidar com múltiplos problemas nos dados. Essas análises estão alinhadas com a premissa da Inteligência Artificial Centrada em Dados, na medida em que a melhoria da qualidade dos dados contribui para o desempenho de modelos de aprendizado de máquina em etapas subsequentes. Esta dissertação também contribui para a etapa de amputação, ao apresentar a primeira biblioteca Python capaz de gerar valores ausentes artificialmente utilizando diversas estratégias e mecanismos, possibilitando resultados reprodutíveis, avaliações justas de métodos de imputação e a criação de cenários realistas para a aplicação prática dessas técnicas. |
| publishDate |
2025 |
| dc.date.none.fl_str_mv |
2025-03-18T15:50:46Z 2025-03-18T15:50:46Z 2025-02-05 |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/11600/73755 |
| dc.identifier.dark.fl_str_mv |
ark:/48912/001300001sfsj |
| url |
https://hdl.handle.net/11600/73755 |
| identifier_str_mv |
ark:/48912/001300001sfsj |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
93 f. application/pdf |
| dc.coverage.none.fl_str_mv |
2025-02-05 |
| dc.publisher.none.fl_str_mv |
Universidade Federal de São Paulo |
| publisher.none.fl_str_mv |
Universidade Federal de São Paulo |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UNIFESP instname:Universidade Federal de São Paulo (UNIFESP) instacron:UNIFESP |
| instname_str |
Universidade Federal de São Paulo (UNIFESP) |
| instacron_str |
UNIFESP |
| institution |
UNIFESP |
| reponame_str |
Repositório Institucional da UNIFESP |
| collection |
Repositório Institucional da UNIFESP |
| repository.name.fl_str_mv |
Repositório Institucional da UNIFESP - Universidade Federal de São Paulo (UNIFESP) |
| repository.mail.fl_str_mv |
biblioteca.csp@unifesp.br |
| _version_ |
1848497929619243008 |