A data-centric approach to missing data imputation: addressing noise, adversarial, and fairness challenges

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Mangussi, Arthur Dantas
Orientador(a): Lorena, Ana Carolina
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
dARK ID: ark:/48912/001300001sfsj
Idioma: eng
Instituição de defesa: Universidade Federal de São Paulo
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://hdl.handle.net/11600/73755
Resumo: Dados produzidos em contextos reais frequentemente apresentam desafios como desbalanceamento, ruído e valores ausentes. Estudos recentes em aprendizado de máquina destacam que aprimorar a qualidade dos dados utilizados no treinamento é tão crucial quanto melhorar os modelos em si, o que constitui o campo de pesquisa conhecido como Inteligência Artificial Centrada em Dados (Data-Centric AI). Valores ausentes, definidos como a falta de informação em uma ou mais variáveis de um conjunto de dados, representam um desafio recorrente nesse campo. Tradicionalmente, o estudo de valores ausentes segue quatro etapas principais: aquisição de dados completos, amputação (geração artificial de valores ausentes), imputação (substituição dos valores ausentes por estratégias pré-definidas) e avaliação dos métodos de imputação e do desempenho de modelos treinados com dados imputados. Esta dissertação visa analisar a interação entre valores ausentes e outros problemas de qualidade encontrados em dados reais, como ruído, ataques adversariais e justiça algorítmica. Para cada análise, utilizamos o setup experimental clássico da literatura em estudos de dados ausentes. De maneira geral, a qualidade dos dados interfere na qualidade da imputação, podendo impactá-la positiva ou negativamente. No caso da interação entre dados ausentes e ruído, uma simples etapa de pré-processamento, como a aplicação de um filtro de ruído, pode melhorar a qualidade da imputação. Observou-se também que a escolha do método de imputação influencia os desfechos de justiça dos modelos, sugerindo a existência de trade-offs entre justiça e predição. Por fim, enquanto ataques adversariais são amplamente conhecidos por deteriorarem modelos preditivos, esta dissertação evidencia que eles afetam significativamente a eficácia dos métodos de imputação também, reforçando a necessidade de estratégias robustas e integradas para lidar com múltiplos problemas nos dados. Essas análises estão alinhadas com a premissa da Inteligência Artificial Centrada em Dados, na medida em que a melhoria da qualidade dos dados contribui para o desempenho de modelos de aprendizado de máquina em etapas subsequentes. Esta dissertação também contribui para a etapa de amputação, ao apresentar a primeira biblioteca Python capaz de gerar valores ausentes artificialmente utilizando diversas estratégias e mecanismos, possibilitando resultados reprodutíveis, avaliações justas de métodos de imputação e a criação de cenários realistas para a aplicação prática dessas técnicas.
id UFSP_38c54da5c6971a3e86543aa4cc2defba
oai_identifier_str oai:repositorio.unifesp.br:11600/73755
network_acronym_str UFSP
network_name_str Repositório Institucional da UNIFESP
repository_id_str
spelling http://lattes.cnpq.br/3451628262694747Mangussi, Arthur Dantashttp://lattes.cnpq.br/7990546714683786Lorena, Ana CarolinaAbreu, Pedro Henriques2025-02-052025-03-18T15:50:46Z2025-03-18T15:50:46Z2025-02-05Dados produzidos em contextos reais frequentemente apresentam desafios como desbalanceamento, ruído e valores ausentes. Estudos recentes em aprendizado de máquina destacam que aprimorar a qualidade dos dados utilizados no treinamento é tão crucial quanto melhorar os modelos em si, o que constitui o campo de pesquisa conhecido como Inteligência Artificial Centrada em Dados (Data-Centric AI). Valores ausentes, definidos como a falta de informação em uma ou mais variáveis de um conjunto de dados, representam um desafio recorrente nesse campo. Tradicionalmente, o estudo de valores ausentes segue quatro etapas principais: aquisição de dados completos, amputação (geração artificial de valores ausentes), imputação (substituição dos valores ausentes por estratégias pré-definidas) e avaliação dos métodos de imputação e do desempenho de modelos treinados com dados imputados. Esta dissertação visa analisar a interação entre valores ausentes e outros problemas de qualidade encontrados em dados reais, como ruído, ataques adversariais e justiça algorítmica. Para cada análise, utilizamos o setup experimental clássico da literatura em estudos de dados ausentes. De maneira geral, a qualidade dos dados interfere na qualidade da imputação, podendo impactá-la positiva ou negativamente. No caso da interação entre dados ausentes e ruído, uma simples etapa de pré-processamento, como a aplicação de um filtro de ruído, pode melhorar a qualidade da imputação. Observou-se também que a escolha do método de imputação influencia os desfechos de justiça dos modelos, sugerindo a existência de trade-offs entre justiça e predição. Por fim, enquanto ataques adversariais são amplamente conhecidos por deteriorarem modelos preditivos, esta dissertação evidencia que eles afetam significativamente a eficácia dos métodos de imputação também, reforçando a necessidade de estratégias robustas e integradas para lidar com múltiplos problemas nos dados. Essas análises estão alinhadas com a premissa da Inteligência Artificial Centrada em Dados, na medida em que a melhoria da qualidade dos dados contribui para o desempenho de modelos de aprendizado de máquina em etapas subsequentes. Esta dissertação também contribui para a etapa de amputação, ao apresentar a primeira biblioteca Python capaz de gerar valores ausentes artificialmente utilizando diversas estratégias e mecanismos, possibilitando resultados reprodutíveis, avaliações justas de métodos de imputação e a criação de cenários realistas para a aplicação prática dessas técnicas.Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)2022/10553-62023/13688-2aclorena@gmail.com93 f.https://hdl.handle.net/11600/73755ark:/48912/001300001sfsjengUniversidade Federal de São Pauloinfo:eu-repo/semantics/openAccessNão se aplicaMachine learningData-centric AIMissing dataA data-centric approach to missing data imputation: addressing noise, adversarial, and fairness challengesinfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/publishedVersionreponame:Repositório Institucional da UNIFESPinstname:Universidade Federal de São Paulo (UNIFESP)instacron:UNIFESPInstituto de Ciência e Tecnologia (ICT)Pesquisa OperacionalCiência de DadosDados ausentesORIGINALDissertação Mestrado Arthur.pdfDissertação Mestrado Arthur.pdfapplication/pdf4512036https://repositorio.unifesp.br/bitstreams/05b93bac-7213-48c4-800d-e7e882f6145a/download24327c2b21cdf484e1571b1363894cb7MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-86456https://repositorio.unifesp.br/bitstreams/445cc334-263e-4c93-9cdb-5b47288ebbfe/download79881d6dea480587c66312d1102a8942MD52TEXTDissertação Mestrado Arthur.pdf.txtDissertação Mestrado Arthur.pdf.txtExtracted texttext/plain100640https://repositorio.unifesp.br/bitstreams/babf544e-1ba6-4756-8c54-cef19ac1485a/download2a92cf6a3a50b0b80ea4be52c73dad14MD53THUMBNAILDissertação Mestrado Arthur.pdf.jpgDissertação Mestrado Arthur.pdf.jpgGenerated Thumbnailimage/jpeg3727https://repositorio.unifesp.br/bitstreams/7046e09f-d5ea-4b19-bc13-fee1821cfb9c/download4f8cbbe3351c60fdfa62f549759287eaMD5411600/737552025-03-19 04:02:41.784oai:repositorio.unifesp.br:11600/73755https://repositorio.unifesp.brRepositório InstitucionalPUBhttp://www.repositorio.unifesp.br/oai/requestbiblioteca.csp@unifesp.bropendoar:34652025-03-19T04:02:41Repositório Institucional da UNIFESP - Universidade Federal de São Paulo (UNIFESP)falsePGgxPjxzdHJvbmc+TGljZW7Dp2EgZGlzdHJpYnXDrWRhPC9zdHJvbmc+PC9oMT4KPGJyPjxicj4KTm8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgVW5pZmVzcCwgcGFyYSByZXByb2R1emlyLCB0cmFkdXppciBlIGRpc3RyaWJ1aXIgc3VhIHN1Ym1pc3PDo28gZW0gdG9kbyBvIG11bmRvLCB2b2PDqiBkZXZlIGNvbmNvcmRhciBjb20gb3MgdGVybW9zIGEgc2VndWlyLgo8YnI+PGJyPgpQYXJhIGNvbmNlZGVyIGEgbGljZW7Dp2EgZGUgZGlzdHJpYnVpw6fDo28gcGFkcsOjbywgYXDDs3MgYSBsZWl0dXJhIGRvcyB0ZXJtb3MsIHNlbGVjaW9uZTogIkV1IGNvbmNlZG8gYSBMaWNlbsOnYSIgZSBjbGlxdWUgZW0gIkZpbmFsaXphciBzdWJtaXNzw6NvIi4KPGJyPjxicj4KVEVSTU9TIEUgQ09OREnDh8OVRVMgUEFSQSBPIExJQ0VOQ0lBTUVOVE8gRE8gQVJRVUlWQU1FTlRPLCBSRVBST0RVw4fDg08gRSBESVZVTEdBw4fDg08gUMOaQkxJQ0EgREUgQ09OVEXDmkRPIE5PIFJFUE9TSVTDk1JJTyBJTlNUSVRVQ0lPTkFMIFVOSUZFU1AuCjxicj48YnI+CjEuIEV1LCByZXNwb25zw6F2ZWwgcGVsbyB0cmFiYWxobyBlL291IHVzdcOhcmlvLWRlcG9zaXRhbnRlIG5vIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIFVOSUZFU1AsIGFzc2VndXJvIG5vIHByZXNlbnRlIGF0byBxdWUgc291IHRpdHVsYXIgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIHBhdHJpbW9uaWFpcyBlL291IGRpcmVpdG9zIGNvbmV4b3MgcmVmZXJlbnRlcyDDoCB0b3RhbGlkYWRlIGRhIE9icmEgb3JhIGRlcG9zaXRhZGEgZW0gZm9ybWF0byBkaWdpdGFsLCBiZW0gY29tbyBkZSBzZXVzIGNvbXBvbmVudGVzIG1lbm9yZXMsIGVtIHNlIHRyYXRhbmRvIGRlIG9icmEgY29sZXRpdmEsIGNvbmZvcm1lIG8gcHJlY2VpdHVhZG8gcGVsYSBMZWkgOS42MTAvOTggZS9vdSBMZWkgOS42MDkvOTguIE7Do28gc2VuZG8gZXN0ZSBvIGNhc28sIGFzc2VndXJvIHRlciBvYnRpZG8gZGlyZXRhbWVudGUgZG9zIGRldmlkb3MgdGl0dWxhcmVzIGF1dG9yaXphw6fDo28gcHLDqXZpYSBlIGV4cHJlc3NhIHBhcmEgbyBkZXDDs3NpdG8gZSBwYXJhIGEgZGl2dWxnYcOnw6NvIGRhIE9icmEsIGFicmFuZ2VuZG8gdG9kb3Mgb3MgZGlyZWl0b3MgYXV0b3JhaXMgZSBjb25leG9zIGFmZXRhZG9zIHBlbGEgYXNzaW5hdHVyYSBkbyBwcmVzZW50ZSB0ZXJtbyBkZSBsaWNlbmNpYW1lbnRvLCBkZSBtb2RvIGEgZWZldGl2YW1lbnRlIGlzZW50YXIgYSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBTw6NvIFBhdWxvIChVTklGRVNQKSBlIHNldXMgZnVuY2lvbsOhcmlvcyBkZSBxdWFscXVlciByZXNwb25zYWJpbGlkYWRlIHBlbG8gdXNvIG7Do28tYXV0b3JpemFkbyBkbyBtYXRlcmlhbCBkZXBvc2l0YWRvLCBzZWphIGVtIHZpbmN1bGHDp8OjbyBhbyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBVTklGRVNQLCBzZWphIGVtIHZpbmN1bGHDp8OjbyBhIHF1YWlzcXVlciBzZXJ2acOnb3MgZGUgYnVzY2EgZSBkZSBkaXN0cmlidWnDp8OjbyBkZSBjb250ZcO6ZG8gcXVlIGZhw6dhbSB1c28gZGFzIGludGVyZmFjZXMgZSBlc3Bhw6dvIGRlIGFybWF6ZW5hbWVudG8gcHJvdmlkZW5jaWFkb3MgcGVsYSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBTw6NvIFBhdWxvIChVTklGRVNQKSBwb3IgbWVpbyBkZSBzZXVzIHNpc3RlbWFzIGluZm9ybWF0aXphZG9zLiAKPGJyPjxicj4KMi4gQSBjb25jb3Jkw6JuY2lhIGNvbSBlc3RhIGxpY2Vuw6dhIHRlbSBjb21vIGNvbnNlcXXDqm5jaWEgYSB0cmFuc2ZlcsOqbmNpYSwgYSB0w610dWxvIG7Do28tZXhjbHVzaXZvIGUgbsOjby1vbmVyb3NvLCBpc2VudGEgZG8gcGFnYW1lbnRvIGRlIHJveWFsdGllcyBvdSBxdWFscXVlciBvdXRyYSBjb250cmFwcmVzdGHDp8OjbywgcGVjdW5pw6FyaWEgb3UgbsOjbywgw6AgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZGUgU8OjbyBQYXVsbyAoVU5JRkVTUCkgZG9zIGRpcmVpdG9zIGRlIGFybWF6ZW5hciBkaWdpdGFsbWVudGUsIGRlIHJlcHJvZHV6aXIgZSBkZSBkaXN0cmlidWlyIG5hY2lvbmFsIGUgaW50ZXJuYWNpb25hbG1lbnRlIGEgT2JyYSwgaW5jbHVpbmRvLXNlIG8gc2V1IHJlc3Vtby9hYnN0cmFjdCwgcG9yIG1laW9zIGVsZXRyw7RuaWNvcyBhbyBww7pibGljbyBlbSBnZXJhbCwgZW0gcmVnaW1lIGRlIGFjZXNzbyBhYmVydG8uCjxicj48YnI+CjMuIEEgcHJlc2VudGUgbGljZW7Dp2EgdGFtYsOpbSBhYnJhbmdlLCBub3MgbWVzbW9zIHRlcm1vcyBlc3RhYmVsZWNpZG9zIG5vIGl0ZW0gMiwgc3VwcmEsIHF1YWxxdWVyIGRpcmVpdG8gZGUgY29tdW5pY2HDp8OjbyBhbyBww7pibGljbyBjYWLDrXZlbCBlbSByZWxhw6fDo28gw6AgT2JyYSBvcmEgZGVwb3NpdGFkYSwgaW5jbHVpbmRvLXNlIG9zIHVzb3MgcmVmZXJlbnRlcyDDoCByZXByZXNlbnRhw6fDo28gcMO6YmxpY2EgZS9vdSBleGVjdcOnw6NvIHDDumJsaWNhLCBiZW0gY29tbyBxdWFscXVlciBvdXRyYSBtb2RhbGlkYWRlIGRlIGNvbXVuaWNhw6fDo28gYW8gcMO6YmxpY28gcXVlIGV4aXN0YSBvdSB2ZW5oYSBhIGV4aXN0aXIsIG5vcyB0ZXJtb3MgZG8gYXJ0aWdvIDY4IGUgc2VndWludGVzIGRhIExlaSA5LjYxMC85OCwgbmEgZXh0ZW5zw6NvIHF1ZSBmb3IgYXBsaWPDoXZlbCBhb3Mgc2VydmnDp29zIHByZXN0YWRvcyBhbyBww7pibGljbyBwZWxhIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIFPDo28gUGF1bG8gKFVOSUZFU1ApLgo8YnI+PGJyPgo0LiBFc3RhIGxpY2Vuw6dhIGFicmFuZ2UsIGFpbmRhLCBub3MgbWVzbW9zIHRlcm1vcyBlc3RhYmVsZWNpZG9zIG5vIGl0ZW0gMiwgc3VwcmEsIHRvZG9zIG9zIGRpcmVpdG9zIGNvbmV4b3MgZGUgYXJ0aXN0YXMgaW50w6lycHJldGVzIG91IGV4ZWN1dGFudGVzLCBwcm9kdXRvcmVzIGZvbm9ncsOhZmljb3Mgb3UgZW1wcmVzYXMgZGUgcmFkaW9kaWZ1c8OjbyBxdWUgZXZlbnR1YWxtZW50ZSBzZWphbSBhcGxpY8OhdmVpcyBlbSByZWxhw6fDo28gw6Agb2JyYSBkZXBvc2l0YWRhLCBlbSBjb25mb3JtaWRhZGUgY29tIG8gcmVnaW1lIGZpeGFkbyBubyBUw610dWxvIFYgZGEgTGVpIDkuNjEwLzk4Lgo8YnI+PGJyPgo1LiBTZSBhIE9icmEgZGVwb3NpdGFkYSBmb2kgb3Ugw6kgb2JqZXRvIGRlIGZpbmFuY2lhbWVudG8gcG9yIGluc3RpdHVpw6fDtWVzIGRlIGZvbWVudG8gw6AgcGVzcXVpc2Egb3UgcXVhbHF1ZXIgb3V0cmEgc2VtZWxoYW50ZSwgdm9jw6ogb3UgbyB0aXR1bGFyIGFzc2VndXJhIHF1ZSBjdW1wcml1IHRvZGFzIGFzIG9icmlnYcOnw7VlcyBxdWUgbGhlIGZvcmFtIGltcG9zdGFzIHBlbGEgaW5zdGl0dWnDp8OjbyBmaW5hbmNpYWRvcmEgZW0gcmF6w6NvIGRvIGZpbmFuY2lhbWVudG8sIGUgcXVlIG7Do28gZXN0w6EgY29udHJhcmlhbmRvIHF1YWxxdWVyIGRpc3Bvc2nDp8OjbyBjb250cmF0dWFsIHJlZmVyZW50ZSDDoCBwdWJsaWNhw6fDo28gZG8gY29udGXDumRvIG9yYSBzdWJtZXRpZG8gYW8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgVU5JRkVTUC4KPGJyPjxicj4KNi4gQXV0b3JpemEgYSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBTw6NvIFBhdWxvIGEgZGlzcG9uaWJpbGl6YXIgYSBvYnJhIG5vIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIFVOSUZFU1AgZGUgZm9ybWEgZ3JhdHVpdGEsIGRlIGFjb3JkbyBjb20gYSBsaWNlbsOnYSBww7pibGljYSBDcmVhdGl2ZSBDb21tb25zOiBBdHJpYnVpw6fDo28tU2VtIERlcml2YcOnw7Vlcy1TZW0gRGVyaXZhZG9zIDQuMCBJbnRlcm5hY2lvbmFsIChDQyBCWS1OQy1ORCksIHBlcm1pdGluZG8gc2V1IGxpdnJlIGFjZXNzbywgdXNvIGUgY29tcGFydGlsaGFtZW50bywgZGVzZGUgcXVlIGNpdGFkYSBhIGZvbnRlLiBBIG9icmEgY29udGludWEgcHJvdGVnaWRhIHBvciBEaXJlaXRvcyBBdXRvcmFpcyBlL291IHBvciBvdXRyYXMgbGVpcyBhcGxpY8OhdmVpcy4gUXVhbHF1ZXIgdXNvIGRhIG9icmEsIHF1ZSBuw6NvIG8gYXV0b3JpemFkbyBzb2IgZXN0YSBsaWNlbsOnYSBvdSBwZWxhIGxlZ2lzbGHDp8OjbyBhdXRvcmFsLCDDqSBwcm9pYmlkby4gIAo8YnI+PGJyPgo3LiBBdGVzdGEgcXVlIGEgT2JyYSBzdWJtZXRpZGEgbsOjbyBjb250w6ltIHF1YWxxdWVyIGluZm9ybWHDp8OjbyBjb25maWRlbmNpYWwgc3VhIG91IGRlIHRlcmNlaXJvcy4KPGJyPjxicj4KOC4gQXRlc3RhIHF1ZSBvIHRyYWJhbGhvIHN1Ym1ldGlkbyDDqSBvcmlnaW5hbCBlIGZvaSBlbGFib3JhZG8gcmVzcGVpdGFuZG8gb3MgcHJpbmPDrXBpb3MgZGEgbW9yYWwgZSBkYSDDqXRpY2EgZSBuw6NvIHZpb2xvdSBxdWFscXVlciBkaXJlaXRvIGRlIHByb3ByaWVkYWRlIGludGVsZWN0dWFsLCBzb2IgcGVuYSBkZSByZXNwb25kZXIgY2l2aWwsIGNyaW1pbmFsLCDDqXRpY2EgZSBwcm9maXNzaW9uYWxtZW50ZSBwb3IgbWV1cyBhdG9zOwo8YnI+PGJyPgo5LiBBdGVzdGEgcXVlIGEgdmVyc8OjbyBkbyB0cmFiYWxobyBwcmVzZW50ZSBubyBhcnF1aXZvIHN1Ym1ldGlkbywgZW0gY2Fzb3MgZGUgdHJhYmFsaG9zIHF1ZSBleGlnaXJhbSBvcmllbnRhw6fDo28sIMOpIGEgdmVyc8OjbyBkZWZpbml0aXZhIHF1ZSBpbmNsdWkgYXMgYWx0ZXJhw6fDtWVzIGRlY29ycmVudGVzIGRhIGRlZmVzYSwgc29saWNpdGFkYXMgcGVsYSBiYW5jYSwgc2UgaG91dmUgYWxndW1hLCBvdSBzb2xpY2l0YWRhcyBwb3IgcGFydGUgZGUgb3JpZW50YcOnw6NvIGRvY2VudGUgcmVzcG9uc8OhdmVsLiBBdGVzdG8gYWluZGEgcXVlIG8gdHJhYmFsaG8gb2J0ZXZlIGF1dG9yaXphw6fDo28gZGUgcHVibGljYcOnw6NvIGUgYWNlc3NvIGRvIChhKSBvcmllbnRhZG9yIChhKSBkZSBhY29yZG8gY29tIGFzIGluZm9ybWHDp8O1ZXMgYXF1aSBwcmVzdGFkYXM7Cjxicj48YnI+CjEwLiBDb25jZWRlIMOgIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIFPDo28gUGF1bG8gKFVOSUZFU1ApIG8gZGlyZWl0byBuw6NvIGV4Y2x1c2l2byBkZSByZWFsaXphciBxdWFpc3F1ZXIgYWx0ZXJhw6fDtWVzIG5hIG3DrWRpYSBvdSBubyBmb3JtYXRvIGRvIGFycXVpdm8gcGFyYSBwcm9ww7NzaXRvcyBkZSBwcmVzZXJ2YcOnw6NvIGRpZ2l0YWwsIGRlIGFjZXNzaWJpbGlkYWRlIGUgZGUgbWVsaG9yIGlkZW50aWZpY2HDp8OjbyBkbyB0cmFiYWxobyBzdWJtZXRpZG8sIGRlc2RlIHF1ZSBuw6NvIHNlamEgYWx0ZXJhZG8gc2V1IGNvbnRlw7pkbyBpbnRlbGVjdHVhbC4KPGJyPjxicj4KQW8gY29uY2x1aXIgYXMgZXRhcGFzIGRvIHByb2Nlc3NvIGRlIHN1Ym1pc3PDo28gZGUgYXJxdWl2b3Mgbm8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgVU5JRkVTUCwgYXRlc3RvIHF1ZSBsaSBlIGNvbmNvcmRlaSBpbnRlZ3JhbG1lbnRlIGNvbSBvcyB0ZXJtb3MgYWNpbWEgZGVsaW1pdGFkb3MsIHNlbSBmYXplciBxdWFscXVlciByZXNlcnZhIGUgbm92YW1lbnRlIGNvbmZpcm1hbmRvIHF1ZSBjdW1wcm8gb3MgcmVxdWlzaXRvcyBpbmRpY2Fkb3Mgbm9zIGl0ZW5zIG1lbmNpb25hZG9zIGFudGVyaW9ybWVudGUuCjxicj48YnI+CkhhdmVuZG8gcXVhbHF1ZXIgZGlzY29yZMOibmNpYSBlbSByZWxhw6fDo28gYSBwcmVzZW50ZSBsaWNlbsOnYSBvdSBuw6NvIHNlIHZlcmlmaWNhbmRvIG8gZXhpZ2lkbyBub3MgaXRlbnMgYW50ZXJpb3Jlcywgdm9jw6ogZGV2ZSBpbnRlcnJvbXBlciBpbWVkaWF0YW1lbnRlIG8gcHJvY2Vzc28gZGUgc3VibWlzc8Ojby4gQSBjb250aW51aWRhZGUgZG8gcHJvY2Vzc28gZXF1aXZhbGUgw6AgY29uY29yZMOibmNpYSBlIMOgIGFzc2luYXR1cmEgZGVzdGUgZG9jdW1lbnRvLCBjb20gdG9kYXMgYXMgY29uc2VxdcOqbmNpYXMgbmVsZSBwcmV2aXN0YXMsIHN1amVpdGFuZG8tc2UgbyBzaWduYXTDoXJpbyBhIHNhbsOnw7VlcyBjaXZpcyBlIGNyaW1pbmFpcyBjYXNvIG7Do28gc2VqYSB0aXR1bGFyIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBwYXRyaW1vbmlhaXMgZS9vdSBjb25leG9zIGFwbGljw6F2ZWlzIMOgIE9icmEgZGVwb3NpdGFkYSBkdXJhbnRlIGVzdGUgcHJvY2Vzc28sIG91IGNhc28gbsOjbyB0ZW5oYSBvYnRpZG8gcHLDqXZpYSBlIGV4cHJlc3NhIGF1dG9yaXphw6fDo28gZG8gdGl0dWxhciBwYXJhIG8gZGVww7NzaXRvIGUgdG9kb3Mgb3MgdXNvcyBkYSBPYnJhIGVudm9sdmlkb3MuCjxicj48YnI+ClNlIHRpdmVyIHF1YWxxdWVyIGTDunZpZGEgcXVhbnRvIGFvcyB0ZXJtb3MgZGUgbGljZW5jaWFtZW50byBlIHF1YW50byBhbyBwcm9jZXNzbyBkZSBzdWJtaXNzw6NvLCBlbnRyZSBlbSBjb250YXRvIGNvbSBhIGJpYmxpb3RlY2EgZG8gc2V1IGNhbXB1cyAoY29uc3VsdGUgZW06IDxhIGhyZWY9Imh0dHBzOi8vYmlibGlvdGVjYXMudW5pZmVzcC5ici9iaWJsaW90ZWNhcy1kYS1yZWRlIj5odHRwczovL2JpYmxpb3RlY2FzLnVuaWZlc3AuYnIvYmlibGlvdGVjYXMtZGEtcmVkZTwvYT4pIAo8YnI+PGJyPgpTw6NvIFBhdWxvLCBNb24gSmFuIDE4IDIxOjQ5OjE4IEJSU1QgMjAyMS4K
dc.title.none.fl_str_mv A data-centric approach to missing data imputation: addressing noise, adversarial, and fairness challenges
title A data-centric approach to missing data imputation: addressing noise, adversarial, and fairness challenges
spellingShingle A data-centric approach to missing data imputation: addressing noise, adversarial, and fairness challenges
Mangussi, Arthur Dantas
Machine learning
Data-centric AI
Missing data
Não se aplica
title_short A data-centric approach to missing data imputation: addressing noise, adversarial, and fairness challenges
title_full A data-centric approach to missing data imputation: addressing noise, adversarial, and fairness challenges
title_fullStr A data-centric approach to missing data imputation: addressing noise, adversarial, and fairness challenges
title_full_unstemmed A data-centric approach to missing data imputation: addressing noise, adversarial, and fairness challenges
title_sort A data-centric approach to missing data imputation: addressing noise, adversarial, and fairness challenges
author Mangussi, Arthur Dantas
author_facet Mangussi, Arthur Dantas
author_role author
dc.contributor.advisorLattes.none.fl_str_mv http://lattes.cnpq.br/3451628262694747
dc.contributor.authorLattes.none.fl_str_mv http://lattes.cnpq.br/7990546714683786
dc.contributor.author.fl_str_mv Mangussi, Arthur Dantas
dc.contributor.advisor1.fl_str_mv Lorena, Ana Carolina
dc.contributor.advisor-co1.fl_str_mv Abreu, Pedro Henriques
contributor_str_mv Lorena, Ana Carolina
Abreu, Pedro Henriques
dc.subject.por.fl_str_mv Machine learning
Data-centric AI
Missing data
topic Machine learning
Data-centric AI
Missing data
Não se aplica
dc.subject.ods.none.fl_str_mv Não se aplica
description Dados produzidos em contextos reais frequentemente apresentam desafios como desbalanceamento, ruído e valores ausentes. Estudos recentes em aprendizado de máquina destacam que aprimorar a qualidade dos dados utilizados no treinamento é tão crucial quanto melhorar os modelos em si, o que constitui o campo de pesquisa conhecido como Inteligência Artificial Centrada em Dados (Data-Centric AI). Valores ausentes, definidos como a falta de informação em uma ou mais variáveis de um conjunto de dados, representam um desafio recorrente nesse campo. Tradicionalmente, o estudo de valores ausentes segue quatro etapas principais: aquisição de dados completos, amputação (geração artificial de valores ausentes), imputação (substituição dos valores ausentes por estratégias pré-definidas) e avaliação dos métodos de imputação e do desempenho de modelos treinados com dados imputados. Esta dissertação visa analisar a interação entre valores ausentes e outros problemas de qualidade encontrados em dados reais, como ruído, ataques adversariais e justiça algorítmica. Para cada análise, utilizamos o setup experimental clássico da literatura em estudos de dados ausentes. De maneira geral, a qualidade dos dados interfere na qualidade da imputação, podendo impactá-la positiva ou negativamente. No caso da interação entre dados ausentes e ruído, uma simples etapa de pré-processamento, como a aplicação de um filtro de ruído, pode melhorar a qualidade da imputação. Observou-se também que a escolha do método de imputação influencia os desfechos de justiça dos modelos, sugerindo a existência de trade-offs entre justiça e predição. Por fim, enquanto ataques adversariais são amplamente conhecidos por deteriorarem modelos preditivos, esta dissertação evidencia que eles afetam significativamente a eficácia dos métodos de imputação também, reforçando a necessidade de estratégias robustas e integradas para lidar com múltiplos problemas nos dados. Essas análises estão alinhadas com a premissa da Inteligência Artificial Centrada em Dados, na medida em que a melhoria da qualidade dos dados contribui para o desempenho de modelos de aprendizado de máquina em etapas subsequentes. Esta dissertação também contribui para a etapa de amputação, ao apresentar a primeira biblioteca Python capaz de gerar valores ausentes artificialmente utilizando diversas estratégias e mecanismos, possibilitando resultados reprodutíveis, avaliações justas de métodos de imputação e a criação de cenários realistas para a aplicação prática dessas técnicas.
publishDate 2025
dc.date.accessioned.fl_str_mv 2025-03-18T15:50:46Z
dc.date.available.fl_str_mv 2025-03-18T15:50:46Z
dc.date.issued.fl_str_mv 2025-02-05
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/11600/73755
dc.identifier.dark.fl_str_mv ark:/48912/001300001sfsj
url https://hdl.handle.net/11600/73755
identifier_str_mv ark:/48912/001300001sfsj
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 93 f.
dc.coverage.spatial.none.fl_str_mv 2025-02-05
dc.publisher.none.fl_str_mv Universidade Federal de São Paulo
publisher.none.fl_str_mv Universidade Federal de São Paulo
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNIFESP
instname:Universidade Federal de São Paulo (UNIFESP)
instacron:UNIFESP
instname_str Universidade Federal de São Paulo (UNIFESP)
instacron_str UNIFESP
institution UNIFESP
reponame_str Repositório Institucional da UNIFESP
collection Repositório Institucional da UNIFESP
bitstream.url.fl_str_mv https://repositorio.unifesp.br/bitstreams/05b93bac-7213-48c4-800d-e7e882f6145a/download
https://repositorio.unifesp.br/bitstreams/445cc334-263e-4c93-9cdb-5b47288ebbfe/download
https://repositorio.unifesp.br/bitstreams/babf544e-1ba6-4756-8c54-cef19ac1485a/download
https://repositorio.unifesp.br/bitstreams/7046e09f-d5ea-4b19-bc13-fee1821cfb9c/download
bitstream.checksum.fl_str_mv 24327c2b21cdf484e1571b1363894cb7
79881d6dea480587c66312d1102a8942
2a92cf6a3a50b0b80ea4be52c73dad14
4f8cbbe3351c60fdfa62f549759287ea
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UNIFESP - Universidade Federal de São Paulo (UNIFESP)
repository.mail.fl_str_mv biblioteca.csp@unifesp.br
_version_ 1863845965704724480