Zero-shot human attribute classification using pretrained VLMs

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Ceschini, Lucas Mayer
Orientador(a): Jung, Claudio Rosito
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Link de acesso: http://hdl.handle.net/10183/298620
Resumo: Reconhecimento de gênero e etnia é uma tarefa chave de visão computacional para bi- ometria, vigilância e estudos demográficos. Contrastive Language-Image Pre-training (CLIP) é um modelo de visão e linguagem com uma performance zero-shot promissora em diversas tarefas alvo, sem a necessidade de fine-tuning nem retreinamento, permitindo aos usuários que simplesmente forneçam uma imagem e perguntem sobre suas caracte- rísticas. Porém, dado a natureza dos dados usados para treinar esses modelos e o impacto do prompt de texto nos resultados da classificação, ele pode amplificar preconceitos e estereótipos. Neste artigo, investigamos o impacto do dimensionamento dos dados de treinamento e dos modelos na classificação zero-shot de gênero e etnias, utilizando diver- sos modelos do tipo CLIP. Conduzimos um benchmark de dimensionamento de modelos ViT que vão desde o ViT-B-32 até o ViT-g-14, e um benchmark de dimensionamento de dados com modelos treinados no conjunto de dados original da OpenAI, e os conjuntos de dados Laion-400M e Laion-2B. Percebemos uma leve melhoria na acurácia e na equi- dade com os dimensionamentos, mas com resultados ainda muito abaixos do esperados para implantação, sugerindo que o dimensionamento puro não é suficiente. Com isso, melhoramos o prompt de texto ao inserir características biométricas como raça, idade e gênero, melhorando a acurácia de 0.58 para 0.65 com ViT-B-16. Finalmente, exploramos os limites da engenharia manual do prompt com um algoritmo de prompt tuning chamado CoOp, capaz de mitigar lacunas sérias nos modelos base.
id URGS_25ed8e548c81a817c164c97b54d22084
oai_identifier_str oai:www.lume.ufrgs.br:10183/298620
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str
spelling Ceschini, Lucas MayerJung, Claudio RositoRamos, Gabriel de Oliveira2025-11-01T07:59:53Z2025http://hdl.handle.net/10183/298620001295404Reconhecimento de gênero e etnia é uma tarefa chave de visão computacional para bi- ometria, vigilância e estudos demográficos. Contrastive Language-Image Pre-training (CLIP) é um modelo de visão e linguagem com uma performance zero-shot promissora em diversas tarefas alvo, sem a necessidade de fine-tuning nem retreinamento, permitindo aos usuários que simplesmente forneçam uma imagem e perguntem sobre suas caracte- rísticas. Porém, dado a natureza dos dados usados para treinar esses modelos e o impacto do prompt de texto nos resultados da classificação, ele pode amplificar preconceitos e estereótipos. Neste artigo, investigamos o impacto do dimensionamento dos dados de treinamento e dos modelos na classificação zero-shot de gênero e etnias, utilizando diver- sos modelos do tipo CLIP. Conduzimos um benchmark de dimensionamento de modelos ViT que vão desde o ViT-B-32 até o ViT-g-14, e um benchmark de dimensionamento de dados com modelos treinados no conjunto de dados original da OpenAI, e os conjuntos de dados Laion-400M e Laion-2B. Percebemos uma leve melhoria na acurácia e na equi- dade com os dimensionamentos, mas com resultados ainda muito abaixos do esperados para implantação, sugerindo que o dimensionamento puro não é suficiente. Com isso, melhoramos o prompt de texto ao inserir características biométricas como raça, idade e gênero, melhorando a acurácia de 0.58 para 0.65 com ViT-B-16. Finalmente, exploramos os limites da engenharia manual do prompt com um algoritmo de prompt tuning chamado CoOp, capaz de mitigar lacunas sérias nos modelos base.Gender and ethnicity recognition is a key computer vision task in biometrics, surveil- lance, and demographic studies. Contrastive Language-Image Pre-training (CLIP) is a Vision-Language Model with promising zero-shot performance in several downstream tasks, without the need for fine-tuning or retraining, allowing end-users to simply input an image and ask for its characteristics. However, given the nature of the data used to train these models and the impact of the textual prompt on the classification results, it could cause harm by amplifying stereotypes and prejudice. In this thesis, we investigate the im- pact of training data and model scaling for zero-shot gender and ethnicity classification by evaluating several CLIP-like models. We conduct a model scaling benchmark with ViT models ranging from B-32 to g-14, and a data scaling benchmark with models trained on the original OpenAI dataset, the Laion-400M and the Laion-2B dataset. We perceived a minor improvement in accuracy and fairness with the scaling of model parameters and dataset sizes, but with results far below the expected for deployment, suggesting that raw scaling alone is not enough. To this end, we further improve the textual prompt by in- serting biometric features such as race, age and gender, increasing accuracy from 0.58 to 0.65 with ViT-B-16. Finally, we explore the limits of manual prompt engineering with a prompt tuning algorithm called CoOp, capable of mitigating serious gaps in the baseline models.application/pdfporVisão computacionalModelos de visão e linguagemAprendizado zero-shotReconhecimento de atributos faciaisFacial attribute recognitionZero-shot classificationZero-shot human attribute classification using pretrained VLMsClassificação de images usando VLMs pré-treinadas info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2025mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001295404.pdf.txt001295404.pdf.txtExtracted Texttext/plain136622http://www.lume.ufrgs.br/bitstream/10183/298620/2/001295404.pdf.txte07854c554f3acc0ef3e39ca8a304321MD52ORIGINAL001295404.pdfTexto completo (inglês)application/pdf7554565http://www.lume.ufrgs.br/bitstream/10183/298620/1/001295404.pdfa762631e3c9d99deaeadb226b809fd21MD5110183/2986202025-11-02 09:01:09.70743oai:www.lume.ufrgs.br:10183/298620Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br || lume@ufrgs.bropendoar:18532025-11-02T11:01:09Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Zero-shot human attribute classification using pretrained VLMs
dc.title.alternative.pt.fl_str_mv Classificação de images usando VLMs pré-treinadas
title Zero-shot human attribute classification using pretrained VLMs
spellingShingle Zero-shot human attribute classification using pretrained VLMs
Ceschini, Lucas Mayer
Visão computacional
Modelos de visão e linguagem
Aprendizado zero-shot
Reconhecimento de atributos faciais
Facial attribute recognition
Zero-shot classification
title_short Zero-shot human attribute classification using pretrained VLMs
title_full Zero-shot human attribute classification using pretrained VLMs
title_fullStr Zero-shot human attribute classification using pretrained VLMs
title_full_unstemmed Zero-shot human attribute classification using pretrained VLMs
title_sort Zero-shot human attribute classification using pretrained VLMs
author Ceschini, Lucas Mayer
author_facet Ceschini, Lucas Mayer
author_role author
dc.contributor.author.fl_str_mv Ceschini, Lucas Mayer
dc.contributor.advisor1.fl_str_mv Jung, Claudio Rosito
dc.contributor.advisor-co1.fl_str_mv Ramos, Gabriel de Oliveira
contributor_str_mv Jung, Claudio Rosito
Ramos, Gabriel de Oliveira
dc.subject.por.fl_str_mv Visão computacional
Modelos de visão e linguagem
Aprendizado zero-shot
Reconhecimento de atributos faciais
topic Visão computacional
Modelos de visão e linguagem
Aprendizado zero-shot
Reconhecimento de atributos faciais
Facial attribute recognition
Zero-shot classification
dc.subject.eng.fl_str_mv Facial attribute recognition
Zero-shot classification
description Reconhecimento de gênero e etnia é uma tarefa chave de visão computacional para bi- ometria, vigilância e estudos demográficos. Contrastive Language-Image Pre-training (CLIP) é um modelo de visão e linguagem com uma performance zero-shot promissora em diversas tarefas alvo, sem a necessidade de fine-tuning nem retreinamento, permitindo aos usuários que simplesmente forneçam uma imagem e perguntem sobre suas caracte- rísticas. Porém, dado a natureza dos dados usados para treinar esses modelos e o impacto do prompt de texto nos resultados da classificação, ele pode amplificar preconceitos e estereótipos. Neste artigo, investigamos o impacto do dimensionamento dos dados de treinamento e dos modelos na classificação zero-shot de gênero e etnias, utilizando diver- sos modelos do tipo CLIP. Conduzimos um benchmark de dimensionamento de modelos ViT que vão desde o ViT-B-32 até o ViT-g-14, e um benchmark de dimensionamento de dados com modelos treinados no conjunto de dados original da OpenAI, e os conjuntos de dados Laion-400M e Laion-2B. Percebemos uma leve melhoria na acurácia e na equi- dade com os dimensionamentos, mas com resultados ainda muito abaixos do esperados para implantação, sugerindo que o dimensionamento puro não é suficiente. Com isso, melhoramos o prompt de texto ao inserir características biométricas como raça, idade e gênero, melhorando a acurácia de 0.58 para 0.65 com ViT-B-16. Finalmente, exploramos os limites da engenharia manual do prompt com um algoritmo de prompt tuning chamado CoOp, capaz de mitigar lacunas sérias nos modelos base.
publishDate 2025
dc.date.accessioned.fl_str_mv 2025-11-01T07:59:53Z
dc.date.issued.fl_str_mv 2025
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/298620
dc.identifier.nrb.pt_BR.fl_str_mv 001295404
url http://hdl.handle.net/10183/298620
identifier_str_mv 001295404
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/298620/2/001295404.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/298620/1/001295404.pdf
bitstream.checksum.fl_str_mv e07854c554f3acc0ef3e39ca8a304321
a762631e3c9d99deaeadb226b809fd21
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br || lume@ufrgs.br
_version_ 1860027826846040064