Zero-shot human attribute classification using pretrained VLMs

Ceschini, Lucas Mayer

Zero-shot human attribute classification using pretrained VLMs

Detalhes bibliográficos
Ano de defesa:	2025
Autor(a) principal:	Ceschini, Lucas Mayer
Orientador(a):	Jung, Claudio Rosito
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Não Informado pela instituição
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Visão computacional Modelos de visão e linguagem Aprendizado zero-shot Reconhecimento de atributos faciais
Palavras-chave em Inglês:	Facial attribute recognition Zero-shot classification
Link de acesso:	http://hdl.handle.net/10183/298620
Resumo:	Reconhecimento de gênero e etnia é uma tarefa chave de visão computacional para bi- ometria, vigilância e estudos demográficos. Contrastive Language-Image Pre-training (CLIP) é um modelo de visão e linguagem com uma performance zero-shot promissora em diversas tarefas alvo, sem a necessidade de fine-tuning nem retreinamento, permitindo aos usuários que simplesmente forneçam uma imagem e perguntem sobre suas caracte- rísticas. Porém, dado a natureza dos dados usados para treinar esses modelos e o impacto do prompt de texto nos resultados da classificação, ele pode amplificar preconceitos e estereótipos. Neste artigo, investigamos o impacto do dimensionamento dos dados de treinamento e dos modelos na classificação zero-shot de gênero e etnias, utilizando diver- sos modelos do tipo CLIP. Conduzimos um benchmark de dimensionamento de modelos ViT que vão desde o ViT-B-32 até o ViT-g-14, e um benchmark de dimensionamento de dados com modelos treinados no conjunto de dados original da OpenAI, e os conjuntos de dados Laion-400M e Laion-2B. Percebemos uma leve melhoria na acurácia e na equi- dade com os dimensionamentos, mas com resultados ainda muito abaixos do esperados para implantação, sugerindo que o dimensionamento puro não é suficiente. Com isso, melhoramos o prompt de texto ao inserir características biométricas como raça, idade e gênero, melhorando a acurácia de 0.58 para 0.65 com ViT-B-16. Finalmente, exploramos os limites da engenharia manual do prompt com um algoritmo de prompt tuning chamado CoOp, capaz de mitigar lacunas sérias nos modelos base.

Metadados do item

id	URGS_25ed8e548c81a817c164c97b54d22084
oai_identifier_str	oai:www.lume.ufrgs.br:10183/298620
network_acronym_str	URGS
network_name_str	Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str
spelling	Ceschini, Lucas MayerJung, Claudio RositoRamos, Gabriel de Oliveira2025-11-01T07:59:53Z2025http://hdl.handle.net/10183/298620001295404Reconhecimento de gênero e etnia é uma tarefa chave de visão computacional para bi- ometria, vigilância e estudos demográficos. Contrastive Language-Image Pre-training (CLIP) é um modelo de visão e linguagem com uma performance zero-shot promissora em diversas tarefas alvo, sem a necessidade de fine-tuning nem retreinamento, permitindo aos usuários que simplesmente forneçam uma imagem e perguntem sobre suas caracte- rísticas. Porém, dado a natureza dos dados usados para treinar esses modelos e o impacto do prompt de texto nos resultados da classificação, ele pode amplificar preconceitos e estereótipos. Neste artigo, investigamos o impacto do dimensionamento dos dados de treinamento e dos modelos na classificação zero-shot de gênero e etnias, utilizando diver- sos modelos do tipo CLIP. Conduzimos um benchmark de dimensionamento de modelos ViT que vão desde o ViT-B-32 até o ViT-g-14, e um benchmark de dimensionamento de dados com modelos treinados no conjunto de dados original da OpenAI, e os conjuntos de dados Laion-400M e Laion-2B. Percebemos uma leve melhoria na acurácia e na equi- dade com os dimensionamentos, mas com resultados ainda muito abaixos do esperados para implantação, sugerindo que o dimensionamento puro não é suficiente. Com isso, melhoramos o prompt de texto ao inserir características biométricas como raça, idade e gênero, melhorando a acurácia de 0.58 para 0.65 com ViT-B-16. Finalmente, exploramos os limites da engenharia manual do prompt com um algoritmo de prompt tuning chamado CoOp, capaz de mitigar lacunas sérias nos modelos base.Gender and ethnicity recognition is a key computer vision task in biometrics, surveil- lance, and demographic studies. Contrastive Language-Image Pre-training (CLIP) is a Vision-Language Model with promising zero-shot performance in several downstream tasks, without the need for fine-tuning or retraining, allowing end-users to simply input an image and ask for its characteristics. However, given the nature of the data used to train these models and the impact of the textual prompt on the classification results, it could cause harm by amplifying stereotypes and prejudice. In this thesis, we investigate the im- pact of training data and model scaling for zero-shot gender and ethnicity classification by evaluating several CLIP-like models. We conduct a model scaling benchmark with ViT models ranging from B-32 to g-14, and a data scaling benchmark with models trained on the original OpenAI dataset, the Laion-400M and the Laion-2B dataset. We perceived a minor improvement in accuracy and fairness with the scaling of model parameters and dataset sizes, but with results far below the expected for deployment, suggesting that raw scaling alone is not enough. To this end, we further improve the textual prompt by in- serting biometric features such as race, age and gender, increasing accuracy from 0.58 to 0.65 with ViT-B-16. Finally, we explore the limits of manual prompt engineering with a prompt tuning algorithm called CoOp, capable of mitigating serious gaps in the baseline models.application/pdfporVisão computacionalModelos de visão e linguagemAprendizado zero-shotReconhecimento de atributos faciaisFacial attribute recognitionZero-shot classificationZero-shot human attribute classification using pretrained VLMsClassificação de images usando VLMs pré-treinadas info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2025mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001295404.pdf.txt001295404.pdf.txtExtracted Texttext/plain136622http://www.lume.ufrgs.br/bitstream/10183/298620/2/001295404.pdf.txte07854c554f3acc0ef3e39ca8a304321MD52ORIGINAL001295404.pdfTexto completo (inglês)application/pdf7554565http://www.lume.ufrgs.br/bitstream/10183/298620/1/001295404.pdfa762631e3c9d99deaeadb226b809fd21MD5110183/2986202025-11-02 09:01:09.70743oai:www.lume.ufrgs.br:10183/298620Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br \|\| lume@ufrgs.bropendoar:18532025-11-02T11:01:09Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	Zero-shot human attribute classification using pretrained VLMs
dc.title.alternative.pt.fl_str_mv	Classificação de images usando VLMs pré-treinadas
title	Zero-shot human attribute classification using pretrained VLMs
spellingShingle	Zero-shot human attribute classification using pretrained VLMs Ceschini, Lucas Mayer Visão computacional Modelos de visão e linguagem Aprendizado zero-shot Reconhecimento de atributos faciais Facial attribute recognition Zero-shot classification
title_short	Zero-shot human attribute classification using pretrained VLMs
title_full	Zero-shot human attribute classification using pretrained VLMs
title_fullStr	Zero-shot human attribute classification using pretrained VLMs
title_full_unstemmed	Zero-shot human attribute classification using pretrained VLMs
title_sort	Zero-shot human attribute classification using pretrained VLMs
author	Ceschini, Lucas Mayer
author_facet	Ceschini, Lucas Mayer
author_role	author
dc.contributor.author.fl_str_mv	Ceschini, Lucas Mayer
dc.contributor.advisor1.fl_str_mv	Jung, Claudio Rosito
dc.contributor.advisor-co1.fl_str_mv	Ramos, Gabriel de Oliveira
contributor_str_mv	Jung, Claudio Rosito Ramos, Gabriel de Oliveira
dc.subject.por.fl_str_mv	Visão computacional Modelos de visão e linguagem Aprendizado zero-shot Reconhecimento de atributos faciais
topic	Visão computacional Modelos de visão e linguagem Aprendizado zero-shot Reconhecimento de atributos faciais Facial attribute recognition Zero-shot classification
dc.subject.eng.fl_str_mv	Facial attribute recognition Zero-shot classification
description	Reconhecimento de gênero e etnia é uma tarefa chave de visão computacional para bi- ometria, vigilância e estudos demográficos. Contrastive Language-Image Pre-training (CLIP) é um modelo de visão e linguagem com uma performance zero-shot promissora em diversas tarefas alvo, sem a necessidade de fine-tuning nem retreinamento, permitindo aos usuários que simplesmente forneçam uma imagem e perguntem sobre suas caracte- rísticas. Porém, dado a natureza dos dados usados para treinar esses modelos e o impacto do prompt de texto nos resultados da classificação, ele pode amplificar preconceitos e estereótipos. Neste artigo, investigamos o impacto do dimensionamento dos dados de treinamento e dos modelos na classificação zero-shot de gênero e etnias, utilizando diver- sos modelos do tipo CLIP. Conduzimos um benchmark de dimensionamento de modelos ViT que vão desde o ViT-B-32 até o ViT-g-14, e um benchmark de dimensionamento de dados com modelos treinados no conjunto de dados original da OpenAI, e os conjuntos de dados Laion-400M e Laion-2B. Percebemos uma leve melhoria na acurácia e na equi- dade com os dimensionamentos, mas com resultados ainda muito abaixos do esperados para implantação, sugerindo que o dimensionamento puro não é suficiente. Com isso, melhoramos o prompt de texto ao inserir características biométricas como raça, idade e gênero, melhorando a acurácia de 0.58 para 0.65 com ViT-B-16. Finalmente, exploramos os limites da engenharia manual do prompt com um algoritmo de prompt tuning chamado CoOp, capaz de mitigar lacunas sérias nos modelos base.
publishDate	2025
dc.date.accessioned.fl_str_mv	2025-11-01T07:59:53Z
dc.date.issued.fl_str_mv	2025
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/298620
dc.identifier.nrb.pt_BR.fl_str_mv	001295404
url	http://hdl.handle.net/10183/298620
identifier_str_mv	001295404
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Biblioteca Digital de Teses e Dissertações da UFRGS
collection	Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/298620/2/001295404.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/298620/1/001295404.pdf
bitstream.checksum.fl_str_mv	e07854c554f3acc0ef3e39ca8a304321 a762631e3c9d99deaeadb226b809fd21
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv	lume@ufrgs.br \|\| lume@ufrgs.br
_version_	1860027826846040064

Zero-shot human attribute classification using pretrained VLMs

Registros relacionados