Zero-shot human attribute classification using pretrained VLMs
| Ano de defesa: | 2025 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Não Informado pela instituição
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Palavras-chave em Inglês: | |
| Link de acesso: | http://hdl.handle.net/10183/298620 |
Resumo: | Reconhecimento de gênero e etnia é uma tarefa chave de visão computacional para bi- ometria, vigilância e estudos demográficos. Contrastive Language-Image Pre-training (CLIP) é um modelo de visão e linguagem com uma performance zero-shot promissora em diversas tarefas alvo, sem a necessidade de fine-tuning nem retreinamento, permitindo aos usuários que simplesmente forneçam uma imagem e perguntem sobre suas caracte- rísticas. Porém, dado a natureza dos dados usados para treinar esses modelos e o impacto do prompt de texto nos resultados da classificação, ele pode amplificar preconceitos e estereótipos. Neste artigo, investigamos o impacto do dimensionamento dos dados de treinamento e dos modelos na classificação zero-shot de gênero e etnias, utilizando diver- sos modelos do tipo CLIP. Conduzimos um benchmark de dimensionamento de modelos ViT que vão desde o ViT-B-32 até o ViT-g-14, e um benchmark de dimensionamento de dados com modelos treinados no conjunto de dados original da OpenAI, e os conjuntos de dados Laion-400M e Laion-2B. Percebemos uma leve melhoria na acurácia e na equi- dade com os dimensionamentos, mas com resultados ainda muito abaixos do esperados para implantação, sugerindo que o dimensionamento puro não é suficiente. Com isso, melhoramos o prompt de texto ao inserir características biométricas como raça, idade e gênero, melhorando a acurácia de 0.58 para 0.65 com ViT-B-16. Finalmente, exploramos os limites da engenharia manual do prompt com um algoritmo de prompt tuning chamado CoOp, capaz de mitigar lacunas sérias nos modelos base. |
| id |
URGS_25ed8e548c81a817c164c97b54d22084 |
|---|---|
| oai_identifier_str |
oai:www.lume.ufrgs.br:10183/298620 |
| network_acronym_str |
URGS |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
| repository_id_str |
|
| spelling |
Ceschini, Lucas MayerJung, Claudio RositoRamos, Gabriel de Oliveira2025-11-01T07:59:53Z2025http://hdl.handle.net/10183/298620001295404Reconhecimento de gênero e etnia é uma tarefa chave de visão computacional para bi- ometria, vigilância e estudos demográficos. Contrastive Language-Image Pre-training (CLIP) é um modelo de visão e linguagem com uma performance zero-shot promissora em diversas tarefas alvo, sem a necessidade de fine-tuning nem retreinamento, permitindo aos usuários que simplesmente forneçam uma imagem e perguntem sobre suas caracte- rísticas. Porém, dado a natureza dos dados usados para treinar esses modelos e o impacto do prompt de texto nos resultados da classificação, ele pode amplificar preconceitos e estereótipos. Neste artigo, investigamos o impacto do dimensionamento dos dados de treinamento e dos modelos na classificação zero-shot de gênero e etnias, utilizando diver- sos modelos do tipo CLIP. Conduzimos um benchmark de dimensionamento de modelos ViT que vão desde o ViT-B-32 até o ViT-g-14, e um benchmark de dimensionamento de dados com modelos treinados no conjunto de dados original da OpenAI, e os conjuntos de dados Laion-400M e Laion-2B. Percebemos uma leve melhoria na acurácia e na equi- dade com os dimensionamentos, mas com resultados ainda muito abaixos do esperados para implantação, sugerindo que o dimensionamento puro não é suficiente. Com isso, melhoramos o prompt de texto ao inserir características biométricas como raça, idade e gênero, melhorando a acurácia de 0.58 para 0.65 com ViT-B-16. Finalmente, exploramos os limites da engenharia manual do prompt com um algoritmo de prompt tuning chamado CoOp, capaz de mitigar lacunas sérias nos modelos base.Gender and ethnicity recognition is a key computer vision task in biometrics, surveil- lance, and demographic studies. Contrastive Language-Image Pre-training (CLIP) is a Vision-Language Model with promising zero-shot performance in several downstream tasks, without the need for fine-tuning or retraining, allowing end-users to simply input an image and ask for its characteristics. However, given the nature of the data used to train these models and the impact of the textual prompt on the classification results, it could cause harm by amplifying stereotypes and prejudice. In this thesis, we investigate the im- pact of training data and model scaling for zero-shot gender and ethnicity classification by evaluating several CLIP-like models. We conduct a model scaling benchmark with ViT models ranging from B-32 to g-14, and a data scaling benchmark with models trained on the original OpenAI dataset, the Laion-400M and the Laion-2B dataset. We perceived a minor improvement in accuracy and fairness with the scaling of model parameters and dataset sizes, but with results far below the expected for deployment, suggesting that raw scaling alone is not enough. To this end, we further improve the textual prompt by in- serting biometric features such as race, age and gender, increasing accuracy from 0.58 to 0.65 with ViT-B-16. Finally, we explore the limits of manual prompt engineering with a prompt tuning algorithm called CoOp, capable of mitigating serious gaps in the baseline models.application/pdfporVisão computacionalModelos de visão e linguagemAprendizado zero-shotReconhecimento de atributos faciaisFacial attribute recognitionZero-shot classificationZero-shot human attribute classification using pretrained VLMsClassificação de images usando VLMs pré-treinadas info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2025mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001295404.pdf.txt001295404.pdf.txtExtracted Texttext/plain136622http://www.lume.ufrgs.br/bitstream/10183/298620/2/001295404.pdf.txte07854c554f3acc0ef3e39ca8a304321MD52ORIGINAL001295404.pdfTexto completo (inglês)application/pdf7554565http://www.lume.ufrgs.br/bitstream/10183/298620/1/001295404.pdfa762631e3c9d99deaeadb226b809fd21MD5110183/2986202025-11-02 09:01:09.70743oai:www.lume.ufrgs.br:10183/298620Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br || lume@ufrgs.bropendoar:18532025-11-02T11:01:09Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
| dc.title.pt_BR.fl_str_mv |
Zero-shot human attribute classification using pretrained VLMs |
| dc.title.alternative.pt.fl_str_mv |
Classificação de images usando VLMs pré-treinadas |
| title |
Zero-shot human attribute classification using pretrained VLMs |
| spellingShingle |
Zero-shot human attribute classification using pretrained VLMs Ceschini, Lucas Mayer Visão computacional Modelos de visão e linguagem Aprendizado zero-shot Reconhecimento de atributos faciais Facial attribute recognition Zero-shot classification |
| title_short |
Zero-shot human attribute classification using pretrained VLMs |
| title_full |
Zero-shot human attribute classification using pretrained VLMs |
| title_fullStr |
Zero-shot human attribute classification using pretrained VLMs |
| title_full_unstemmed |
Zero-shot human attribute classification using pretrained VLMs |
| title_sort |
Zero-shot human attribute classification using pretrained VLMs |
| author |
Ceschini, Lucas Mayer |
| author_facet |
Ceschini, Lucas Mayer |
| author_role |
author |
| dc.contributor.author.fl_str_mv |
Ceschini, Lucas Mayer |
| dc.contributor.advisor1.fl_str_mv |
Jung, Claudio Rosito |
| dc.contributor.advisor-co1.fl_str_mv |
Ramos, Gabriel de Oliveira |
| contributor_str_mv |
Jung, Claudio Rosito Ramos, Gabriel de Oliveira |
| dc.subject.por.fl_str_mv |
Visão computacional Modelos de visão e linguagem Aprendizado zero-shot Reconhecimento de atributos faciais |
| topic |
Visão computacional Modelos de visão e linguagem Aprendizado zero-shot Reconhecimento de atributos faciais Facial attribute recognition Zero-shot classification |
| dc.subject.eng.fl_str_mv |
Facial attribute recognition Zero-shot classification |
| description |
Reconhecimento de gênero e etnia é uma tarefa chave de visão computacional para bi- ometria, vigilância e estudos demográficos. Contrastive Language-Image Pre-training (CLIP) é um modelo de visão e linguagem com uma performance zero-shot promissora em diversas tarefas alvo, sem a necessidade de fine-tuning nem retreinamento, permitindo aos usuários que simplesmente forneçam uma imagem e perguntem sobre suas caracte- rísticas. Porém, dado a natureza dos dados usados para treinar esses modelos e o impacto do prompt de texto nos resultados da classificação, ele pode amplificar preconceitos e estereótipos. Neste artigo, investigamos o impacto do dimensionamento dos dados de treinamento e dos modelos na classificação zero-shot de gênero e etnias, utilizando diver- sos modelos do tipo CLIP. Conduzimos um benchmark de dimensionamento de modelos ViT que vão desde o ViT-B-32 até o ViT-g-14, e um benchmark de dimensionamento de dados com modelos treinados no conjunto de dados original da OpenAI, e os conjuntos de dados Laion-400M e Laion-2B. Percebemos uma leve melhoria na acurácia e na equi- dade com os dimensionamentos, mas com resultados ainda muito abaixos do esperados para implantação, sugerindo que o dimensionamento puro não é suficiente. Com isso, melhoramos o prompt de texto ao inserir características biométricas como raça, idade e gênero, melhorando a acurácia de 0.58 para 0.65 com ViT-B-16. Finalmente, exploramos os limites da engenharia manual do prompt com um algoritmo de prompt tuning chamado CoOp, capaz de mitigar lacunas sérias nos modelos base. |
| publishDate |
2025 |
| dc.date.accessioned.fl_str_mv |
2025-11-01T07:59:53Z |
| dc.date.issued.fl_str_mv |
2025 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/298620 |
| dc.identifier.nrb.pt_BR.fl_str_mv |
001295404 |
| url |
http://hdl.handle.net/10183/298620 |
| identifier_str_mv |
001295404 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
| instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
| instacron_str |
UFRGS |
| institution |
UFRGS |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
| collection |
Biblioteca Digital de Teses e Dissertações da UFRGS |
| bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/298620/2/001295404.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/298620/1/001295404.pdf |
| bitstream.checksum.fl_str_mv |
e07854c554f3acc0ef3e39ca8a304321 a762631e3c9d99deaeadb226b809fd21 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
| repository.mail.fl_str_mv |
lume@ufrgs.br || lume@ufrgs.br |
| _version_ |
1860027826846040064 |