Reprodutibilidade e compartilhamento de dados privados no aprendizado supervisionado: um estudo de caso para o reconhecimento de placas veiculares

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Guimarães, Samuel Gales
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-26012026-181506/
Resumo: A obtenção de conjuntos de dados anotados para treinamento supervisionado de modelos de visão computacional apresenta desafios e custos notoriamente elevados. Embora existam conjuntos públicos como o CIFAR-10, amplamente utilizados como base de comparação entre técnicas, estes apresentam limitações, como baixa resolução e restrição a domínios genéricos. Tal problema é agravado em tarefas que envolvem dados sigilosos, sensíveis ou de alto custo econômico. Esse é o caso do reconhecimento de placas de identificação veiculares, cujo compartilhamento é restringido por legislações de proteção de dados, como a LGPD (brasileira) e a GDPR (europeia). A dificuldade de compartilhamento compromete a reprodutibilidade de pesquisas e, consequentemente, o avanço de novas técnicas. Este trabalho propõe uma metodologia para geração de conjuntos de dados sintéticos rotulados, capazes de reproduzir, em certo nível, experimentos com técnicas de aprendizado de máquina avaliadas sobre dados privados. A metodologia consiste no treinamento de um modelo generativo de dados artificiais a partir de um conjunto real. Os dados sintéticos gerados são submetidos a verificações estatísticas que evidenciem sua similaridade em relação aos dados reais, para fins de avaliação de técnicas como a classificação. Considera-se todo o pipeline de processamento de dados, avaliando-se o quão acurado é um modelo treinado em dados artificiais quando aplicado a dados reais. Além disso, são analisados possíveis vazamentos de dados protegidos. O resultado do processo é uma certificação de que os dados sintéticos podem ser utilizados para simular de forma fidedigna os experimentos realizados com dados reais. Para validação da metodologia, é apresentado um estudo de caso sobre técnicas de reconhecimento de placas veiculares por aprendizado supervisionado, a partir de um conjunto de imagens reais que não pode ser compartilhado devido a restrições legais e interesses corporativos. Considera-se a abordagem mais comum para essa tarefa, composta por etapas de localização, segmentação e posterior classificação dos caracteres. Os dados reais são utilizados para treinar um modelo de Difusão, capaz de gerar imagens realistas de placas. O conjunto sintético resultante é avaliado quanto ao grau de proteção dos dados originais, por meio de análises estatísticas de frequência, repetição de placas, entre outras. Em seguida, avalia-se se o desempenho de modelos de reconhecimento de placas é semelhante nos conjuntos real e sintético. Por fim, são analisados os custos e desafios envolvidos na adoção da abordagem proposta.
id USP_deb4d0ccabd527e859c66b6d0d1d3449
oai_identifier_str oai:teses.usp.br:tde-26012026-181506
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Reprodutibilidade e compartilhamento de dados privados no aprendizado supervisionado: um estudo de caso para o reconhecimento de placas veicularesGenerating synthetic data for computer vision model training: an approach for using diffusion models for license plate recognitionComputer visionDados sintéticosData protectionGeração de imagensImage generationLicense plate recognitionProteção de dadosReconhecimento de placasSynthetic dataVisão computacionalA obtenção de conjuntos de dados anotados para treinamento supervisionado de modelos de visão computacional apresenta desafios e custos notoriamente elevados. Embora existam conjuntos públicos como o CIFAR-10, amplamente utilizados como base de comparação entre técnicas, estes apresentam limitações, como baixa resolução e restrição a domínios genéricos. Tal problema é agravado em tarefas que envolvem dados sigilosos, sensíveis ou de alto custo econômico. Esse é o caso do reconhecimento de placas de identificação veiculares, cujo compartilhamento é restringido por legislações de proteção de dados, como a LGPD (brasileira) e a GDPR (europeia). A dificuldade de compartilhamento compromete a reprodutibilidade de pesquisas e, consequentemente, o avanço de novas técnicas. Este trabalho propõe uma metodologia para geração de conjuntos de dados sintéticos rotulados, capazes de reproduzir, em certo nível, experimentos com técnicas de aprendizado de máquina avaliadas sobre dados privados. A metodologia consiste no treinamento de um modelo generativo de dados artificiais a partir de um conjunto real. Os dados sintéticos gerados são submetidos a verificações estatísticas que evidenciem sua similaridade em relação aos dados reais, para fins de avaliação de técnicas como a classificação. Considera-se todo o pipeline de processamento de dados, avaliando-se o quão acurado é um modelo treinado em dados artificiais quando aplicado a dados reais. Além disso, são analisados possíveis vazamentos de dados protegidos. O resultado do processo é uma certificação de que os dados sintéticos podem ser utilizados para simular de forma fidedigna os experimentos realizados com dados reais. Para validação da metodologia, é apresentado um estudo de caso sobre técnicas de reconhecimento de placas veiculares por aprendizado supervisionado, a partir de um conjunto de imagens reais que não pode ser compartilhado devido a restrições legais e interesses corporativos. Considera-se a abordagem mais comum para essa tarefa, composta por etapas de localização, segmentação e posterior classificação dos caracteres. Os dados reais são utilizados para treinar um modelo de Difusão, capaz de gerar imagens realistas de placas. O conjunto sintético resultante é avaliado quanto ao grau de proteção dos dados originais, por meio de análises estatísticas de frequência, repetição de placas, entre outras. Em seguida, avalia-se se o desempenho de modelos de reconhecimento de placas é semelhante nos conjuntos real e sintético. Por fim, são analisados os custos e desafios envolvidos na adoção da abordagem proposta.The acquisition of annotated datasets for supervised training of computer vision models presents well-known challenges and significant costs. While there are public datasets such as CIFAR-10, widely used as a benchmark for comparing techniques, these have limitations such as low resolution and restriction to generic domains. This problem is exacerbated in tasks involving sensitive, confidential, or economically costly data. One such case is vehicle license plate recognition, where data sharing is restricted by data protection regulations such as Brazils LGPD and the European GDPR. This difficulty in data sharing further hinders the reproducibility of research and, consequently, the development of new techniques. This work proposes a methodology for generating synthetic labeled datasets that can reproduce, to a certain extent, experiments involving machine learning techniques applied to private data. The methodology involves training a generative model on real datasets to produce artificial data. The synthetic data are then subjected to statistical analyses to assess their similarity to real data for tasks such as classification. The entire data processing pipeline is considered, evaluating how accurately a model trained on synthetic data performs when applied to real data. Potential leakage of protected data is also analyzed. The result is a certification that the synthetic data can faithfully simulate experiments conducted with real data. To validate the methodology, a case study is presented on license plate recognition using supervised learning, based on a real image dataset that cannot be shared due to legal and corporate restrictions. The most common pipeline for this task is considered, consisting of character localization, segmentation, and classification. Real data are used to train a diffusion model capable of generating realistic plate images. The resulting synthetic dataset is evaluated for its protection of the original data through statistical analyses of data frequency, license plate repetition, and more. Next, the performance of license plate recognition models is compared between real and synthetic datasets. Finally, the costs and challenges involved in the proposed approach are discussed.Biblioteca Digitais de Teses e Dissertações da USPMauá, Denis DerataniGuimarães, Samuel Gales2025-11-27info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/45/45134/tde-26012026-181506/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2026-01-30T09:02:02Zoai:teses.usp.br:tde-26012026-181506Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212026-01-30T09:02:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Reprodutibilidade e compartilhamento de dados privados no aprendizado supervisionado: um estudo de caso para o reconhecimento de placas veiculares
Generating synthetic data for computer vision model training: an approach for using diffusion models for license plate recognition
title Reprodutibilidade e compartilhamento de dados privados no aprendizado supervisionado: um estudo de caso para o reconhecimento de placas veiculares
spellingShingle Reprodutibilidade e compartilhamento de dados privados no aprendizado supervisionado: um estudo de caso para o reconhecimento de placas veiculares
Guimarães, Samuel Gales
Computer vision
Dados sintéticos
Data protection
Geração de imagens
Image generation
License plate recognition
Proteção de dados
Reconhecimento de placas
Synthetic data
Visão computacional
title_short Reprodutibilidade e compartilhamento de dados privados no aprendizado supervisionado: um estudo de caso para o reconhecimento de placas veiculares
title_full Reprodutibilidade e compartilhamento de dados privados no aprendizado supervisionado: um estudo de caso para o reconhecimento de placas veiculares
title_fullStr Reprodutibilidade e compartilhamento de dados privados no aprendizado supervisionado: um estudo de caso para o reconhecimento de placas veiculares
title_full_unstemmed Reprodutibilidade e compartilhamento de dados privados no aprendizado supervisionado: um estudo de caso para o reconhecimento de placas veiculares
title_sort Reprodutibilidade e compartilhamento de dados privados no aprendizado supervisionado: um estudo de caso para o reconhecimento de placas veiculares
author Guimarães, Samuel Gales
author_facet Guimarães, Samuel Gales
author_role author
dc.contributor.none.fl_str_mv Mauá, Denis Deratani
dc.contributor.author.fl_str_mv Guimarães, Samuel Gales
dc.subject.por.fl_str_mv Computer vision
Dados sintéticos
Data protection
Geração de imagens
Image generation
License plate recognition
Proteção de dados
Reconhecimento de placas
Synthetic data
Visão computacional
topic Computer vision
Dados sintéticos
Data protection
Geração de imagens
Image generation
License plate recognition
Proteção de dados
Reconhecimento de placas
Synthetic data
Visão computacional
description A obtenção de conjuntos de dados anotados para treinamento supervisionado de modelos de visão computacional apresenta desafios e custos notoriamente elevados. Embora existam conjuntos públicos como o CIFAR-10, amplamente utilizados como base de comparação entre técnicas, estes apresentam limitações, como baixa resolução e restrição a domínios genéricos. Tal problema é agravado em tarefas que envolvem dados sigilosos, sensíveis ou de alto custo econômico. Esse é o caso do reconhecimento de placas de identificação veiculares, cujo compartilhamento é restringido por legislações de proteção de dados, como a LGPD (brasileira) e a GDPR (europeia). A dificuldade de compartilhamento compromete a reprodutibilidade de pesquisas e, consequentemente, o avanço de novas técnicas. Este trabalho propõe uma metodologia para geração de conjuntos de dados sintéticos rotulados, capazes de reproduzir, em certo nível, experimentos com técnicas de aprendizado de máquina avaliadas sobre dados privados. A metodologia consiste no treinamento de um modelo generativo de dados artificiais a partir de um conjunto real. Os dados sintéticos gerados são submetidos a verificações estatísticas que evidenciem sua similaridade em relação aos dados reais, para fins de avaliação de técnicas como a classificação. Considera-se todo o pipeline de processamento de dados, avaliando-se o quão acurado é um modelo treinado em dados artificiais quando aplicado a dados reais. Além disso, são analisados possíveis vazamentos de dados protegidos. O resultado do processo é uma certificação de que os dados sintéticos podem ser utilizados para simular de forma fidedigna os experimentos realizados com dados reais. Para validação da metodologia, é apresentado um estudo de caso sobre técnicas de reconhecimento de placas veiculares por aprendizado supervisionado, a partir de um conjunto de imagens reais que não pode ser compartilhado devido a restrições legais e interesses corporativos. Considera-se a abordagem mais comum para essa tarefa, composta por etapas de localização, segmentação e posterior classificação dos caracteres. Os dados reais são utilizados para treinar um modelo de Difusão, capaz de gerar imagens realistas de placas. O conjunto sintético resultante é avaliado quanto ao grau de proteção dos dados originais, por meio de análises estatísticas de frequência, repetição de placas, entre outras. Em seguida, avalia-se se o desempenho de modelos de reconhecimento de placas é semelhante nos conjuntos real e sintético. Por fim, são analisados os custos e desafios envolvidos na adoção da abordagem proposta.
publishDate 2025
dc.date.none.fl_str_mv 2025-11-27
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/45/45134/tde-26012026-181506/
url https://www.teses.usp.br/teses/disponiveis/45/45134/tde-26012026-181506/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1857669981305569280