Reprodutibilidade e compartilhamento de dados privados no aprendizado supervisionado: um estudo de caso para o reconhecimento de placas veiculares

Guimarães, Samuel Gales

Reprodutibilidade e compartilhamento de dados privados no aprendizado supervisionado: um estudo de caso para o reconhecimento de placas veiculares

Detalhes bibliográficos
Ano de defesa:	2025
Autor(a) principal:	Guimarães, Samuel Gales
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Computer vision Dados sintéticos Data protection Geração de imagens Image generation License plate recognition Proteção de dados Reconhecimento de placas Synthetic data Visão computacional
Link de acesso:	https://www.teses.usp.br/teses/disponiveis/45/45134/tde-26012026-181506/
Resumo:	A obtenção de conjuntos de dados anotados para treinamento supervisionado de modelos de visão computacional apresenta desafios e custos notoriamente elevados. Embora existam conjuntos públicos como o CIFAR-10, amplamente utilizados como base de comparação entre técnicas, estes apresentam limitações, como baixa resolução e restrição a domínios genéricos. Tal problema é agravado em tarefas que envolvem dados sigilosos, sensíveis ou de alto custo econômico. Esse é o caso do reconhecimento de placas de identificação veiculares, cujo compartilhamento é restringido por legislações de proteção de dados, como a LGPD (brasileira) e a GDPR (europeia). A dificuldade de compartilhamento compromete a reprodutibilidade de pesquisas e, consequentemente, o avanço de novas técnicas. Este trabalho propõe uma metodologia para geração de conjuntos de dados sintéticos rotulados, capazes de reproduzir, em certo nível, experimentos com técnicas de aprendizado de máquina avaliadas sobre dados privados. A metodologia consiste no treinamento de um modelo generativo de dados artificiais a partir de um conjunto real. Os dados sintéticos gerados são submetidos a verificações estatísticas que evidenciem sua similaridade em relação aos dados reais, para fins de avaliação de técnicas como a classificação. Considera-se todo o pipeline de processamento de dados, avaliando-se o quão acurado é um modelo treinado em dados artificiais quando aplicado a dados reais. Além disso, são analisados possíveis vazamentos de dados protegidos. O resultado do processo é uma certificação de que os dados sintéticos podem ser utilizados para simular de forma fidedigna os experimentos realizados com dados reais. Para validação da metodologia, é apresentado um estudo de caso sobre técnicas de reconhecimento de placas veiculares por aprendizado supervisionado, a partir de um conjunto de imagens reais que não pode ser compartilhado devido a restrições legais e interesses corporativos. Considera-se a abordagem mais comum para essa tarefa, composta por etapas de localização, segmentação e posterior classificação dos caracteres. Os dados reais são utilizados para treinar um modelo de Difusão, capaz de gerar imagens realistas de placas. O conjunto sintético resultante é avaliado quanto ao grau de proteção dos dados originais, por meio de análises estatísticas de frequência, repetição de placas, entre outras. Em seguida, avalia-se se o desempenho de modelos de reconhecimento de placas é semelhante nos conjuntos real e sintético. Por fim, são analisados os custos e desafios envolvidos na adoção da abordagem proposta.

Metadados do item

id	USP_deb4d0ccabd527e859c66b6d0d1d3449
oai_identifier_str	oai:teses.usp.br:tde-26012026-181506
network_acronym_str	USP
network_name_str	Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling	Reprodutibilidade e compartilhamento de dados privados no aprendizado supervisionado: um estudo de caso para o reconhecimento de placas veicularesGenerating synthetic data for computer vision model training: an approach for using diffusion models for license plate recognitionComputer visionDados sintéticosData protectionGeração de imagensImage generationLicense plate recognitionProteção de dadosReconhecimento de placasSynthetic dataVisão computacionalA obtenção de conjuntos de dados anotados para treinamento supervisionado de modelos de visão computacional apresenta desafios e custos notoriamente elevados. Embora existam conjuntos públicos como o CIFAR-10, amplamente utilizados como base de comparação entre técnicas, estes apresentam limitações, como baixa resolução e restrição a domínios genéricos. Tal problema é agravado em tarefas que envolvem dados sigilosos, sensíveis ou de alto custo econômico. Esse é o caso do reconhecimento de placas de identificação veiculares, cujo compartilhamento é restringido por legislações de proteção de dados, como a LGPD (brasileira) e a GDPR (europeia). A dificuldade de compartilhamento compromete a reprodutibilidade de pesquisas e, consequentemente, o avanço de novas técnicas. Este trabalho propõe uma metodologia para geração de conjuntos de dados sintéticos rotulados, capazes de reproduzir, em certo nível, experimentos com técnicas de aprendizado de máquina avaliadas sobre dados privados. A metodologia consiste no treinamento de um modelo generativo de dados artificiais a partir de um conjunto real. Os dados sintéticos gerados são submetidos a verificações estatísticas que evidenciem sua similaridade em relação aos dados reais, para fins de avaliação de técnicas como a classificação. Considera-se todo o pipeline de processamento de dados, avaliando-se o quão acurado é um modelo treinado em dados artificiais quando aplicado a dados reais. Além disso, são analisados possíveis vazamentos de dados protegidos. O resultado do processo é uma certificação de que os dados sintéticos podem ser utilizados para simular de forma fidedigna os experimentos realizados com dados reais. Para validação da metodologia, é apresentado um estudo de caso sobre técnicas de reconhecimento de placas veiculares por aprendizado supervisionado, a partir de um conjunto de imagens reais que não pode ser compartilhado devido a restrições legais e interesses corporativos. Considera-se a abordagem mais comum para essa tarefa, composta por etapas de localização, segmentação e posterior classificação dos caracteres. Os dados reais são utilizados para treinar um modelo de Difusão, capaz de gerar imagens realistas de placas. O conjunto sintético resultante é avaliado quanto ao grau de proteção dos dados originais, por meio de análises estatísticas de frequência, repetição de placas, entre outras. Em seguida, avalia-se se o desempenho de modelos de reconhecimento de placas é semelhante nos conjuntos real e sintético. Por fim, são analisados os custos e desafios envolvidos na adoção da abordagem proposta.The acquisition of annotated datasets for supervised training of computer vision models presents well-known challenges and significant costs. While there are public datasets such as CIFAR-10, widely used as a benchmark for comparing techniques, these have limitations such as low resolution and restriction to generic domains. This problem is exacerbated in tasks involving sensitive, confidential, or economically costly data. One such case is vehicle license plate recognition, where data sharing is restricted by data protection regulations such as Brazils LGPD and the European GDPR. This difficulty in data sharing further hinders the reproducibility of research and, consequently, the development of new techniques. This work proposes a methodology for generating synthetic labeled datasets that can reproduce, to a certain extent, experiments involving machine learning techniques applied to private data. The methodology involves training a generative model on real datasets to produce artificial data. The synthetic data are then subjected to statistical analyses to assess their similarity to real data for tasks such as classification. The entire data processing pipeline is considered, evaluating how accurately a model trained on synthetic data performs when applied to real data. Potential leakage of protected data is also analyzed. The result is a certification that the synthetic data can faithfully simulate experiments conducted with real data. To validate the methodology, a case study is presented on license plate recognition using supervised learning, based on a real image dataset that cannot be shared due to legal and corporate restrictions. The most common pipeline for this task is considered, consisting of character localization, segmentation, and classification. Real data are used to train a diffusion model capable of generating realistic plate images. The resulting synthetic dataset is evaluated for its protection of the original data through statistical analyses of data frequency, license plate repetition, and more. Next, the performance of license plate recognition models is compared between real and synthetic datasets. Finally, the costs and challenges involved in the proposed approach are discussed.Biblioteca Digitais de Teses e Dissertações da USPMauá, Denis DerataniGuimarães, Samuel Gales2025-11-27info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/45/45134/tde-26012026-181506/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2026-01-30T09:02:02Zoai:teses.usp.br:tde-26012026-181506Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.bropendoar:27212026-01-30T09:02:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv	Reprodutibilidade e compartilhamento de dados privados no aprendizado supervisionado: um estudo de caso para o reconhecimento de placas veiculares Generating synthetic data for computer vision model training: an approach for using diffusion models for license plate recognition
title	Reprodutibilidade e compartilhamento de dados privados no aprendizado supervisionado: um estudo de caso para o reconhecimento de placas veiculares
spellingShingle	Reprodutibilidade e compartilhamento de dados privados no aprendizado supervisionado: um estudo de caso para o reconhecimento de placas veiculares Guimarães, Samuel Gales Computer vision Dados sintéticos Data protection Geração de imagens Image generation License plate recognition Proteção de dados Reconhecimento de placas Synthetic data Visão computacional
title_short	Reprodutibilidade e compartilhamento de dados privados no aprendizado supervisionado: um estudo de caso para o reconhecimento de placas veiculares
title_full	Reprodutibilidade e compartilhamento de dados privados no aprendizado supervisionado: um estudo de caso para o reconhecimento de placas veiculares
title_fullStr	Reprodutibilidade e compartilhamento de dados privados no aprendizado supervisionado: um estudo de caso para o reconhecimento de placas veiculares
title_full_unstemmed	Reprodutibilidade e compartilhamento de dados privados no aprendizado supervisionado: um estudo de caso para o reconhecimento de placas veiculares
title_sort	Reprodutibilidade e compartilhamento de dados privados no aprendizado supervisionado: um estudo de caso para o reconhecimento de placas veiculares
author	Guimarães, Samuel Gales
author_facet	Guimarães, Samuel Gales
author_role	author
dc.contributor.none.fl_str_mv	Mauá, Denis Deratani
dc.contributor.author.fl_str_mv	Guimarães, Samuel Gales
dc.subject.por.fl_str_mv	Computer vision Dados sintéticos Data protection Geração de imagens Image generation License plate recognition Proteção de dados Reconhecimento de placas Synthetic data Visão computacional
topic	Computer vision Dados sintéticos Data protection Geração de imagens Image generation License plate recognition Proteção de dados Reconhecimento de placas Synthetic data Visão computacional
description	A obtenção de conjuntos de dados anotados para treinamento supervisionado de modelos de visão computacional apresenta desafios e custos notoriamente elevados. Embora existam conjuntos públicos como o CIFAR-10, amplamente utilizados como base de comparação entre técnicas, estes apresentam limitações, como baixa resolução e restrição a domínios genéricos. Tal problema é agravado em tarefas que envolvem dados sigilosos, sensíveis ou de alto custo econômico. Esse é o caso do reconhecimento de placas de identificação veiculares, cujo compartilhamento é restringido por legislações de proteção de dados, como a LGPD (brasileira) e a GDPR (europeia). A dificuldade de compartilhamento compromete a reprodutibilidade de pesquisas e, consequentemente, o avanço de novas técnicas. Este trabalho propõe uma metodologia para geração de conjuntos de dados sintéticos rotulados, capazes de reproduzir, em certo nível, experimentos com técnicas de aprendizado de máquina avaliadas sobre dados privados. A metodologia consiste no treinamento de um modelo generativo de dados artificiais a partir de um conjunto real. Os dados sintéticos gerados são submetidos a verificações estatísticas que evidenciem sua similaridade em relação aos dados reais, para fins de avaliação de técnicas como a classificação. Considera-se todo o pipeline de processamento de dados, avaliando-se o quão acurado é um modelo treinado em dados artificiais quando aplicado a dados reais. Além disso, são analisados possíveis vazamentos de dados protegidos. O resultado do processo é uma certificação de que os dados sintéticos podem ser utilizados para simular de forma fidedigna os experimentos realizados com dados reais. Para validação da metodologia, é apresentado um estudo de caso sobre técnicas de reconhecimento de placas veiculares por aprendizado supervisionado, a partir de um conjunto de imagens reais que não pode ser compartilhado devido a restrições legais e interesses corporativos. Considera-se a abordagem mais comum para essa tarefa, composta por etapas de localização, segmentação e posterior classificação dos caracteres. Os dados reais são utilizados para treinar um modelo de Difusão, capaz de gerar imagens realistas de placas. O conjunto sintético resultante é avaliado quanto ao grau de proteção dos dados originais, por meio de análises estatísticas de frequência, repetição de placas, entre outras. Em seguida, avalia-se se o desempenho de modelos de reconhecimento de placas é semelhante nos conjuntos real e sintético. Por fim, são analisados os custos e desafios envolvidos na adoção da abordagem proposta.
publishDate	2025
dc.date.none.fl_str_mv	2025-11-27
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://www.teses.usp.br/teses/disponiveis/45/45134/tde-26012026-181506/
url	https://www.teses.usp.br/teses/disponiveis/45/45134/tde-26012026-181506/
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv	Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Liberar o conteúdo para acesso público.
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP
instname_str	Universidade de São Paulo (USP)
instacron_str	USP
institution	USP
reponame_str	Biblioteca Digital de Teses e Dissertações da USP
collection	Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv	virginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.br
_version_	1865492423848755200

Reprodutibilidade e compartilhamento de dados privados no aprendizado supervisionado: um estudo de caso para o reconhecimento de placas veiculares

Registros relacionados