Reprodutibilidade e compartilhamento de dados privados no aprendizado supervisionado: um estudo de caso para o reconhecimento de placas veiculares
| Ano de defesa: | 2025 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.teses.usp.br/teses/disponiveis/45/45134/tde-26012026-181506/ |
Resumo: | A obtenção de conjuntos de dados anotados para treinamento supervisionado de modelos de visão computacional apresenta desafios e custos notoriamente elevados. Embora existam conjuntos públicos como o CIFAR-10, amplamente utilizados como base de comparação entre técnicas, estes apresentam limitações, como baixa resolução e restrição a domínios genéricos. Tal problema é agravado em tarefas que envolvem dados sigilosos, sensíveis ou de alto custo econômico. Esse é o caso do reconhecimento de placas de identificação veiculares, cujo compartilhamento é restringido por legislações de proteção de dados, como a LGPD (brasileira) e a GDPR (europeia). A dificuldade de compartilhamento compromete a reprodutibilidade de pesquisas e, consequentemente, o avanço de novas técnicas. Este trabalho propõe uma metodologia para geração de conjuntos de dados sintéticos rotulados, capazes de reproduzir, em certo nível, experimentos com técnicas de aprendizado de máquina avaliadas sobre dados privados. A metodologia consiste no treinamento de um modelo generativo de dados artificiais a partir de um conjunto real. Os dados sintéticos gerados são submetidos a verificações estatísticas que evidenciem sua similaridade em relação aos dados reais, para fins de avaliação de técnicas como a classificação. Considera-se todo o pipeline de processamento de dados, avaliando-se o quão acurado é um modelo treinado em dados artificiais quando aplicado a dados reais. Além disso, são analisados possíveis vazamentos de dados protegidos. O resultado do processo é uma certificação de que os dados sintéticos podem ser utilizados para simular de forma fidedigna os experimentos realizados com dados reais. Para validação da metodologia, é apresentado um estudo de caso sobre técnicas de reconhecimento de placas veiculares por aprendizado supervisionado, a partir de um conjunto de imagens reais que não pode ser compartilhado devido a restrições legais e interesses corporativos. Considera-se a abordagem mais comum para essa tarefa, composta por etapas de localização, segmentação e posterior classificação dos caracteres. Os dados reais são utilizados para treinar um modelo de Difusão, capaz de gerar imagens realistas de placas. O conjunto sintético resultante é avaliado quanto ao grau de proteção dos dados originais, por meio de análises estatísticas de frequência, repetição de placas, entre outras. Em seguida, avalia-se se o desempenho de modelos de reconhecimento de placas é semelhante nos conjuntos real e sintético. Por fim, são analisados os custos e desafios envolvidos na adoção da abordagem proposta. |
| id |
USP_deb4d0ccabd527e859c66b6d0d1d3449 |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-26012026-181506 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Reprodutibilidade e compartilhamento de dados privados no aprendizado supervisionado: um estudo de caso para o reconhecimento de placas veicularesGenerating synthetic data for computer vision model training: an approach for using diffusion models for license plate recognitionComputer visionDados sintéticosData protectionGeração de imagensImage generationLicense plate recognitionProteção de dadosReconhecimento de placasSynthetic dataVisão computacionalA obtenção de conjuntos de dados anotados para treinamento supervisionado de modelos de visão computacional apresenta desafios e custos notoriamente elevados. Embora existam conjuntos públicos como o CIFAR-10, amplamente utilizados como base de comparação entre técnicas, estes apresentam limitações, como baixa resolução e restrição a domínios genéricos. Tal problema é agravado em tarefas que envolvem dados sigilosos, sensíveis ou de alto custo econômico. Esse é o caso do reconhecimento de placas de identificação veiculares, cujo compartilhamento é restringido por legislações de proteção de dados, como a LGPD (brasileira) e a GDPR (europeia). A dificuldade de compartilhamento compromete a reprodutibilidade de pesquisas e, consequentemente, o avanço de novas técnicas. Este trabalho propõe uma metodologia para geração de conjuntos de dados sintéticos rotulados, capazes de reproduzir, em certo nível, experimentos com técnicas de aprendizado de máquina avaliadas sobre dados privados. A metodologia consiste no treinamento de um modelo generativo de dados artificiais a partir de um conjunto real. Os dados sintéticos gerados são submetidos a verificações estatísticas que evidenciem sua similaridade em relação aos dados reais, para fins de avaliação de técnicas como a classificação. Considera-se todo o pipeline de processamento de dados, avaliando-se o quão acurado é um modelo treinado em dados artificiais quando aplicado a dados reais. Além disso, são analisados possíveis vazamentos de dados protegidos. O resultado do processo é uma certificação de que os dados sintéticos podem ser utilizados para simular de forma fidedigna os experimentos realizados com dados reais. Para validação da metodologia, é apresentado um estudo de caso sobre técnicas de reconhecimento de placas veiculares por aprendizado supervisionado, a partir de um conjunto de imagens reais que não pode ser compartilhado devido a restrições legais e interesses corporativos. Considera-se a abordagem mais comum para essa tarefa, composta por etapas de localização, segmentação e posterior classificação dos caracteres. Os dados reais são utilizados para treinar um modelo de Difusão, capaz de gerar imagens realistas de placas. O conjunto sintético resultante é avaliado quanto ao grau de proteção dos dados originais, por meio de análises estatísticas de frequência, repetição de placas, entre outras. Em seguida, avalia-se se o desempenho de modelos de reconhecimento de placas é semelhante nos conjuntos real e sintético. Por fim, são analisados os custos e desafios envolvidos na adoção da abordagem proposta.The acquisition of annotated datasets for supervised training of computer vision models presents well-known challenges and significant costs. While there are public datasets such as CIFAR-10, widely used as a benchmark for comparing techniques, these have limitations such as low resolution and restriction to generic domains. This problem is exacerbated in tasks involving sensitive, confidential, or economically costly data. One such case is vehicle license plate recognition, where data sharing is restricted by data protection regulations such as Brazils LGPD and the European GDPR. This difficulty in data sharing further hinders the reproducibility of research and, consequently, the development of new techniques. This work proposes a methodology for generating synthetic labeled datasets that can reproduce, to a certain extent, experiments involving machine learning techniques applied to private data. The methodology involves training a generative model on real datasets to produce artificial data. The synthetic data are then subjected to statistical analyses to assess their similarity to real data for tasks such as classification. The entire data processing pipeline is considered, evaluating how accurately a model trained on synthetic data performs when applied to real data. Potential leakage of protected data is also analyzed. The result is a certification that the synthetic data can faithfully simulate experiments conducted with real data. To validate the methodology, a case study is presented on license plate recognition using supervised learning, based on a real image dataset that cannot be shared due to legal and corporate restrictions. The most common pipeline for this task is considered, consisting of character localization, segmentation, and classification. Real data are used to train a diffusion model capable of generating realistic plate images. The resulting synthetic dataset is evaluated for its protection of the original data through statistical analyses of data frequency, license plate repetition, and more. Next, the performance of license plate recognition models is compared between real and synthetic datasets. Finally, the costs and challenges involved in the proposed approach are discussed.Biblioteca Digitais de Teses e Dissertações da USPMauá, Denis DerataniGuimarães, Samuel Gales2025-11-27info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/45/45134/tde-26012026-181506/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2026-01-30T09:02:02Zoai:teses.usp.br:tde-26012026-181506Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212026-01-30T09:02:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Reprodutibilidade e compartilhamento de dados privados no aprendizado supervisionado: um estudo de caso para o reconhecimento de placas veiculares Generating synthetic data for computer vision model training: an approach for using diffusion models for license plate recognition |
| title |
Reprodutibilidade e compartilhamento de dados privados no aprendizado supervisionado: um estudo de caso para o reconhecimento de placas veiculares |
| spellingShingle |
Reprodutibilidade e compartilhamento de dados privados no aprendizado supervisionado: um estudo de caso para o reconhecimento de placas veiculares Guimarães, Samuel Gales Computer vision Dados sintéticos Data protection Geração de imagens Image generation License plate recognition Proteção de dados Reconhecimento de placas Synthetic data Visão computacional |
| title_short |
Reprodutibilidade e compartilhamento de dados privados no aprendizado supervisionado: um estudo de caso para o reconhecimento de placas veiculares |
| title_full |
Reprodutibilidade e compartilhamento de dados privados no aprendizado supervisionado: um estudo de caso para o reconhecimento de placas veiculares |
| title_fullStr |
Reprodutibilidade e compartilhamento de dados privados no aprendizado supervisionado: um estudo de caso para o reconhecimento de placas veiculares |
| title_full_unstemmed |
Reprodutibilidade e compartilhamento de dados privados no aprendizado supervisionado: um estudo de caso para o reconhecimento de placas veiculares |
| title_sort |
Reprodutibilidade e compartilhamento de dados privados no aprendizado supervisionado: um estudo de caso para o reconhecimento de placas veiculares |
| author |
Guimarães, Samuel Gales |
| author_facet |
Guimarães, Samuel Gales |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Mauá, Denis Deratani |
| dc.contributor.author.fl_str_mv |
Guimarães, Samuel Gales |
| dc.subject.por.fl_str_mv |
Computer vision Dados sintéticos Data protection Geração de imagens Image generation License plate recognition Proteção de dados Reconhecimento de placas Synthetic data Visão computacional |
| topic |
Computer vision Dados sintéticos Data protection Geração de imagens Image generation License plate recognition Proteção de dados Reconhecimento de placas Synthetic data Visão computacional |
| description |
A obtenção de conjuntos de dados anotados para treinamento supervisionado de modelos de visão computacional apresenta desafios e custos notoriamente elevados. Embora existam conjuntos públicos como o CIFAR-10, amplamente utilizados como base de comparação entre técnicas, estes apresentam limitações, como baixa resolução e restrição a domínios genéricos. Tal problema é agravado em tarefas que envolvem dados sigilosos, sensíveis ou de alto custo econômico. Esse é o caso do reconhecimento de placas de identificação veiculares, cujo compartilhamento é restringido por legislações de proteção de dados, como a LGPD (brasileira) e a GDPR (europeia). A dificuldade de compartilhamento compromete a reprodutibilidade de pesquisas e, consequentemente, o avanço de novas técnicas. Este trabalho propõe uma metodologia para geração de conjuntos de dados sintéticos rotulados, capazes de reproduzir, em certo nível, experimentos com técnicas de aprendizado de máquina avaliadas sobre dados privados. A metodologia consiste no treinamento de um modelo generativo de dados artificiais a partir de um conjunto real. Os dados sintéticos gerados são submetidos a verificações estatísticas que evidenciem sua similaridade em relação aos dados reais, para fins de avaliação de técnicas como a classificação. Considera-se todo o pipeline de processamento de dados, avaliando-se o quão acurado é um modelo treinado em dados artificiais quando aplicado a dados reais. Além disso, são analisados possíveis vazamentos de dados protegidos. O resultado do processo é uma certificação de que os dados sintéticos podem ser utilizados para simular de forma fidedigna os experimentos realizados com dados reais. Para validação da metodologia, é apresentado um estudo de caso sobre técnicas de reconhecimento de placas veiculares por aprendizado supervisionado, a partir de um conjunto de imagens reais que não pode ser compartilhado devido a restrições legais e interesses corporativos. Considera-se a abordagem mais comum para essa tarefa, composta por etapas de localização, segmentação e posterior classificação dos caracteres. Os dados reais são utilizados para treinar um modelo de Difusão, capaz de gerar imagens realistas de placas. O conjunto sintético resultante é avaliado quanto ao grau de proteção dos dados originais, por meio de análises estatísticas de frequência, repetição de placas, entre outras. Em seguida, avalia-se se o desempenho de modelos de reconhecimento de placas é semelhante nos conjuntos real e sintético. Por fim, são analisados os custos e desafios envolvidos na adoção da abordagem proposta. |
| publishDate |
2025 |
| dc.date.none.fl_str_mv |
2025-11-27 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/45/45134/tde-26012026-181506/ |
| url |
https://www.teses.usp.br/teses/disponiveis/45/45134/tde-26012026-181506/ |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1857669981305569280 |