Enhancing weakly supervised object detection via long-term self-supervised instance mining
| Ano de defesa: | 2025 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Tese |
| Tipo de acesso: | Acesso aberto |
| Idioma: | eng |
| Instituição de defesa: |
Não Informado pela instituição
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Palavras-chave em Inglês: | |
| Link de acesso: | http://hdl.handle.net/10183/303767 |
Resumo: | A detecção de objetos é uma tarefa fundamental de visão computacional que visa localizar e reconhecer objetos em imagens. No entanto, métodos de detecção de objetos totalmente supervisionados exigem anotações de bounding boxes, cuja compilação pode ser demorada para conjuntos de dados de grande escala. A Detecção de Objetos Fracamente Supervisionada apresenta uma alternativa promissora ao utilizar apenas rótulos de categoria em nível de imagem como supervisão, reduzindo significativamente os custos de anotação. No entanto, ela enfrenta dois desafios significativos: lidar com múltiplas instâncias da mesma classe em uma imagem e obter uma localização precisa das bounding boxes. Esta tese aborda esses desafios por meio de três abordagens complementares. Primeiro, propomos uma metodologia de destilação de conhecimento combinada com um mecanismo de supervisão de refinamento adaptativo que ajusta dinamicamente os limiares de seleção de IoU e aproveita o conhecimento dos refinadores sendo treinados para mitigar os efeitos nocivos de múltiplas instâncias durante o treinamento. Segundo, exploramos uma aplicação específica de domínio onde a informação de número de instâncias está inerentemente presente nas anotações fracas. Especificamente, desenvolvemos uma abordagem fracamente supervisionada para detecção de caracteres de placas de veículos por meio de um processo de construção de autosupervisão com uso do número de Instâncias e um módulo de Classificação de Número de Caracteres Presentes. Em terceiro lugar, apresentamos um novo mecanismo auto-supervisionado para descobrir instâncias adicionais da mesma classe durante o treinamento, empregando uma rede de projeção Multi-Layer Perceptron (MLP) otimizada com uma loss discriminativa para manter a consistência intraclass e garantindo a separação interclasse. A supervisão para o MLP é feita com amostras de alta qualidade de um banco de memória que armazena propostas de alta pontuação de iterações anteriores. Também propomos uma estratégia de supressão baseada na sobre- posição para eliminar detecções redundantes. Experimentos extensivos em benchmarks padrão (PASCAL VOC 2007, VOC 2012 e MS COCO) demonstram a eficácia de nossas abordagens, alcançando desempenho de ponta com classificações de primeiro lugar em conjuntos de dados VOC e segundo lugar em COCO. A dissertação contribui para a maturidade da detecção de objetos fracamente supervisionados ao fornecer soluções práticas que mantêm alta precisão ao mesmo tempo em que reduzem substancialmente os requisitos de supervisão humana, avançando o campo em direção a sistemas de detecção de objetos mais econômicos e escaláveis. |
| id |
URGS_66817ded9a641a5d844b742cd1c69103 |
|---|---|
| oai_identifier_str |
oai:www.lume.ufrgs.br:10183/303767 |
| network_acronym_str |
URGS |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
| repository_id_str |
|
| spelling |
Zeni, Luis Felipe de AraujoJung, Claudio Rosito2026-04-23T07:55:50Z2025http://hdl.handle.net/10183/303767001304590A detecção de objetos é uma tarefa fundamental de visão computacional que visa localizar e reconhecer objetos em imagens. No entanto, métodos de detecção de objetos totalmente supervisionados exigem anotações de bounding boxes, cuja compilação pode ser demorada para conjuntos de dados de grande escala. A Detecção de Objetos Fracamente Supervisionada apresenta uma alternativa promissora ao utilizar apenas rótulos de categoria em nível de imagem como supervisão, reduzindo significativamente os custos de anotação. No entanto, ela enfrenta dois desafios significativos: lidar com múltiplas instâncias da mesma classe em uma imagem e obter uma localização precisa das bounding boxes. Esta tese aborda esses desafios por meio de três abordagens complementares. Primeiro, propomos uma metodologia de destilação de conhecimento combinada com um mecanismo de supervisão de refinamento adaptativo que ajusta dinamicamente os limiares de seleção de IoU e aproveita o conhecimento dos refinadores sendo treinados para mitigar os efeitos nocivos de múltiplas instâncias durante o treinamento. Segundo, exploramos uma aplicação específica de domínio onde a informação de número de instâncias está inerentemente presente nas anotações fracas. Especificamente, desenvolvemos uma abordagem fracamente supervisionada para detecção de caracteres de placas de veículos por meio de um processo de construção de autosupervisão com uso do número de Instâncias e um módulo de Classificação de Número de Caracteres Presentes. Em terceiro lugar, apresentamos um novo mecanismo auto-supervisionado para descobrir instâncias adicionais da mesma classe durante o treinamento, empregando uma rede de projeção Multi-Layer Perceptron (MLP) otimizada com uma loss discriminativa para manter a consistência intraclass e garantindo a separação interclasse. A supervisão para o MLP é feita com amostras de alta qualidade de um banco de memória que armazena propostas de alta pontuação de iterações anteriores. Também propomos uma estratégia de supressão baseada na sobre- posição para eliminar detecções redundantes. Experimentos extensivos em benchmarks padrão (PASCAL VOC 2007, VOC 2012 e MS COCO) demonstram a eficácia de nossas abordagens, alcançando desempenho de ponta com classificações de primeiro lugar em conjuntos de dados VOC e segundo lugar em COCO. A dissertação contribui para a maturidade da detecção de objetos fracamente supervisionados ao fornecer soluções práticas que mantêm alta precisão ao mesmo tempo em que reduzem substancialmente os requisitos de supervisão humana, avançando o campo em direção a sistemas de detecção de objetos mais econômicos e escaláveis.Object detection is a fundamental computer vision task that aims to localise and recognise objects within images. However, fully supervised object detection (FSOD) methods re- quire expensive bounding box annotations, which can be time-consuming to compile for large-scale datasets. Weakly Supervised Object Detection (WSOD) presents a promising alternative by utilising only image-level category labels as supervision, thereby signifi- cantly reducing annotation costs. However, it faces two significant challenges: handling multiple instances of the same class within an image and achieving precise bounding box localisation. This dissertation addresses these challenges through three complemen- tary approaches. First, we propose a knowledge distillation methodology combined with an adaptive refinement supervision mechanism that dynamically adjusts IoU selection thresholds and leverages knowledge from trained refiners to mitigate the harmful effects of multiple instances during training. Second, we explore domain-specific applications where instance-counting information is inherently available in weak annotations. Specif- ically, we develop a weakly supervised approach for license plate character detection through an Instance-Aware Self-Supervision (IASS) building process and a Number of Characters Classification (NCC) module that exploits the counting information present in license plate strings. Third, we present a novel self-supervised mechanism for discovering additional instances of the same class during training, employing a Multi-Layer Percep- tron (MLP) projection network optimised with discriminative loss to maintain intra-class consistency while ensuring inter-class separation. The supervision for the MLP is made with high-quality samples from a memory bank that stores high-scoring proposals from previous iterations. We also propose an overlap suppression strategy to eliminate redun- dant detections. Extensive experiments on standard benchmarks (PASCAL VOC 2007, VOC 2012, and MS COCO) demonstrate the effectiveness of our approaches, achieving state-of-the-art performance with first-place rankings on VOC datasets and second-place on COCO. The dissertation contributes to the maturity of weakly supervised object de- tection by providing practical solutions that maintain high accuracy while substantially reducing human supervision requirements, advancing the field toward more cost-effective and scalable object detection systems.application/pdfengDetecção de objetosVisão computacionalRedes neurais profundasAprendizado de máquinaWeakly supervised object detectionSelf-supervised instance miningEnhancing weakly supervised object detection via long-term self-supervised instance miningAprimorando a detecção de objetos fracamente supervisionada por meio de mineração de instâncias autosupervisionadas de longo prazo info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2025doutoradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001304590.pdf.txt001304590.pdf.txtExtracted Texttext/plain253880http://www.lume.ufrgs.br/bitstream/10183/303767/2/001304590.pdf.txtc11ee6149275f95e17f5b7cbf8263694MD52ORIGINAL001304590.pdfTexto completo (inglês)application/pdf8125960http://www.lume.ufrgs.br/bitstream/10183/303767/1/001304590.pdf9009a5a764ef77f372309d8d974d0796MD5110183/3037672026-04-24 08:02:31.40119oai:www.lume.ufrgs.br:10183/303767Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br || lume@ufrgs.bropendoar:18532026-04-24T11:02:31Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
| dc.title.pt_BR.fl_str_mv |
Enhancing weakly supervised object detection via long-term self-supervised instance mining |
| dc.title.alternative.pt.fl_str_mv |
Aprimorando a detecção de objetos fracamente supervisionada por meio de mineração de instâncias autosupervisionadas de longo prazo |
| title |
Enhancing weakly supervised object detection via long-term self-supervised instance mining |
| spellingShingle |
Enhancing weakly supervised object detection via long-term self-supervised instance mining Zeni, Luis Felipe de Araujo Detecção de objetos Visão computacional Redes neurais profundas Aprendizado de máquina Weakly supervised object detection Self-supervised instance mining |
| title_short |
Enhancing weakly supervised object detection via long-term self-supervised instance mining |
| title_full |
Enhancing weakly supervised object detection via long-term self-supervised instance mining |
| title_fullStr |
Enhancing weakly supervised object detection via long-term self-supervised instance mining |
| title_full_unstemmed |
Enhancing weakly supervised object detection via long-term self-supervised instance mining |
| title_sort |
Enhancing weakly supervised object detection via long-term self-supervised instance mining |
| author |
Zeni, Luis Felipe de Araujo |
| author_facet |
Zeni, Luis Felipe de Araujo |
| author_role |
author |
| dc.contributor.author.fl_str_mv |
Zeni, Luis Felipe de Araujo |
| dc.contributor.advisor1.fl_str_mv |
Jung, Claudio Rosito |
| contributor_str_mv |
Jung, Claudio Rosito |
| dc.subject.por.fl_str_mv |
Detecção de objetos Visão computacional Redes neurais profundas Aprendizado de máquina |
| topic |
Detecção de objetos Visão computacional Redes neurais profundas Aprendizado de máquina Weakly supervised object detection Self-supervised instance mining |
| dc.subject.eng.fl_str_mv |
Weakly supervised object detection Self-supervised instance mining |
| description |
A detecção de objetos é uma tarefa fundamental de visão computacional que visa localizar e reconhecer objetos em imagens. No entanto, métodos de detecção de objetos totalmente supervisionados exigem anotações de bounding boxes, cuja compilação pode ser demorada para conjuntos de dados de grande escala. A Detecção de Objetos Fracamente Supervisionada apresenta uma alternativa promissora ao utilizar apenas rótulos de categoria em nível de imagem como supervisão, reduzindo significativamente os custos de anotação. No entanto, ela enfrenta dois desafios significativos: lidar com múltiplas instâncias da mesma classe em uma imagem e obter uma localização precisa das bounding boxes. Esta tese aborda esses desafios por meio de três abordagens complementares. Primeiro, propomos uma metodologia de destilação de conhecimento combinada com um mecanismo de supervisão de refinamento adaptativo que ajusta dinamicamente os limiares de seleção de IoU e aproveita o conhecimento dos refinadores sendo treinados para mitigar os efeitos nocivos de múltiplas instâncias durante o treinamento. Segundo, exploramos uma aplicação específica de domínio onde a informação de número de instâncias está inerentemente presente nas anotações fracas. Especificamente, desenvolvemos uma abordagem fracamente supervisionada para detecção de caracteres de placas de veículos por meio de um processo de construção de autosupervisão com uso do número de Instâncias e um módulo de Classificação de Número de Caracteres Presentes. Em terceiro lugar, apresentamos um novo mecanismo auto-supervisionado para descobrir instâncias adicionais da mesma classe durante o treinamento, empregando uma rede de projeção Multi-Layer Perceptron (MLP) otimizada com uma loss discriminativa para manter a consistência intraclass e garantindo a separação interclasse. A supervisão para o MLP é feita com amostras de alta qualidade de um banco de memória que armazena propostas de alta pontuação de iterações anteriores. Também propomos uma estratégia de supressão baseada na sobre- posição para eliminar detecções redundantes. Experimentos extensivos em benchmarks padrão (PASCAL VOC 2007, VOC 2012 e MS COCO) demonstram a eficácia de nossas abordagens, alcançando desempenho de ponta com classificações de primeiro lugar em conjuntos de dados VOC e segundo lugar em COCO. A dissertação contribui para a maturidade da detecção de objetos fracamente supervisionados ao fornecer soluções práticas que mantêm alta precisão ao mesmo tempo em que reduzem substancialmente os requisitos de supervisão humana, avançando o campo em direção a sistemas de detecção de objetos mais econômicos e escaláveis. |
| publishDate |
2025 |
| dc.date.issued.fl_str_mv |
2025 |
| dc.date.accessioned.fl_str_mv |
2026-04-23T07:55:50Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
| format |
doctoralThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/303767 |
| dc.identifier.nrb.pt_BR.fl_str_mv |
001304590 |
| url |
http://hdl.handle.net/10183/303767 |
| identifier_str_mv |
001304590 |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
| instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
| instacron_str |
UFRGS |
| institution |
UFRGS |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
| collection |
Biblioteca Digital de Teses e Dissertações da UFRGS |
| bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/303767/2/001304590.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/303767/1/001304590.pdf |
| bitstream.checksum.fl_str_mv |
c11ee6149275f95e17f5b7cbf8263694 9009a5a764ef77f372309d8d974d0796 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
| repository.mail.fl_str_mv |
lume@ufrgs.br || lume@ufrgs.br |
| _version_ |
1863671996917743616 |