Introducing a self-supervised, superfeature-based network for Video object segmentation
| Ano de defesa: | 2023 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | , , , , |
| Tipo de documento: | Tese |
| Tipo de acesso: | Acesso aberto |
| Idioma: | eng |
| Instituição de defesa: |
Universidade Federal da Bahia
|
| Programa de Pós-Graduação: |
Programa de Pós-Graduação em Mecatrônica da UFBA (PPGM)
|
| Departamento: |
Instituto de Computação - IC
|
| País: |
Brasil
|
| Palavras-chave em Português: | |
| Área do conhecimento CNPq: | |
| Link de acesso: | https://repositorio.ufba.br/handle/ri/37993 |
Resumo: | A segmentação de objetos em vídeo (VOS) é uma tarefa complexa de visão computacional que envolve a identificação e separação de pixels em uma sequência de vídeo com base em regiões, que podem ser o plano de fundo ou primeiro plano, ou mesmo objetos específicos dentro da cena. A tarefa deve ser realizada de forma consistente ao longo da sequência, garantindo que o mesmo objeto ou região receba o mesmo rótulo em todos os quadros. Avanços recentes em técnicas de aprendizado profundo e datasets de alta definição tem levado a avanços significativos na área de VOS. Métodos modernos podem lidar com cenários de vídeo complexos, incluindo múltiplos objetos em movimento em fundos dinâmicos. No entanto, esses métodos são altamente dependentes de datasets anotados manualmente, que podem ser caros e demorados para serem criados. Alternativamente, métodos auto-supervisionados têm sido propostos para eliminar a necessidade de anotações manuais durante o treinamento. Esses métodos utilizam propriedades intrínsecas de vídeos, como a coerência temporal entre quadros, para gerar um sinal de supervisão para o treinamento sem intervenção humana. A desvantagem é que os métodos auto-supervisionados muitas vezes exigem extensos datasets de treinamento para aprender efetivamente a tarefa de VOS sem supervisão. Neste trabalho, propomos Superfeatures in a Highly Compressed Latent Space (SHLS), um novo método de VOS auto-supervisionado que dispensa anotações manuais e reduz substancialmente a demanda por dados de treinamento. Usando uma abordagem de aprendizado de métrica, o SHLS combina superpixels e recursos de aprendizado profundo, permitindo-nos aprender a tarefa de VOS a partir de um pequeno datasets de imagens estáticas não rotuladas. Nossa solução é construída sobre Iterative over-Segmentation via Edge Clustering (ISEC), nosso eficiente método de superpixels que fornece o mesmo nível de precisão de segmentação que os principais algoritmos de superpixels, enquanto gera significativamente menos superpixels. Isso é especialmente útil para o processamento de vídeos, onde o número de pixels aumenta ao longo do tempo. Nosso método SHLS incorpora features convolucionais dos pixels nas áreas dos superpixels correspondentes, resultando em representações de imagem ultra-compactas chamadas de superfeatures. As superfeatures compõem um espaço latente onde as informações do objeto são armazenadas, recuperadas e classificadas de forma eficiente ao longo da sequência de quadros. Realizamos uma série de experimentos nos datasets de VOS mais populares e observamos resultados competitivos. Comparado aos métodos auto-supervisionados do estado-da-arte, o SHLS alcança a melhor performance no teste de segmentação de objeto único do dataset DAVIS-2016 e ocupa uma das cinco melhores posições no teste de multi-objetos do DAVIS-2017. Notavelmente, nosso método foi treinado com apenas 10.000 imagens estáticas, destacando-se dos outros métodos auto-supervisionados, que exigem datasets de vídeo muito maiores. De modo geral, nosso método proposto representa um avanço significativo na segmentação de objetos em vídeo auto-supervisionada, oferecendo uma alternativa eficiente e eficaz às anotações manuais e reduzindo significativamente a demanda por dados de treinamento. |
| id |
UFBA-2_9903f1609fa5b53619d1698c0cf6b5c4 |
|---|---|
| oai_identifier_str |
oai:repositorio.ufba.br:ri/37993 |
| network_acronym_str |
UFBA-2 |
| network_name_str |
Repositório Institucional da UFBA |
| repository_id_str |
|
| spelling |
2023-10-06T12:45:48Z2023-10-06T12:45:48Z2023-06-09https://repositorio.ufba.br/handle/ri/37993A segmentação de objetos em vídeo (VOS) é uma tarefa complexa de visão computacional que envolve a identificação e separação de pixels em uma sequência de vídeo com base em regiões, que podem ser o plano de fundo ou primeiro plano, ou mesmo objetos específicos dentro da cena. A tarefa deve ser realizada de forma consistente ao longo da sequência, garantindo que o mesmo objeto ou região receba o mesmo rótulo em todos os quadros. Avanços recentes em técnicas de aprendizado profundo e datasets de alta definição tem levado a avanços significativos na área de VOS. Métodos modernos podem lidar com cenários de vídeo complexos, incluindo múltiplos objetos em movimento em fundos dinâmicos. No entanto, esses métodos são altamente dependentes de datasets anotados manualmente, que podem ser caros e demorados para serem criados. Alternativamente, métodos auto-supervisionados têm sido propostos para eliminar a necessidade de anotações manuais durante o treinamento. Esses métodos utilizam propriedades intrínsecas de vídeos, como a coerência temporal entre quadros, para gerar um sinal de supervisão para o treinamento sem intervenção humana. A desvantagem é que os métodos auto-supervisionados muitas vezes exigem extensos datasets de treinamento para aprender efetivamente a tarefa de VOS sem supervisão. Neste trabalho, propomos Superfeatures in a Highly Compressed Latent Space (SHLS), um novo método de VOS auto-supervisionado que dispensa anotações manuais e reduz substancialmente a demanda por dados de treinamento. Usando uma abordagem de aprendizado de métrica, o SHLS combina superpixels e recursos de aprendizado profundo, permitindo-nos aprender a tarefa de VOS a partir de um pequeno datasets de imagens estáticas não rotuladas. Nossa solução é construída sobre Iterative over-Segmentation via Edge Clustering (ISEC), nosso eficiente método de superpixels que fornece o mesmo nível de precisão de segmentação que os principais algoritmos de superpixels, enquanto gera significativamente menos superpixels. Isso é especialmente útil para o processamento de vídeos, onde o número de pixels aumenta ao longo do tempo. Nosso método SHLS incorpora features convolucionais dos pixels nas áreas dos superpixels correspondentes, resultando em representações de imagem ultra-compactas chamadas de superfeatures. As superfeatures compõem um espaço latente onde as informações do objeto são armazenadas, recuperadas e classificadas de forma eficiente ao longo da sequência de quadros. Realizamos uma série de experimentos nos datasets de VOS mais populares e observamos resultados competitivos. Comparado aos métodos auto-supervisionados do estado-da-arte, o SHLS alcança a melhor performance no teste de segmentação de objeto único do dataset DAVIS-2016 e ocupa uma das cinco melhores posições no teste de multi-objetos do DAVIS-2017. Notavelmente, nosso método foi treinado com apenas 10.000 imagens estáticas, destacando-se dos outros métodos auto-supervisionados, que exigem datasets de vídeo muito maiores. De modo geral, nosso método proposto representa um avanço significativo na segmentação de objetos em vídeo auto-supervisionada, oferecendo uma alternativa eficiente e eficaz às anotações manuais e reduzindo significativamente a demanda por dados de treinamento.Video object segmentation (VOS) is a complex computer vision task that involves identifying and separating the pixels in a video sequence based on regions, which can be either the background or foreground of the scene, or even specific objects within it. The task must be accomplished consistently throughout the sequence, ensuring that the same object or region receives the same label in all frames. Recent advances in deep learning techniques and high-definition datasets have led to significant progress in the VOS area. Modern methods can handle complex video scenarios, including multiple objects moving over dynamic backgrounds. However, these methods rely heavily on manually annotated datasets, which can be expensive and time-consuming to create. Alternatively, self-supervised methods have been proposed to eliminate the need for manual annotations during training. These methods utilize intrinsic properties of videos, such as the temporal coherence between frames, to generate a supervisory signal for training without human intervention. The downside is that self-supervised methods often demand extensive training data to effectively learn the VOS task without supervision. In this work, we propose Superfeatures in a Highly Compressed Latent Space (SHLS), a novel self-supervised VOS method that dispenses manual annotations while reducing substantially the demand for training data. Using a metric learning approach, SHLS combines superpixels and deep learning features, enabling us to learn the VOS task from a small dataset of unlabeled still images. Our solution is built upon Iterative over-Segmentation via Edge Clustering (ISEC), our efficient superpixel method that provides the same level of segmentation accuracy as top-performing superpixel algorithms while generating significantly fewer superpixels. This is especially useful for processing videos, where the number of pixels increases over time. Our proposed SHLS embeds convolutional features from the frame pixels into the corresponding superpixel areas, resulting in ultra-compact image representations called superfeatures. The superfeatures comprise a latent space where object information is efficiently stored, retrieved, and classified throughout the frame sequence. We conduct a series of experiments on the most popular VOS datasets and observe competitive results. Compared to state-of-the-art self-supervised methods, SHLS achieves the best performance on the single-object segmentation test of the DAVIS-2016 dataset and ranks in the top five on the DAVIS-2017 multi-object test. Remarkably, our method was trained with only 10,000 still images, outstanding from the other self-supervised methods, which require much larger video-based datasets. Overall, our proposed method represents a significant advancement in self-supervised VOS, offering an efficient and effective alternative to manual annotations and significantly reducing the demand for training data.Submitted by Marcelo Santos (eng.marcelo.mendonca@gmail.com) on 2023-09-22T12:08:55Z No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) my_thesis_VH_impressao.pdf: 30126146 bytes, checksum: 95889f082460115d9825e82400b14e79 (MD5)Approved for entry into archive by Biblioteca Engenharia Processamento Técnico (biengproc@ufba.br) on 2023-10-06T12:45:48Z (GMT) No. of bitstreams: 2 my_thesis_VH_impressao.pdf: 30126146 bytes, checksum: 95889f082460115d9825e82400b14e79 (MD5) license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)Made available in DSpace on 2023-10-06T12:45:48Z (GMT). No. of bitstreams: 2 my_thesis_VH_impressao.pdf: 30126146 bytes, checksum: 95889f082460115d9825e82400b14e79 (MD5) license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) Previous issue date: 2023-06-09engUniversidade Federal da BahiaPrograma de Pós-Graduação em Mecatrônica da UFBA (PPGM) UFBABrasilInstituto de Computação - ICAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessVideo object segmentationSuperpixel segmentationConvolutional neural networksCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO::ARQUITETURA DE SISTEMAS DE COMPUTACAOSegmentação de objetos em vídeoSegmentação por superpixelsRedes neurais convolucionaisIntroducing a self-supervised, superfeature-based network for Video object segmentationDoutoradoinfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/publishedVersionOliveira, Luciano Rebouças dehttps://orcid.org/0000-0001-7183-8853http://lattes.cnpq.br/0372650483087124Oliveira, Luciano Rebouças dehttps://orcid.org/0000-0001-7183-8853http://lattes.cnpq.br/5034444360451621Luz, Eduardo José da Silvahttp://lattes.cnpq.br/5034444360451621Moreira, Gladston Juliano Prateshttp://lattes.cnpq.br/5034444360451621Santos, Thiago Oliveira doshttp://lattes.cnpq.br/5034444360451621Calumby, Rodrigo Tripodihttp://lattes.cnpq.br/5034444360451621https://orcid.org/0000-0002-0404-2158http://lattes.cnpq.br/4271397173667661Santos, Marcelo Mendonça dosreponame:Repositório Institucional da UFBAinstname:Universidade Federal da Bahia (UFBA)instacron:UFBATEXTmy_thesis_VH_impressao.pdf.txtmy_thesis_VH_impressao.pdf.txtExtracted texttext/plain268792https://repositorio.ufba.br/bitstream/ri/37993/4/my_thesis_VH_impressao.pdf.txta686e15fd92dab788504cdcaa65a21e7MD54ORIGINALmy_thesis_VH_impressao.pdfmy_thesis_VH_impressao.pdfapplication/pdf30126146https://repositorio.ufba.br/bitstream/ri/37993/1/my_thesis_VH_impressao.pdf95889f082460115d9825e82400b14e79MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufba.br/bitstream/ri/37993/2/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD52LICENSElicense.txtlicense.txttext/plain1715https://repositorio.ufba.br/bitstream/ri/37993/3/license.txt67bf4f75790b0d8d38d8f112a48ad90bMD53ri/379932023-10-07 02:04:45.164oai:repositorio.ufba.br:ri/37993TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKCkNvbSBhIGFwcmVzZW50YcOnw6NvIGRlc3RhIGxpY2Vuw6dhLCBvIGF1dG9yIG91IHRpdHVsYXIgZG9zIGRpcmVpdG9zIGRlIGF1dG9yIGNvbmNlZGUgYW8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgbyBkaXJlaXRvIG7Do28tZXhjbHVzaXZvIGRlIHJlcHJvZHV6aXIsICB0cmFkdXppciAoY29uZm9ybWUgZGVmaW5pZG8gYWJhaXhvKSBlL291IGRpc3RyaWJ1aXIgYSBzdWEgcHVibGljYcOnw6NvIChpbmNsdWluZG8gbyByZXN1bW8pIG5vIGZvcm1hdG8gaW1wcmVzc28gZS9vdSBlbGV0csO0bmljbyBlIGVtIHF1YWxxdWVyIG1laW8sIGluY2x1aW5kbyBvcyAKZm9ybWF0b3Mgw6F1ZGlvIGUvb3UgdsOtZGVvLgoKTyBhdXRvciBvdSB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvciBjb25jb3JkYSBxdWUgbyBSZXBvc2l0w7NyaW8gcG9kZSwgc2VtIGFsdGVyYXIgbyBjb250ZcO6ZG8sIHRyYW5zcG9yIGEgc3VhIHB1YmxpY2HDp8OjbyBwYXJhIHF1YWxxdWVyIG1laW8gZS9vdSBmb3JtYXRvIHBhcmEgZmlucyBkZSBwcmVzZXJ2YcOnw6NvLCBwb2RlbmRvIG1hbnRlciBtYWlzIGRlIHVtYSBjw7NwaWEgIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrdXAgZSBwcmVzZXJ2YcOnw6NvLgoKTyBhdXRvciBvdSB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvciBkZWNsYXJhIHF1ZSBhIHN1YSBwdWJsaWNhw6fDo28gw6kgb3JpZ2luYWwgZSBxdWUgbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCgpDYXNvIGEgc3VhIHB1YmxpY2HDp8OjbyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiBkZWNsYXJhIHF1ZSBvYnRldmUgYSBwZXJtaXNzw6NvIGlycmVzdHJpdGEgZG8gZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIHBhcmEgY29uY2VkZXIgYW8gUmVwb3NpdMOzcmlvIG9zIGRpcmVpdG9zIGFwcmVzZW50YWRvcyBuZXN0YSBsaWNlbsOnYSBlIHF1ZSBlc3NlIG1hdGVyaWFsIGRlIHByb3ByaWVkYWRlIGRlIHRlcmNlaXJvcyBlc3TDoSBjbGFyYW1lbnRlIGlkZW50aWZpY2FkbyBlIHJlY29uaGVjaWRvIG5vIHRleHRvIG91IG5vIGNvbnRlw7pkbyBkYSBwdWJsaWNhw6fDo28gb3JhIGRlcG9zaXRhZGEuCgpDQVNPIEEgUFVCTElDQcOHw4NPIE9SQSBERVBPU0lUQURBICBSRVNVTFRFIERFIFVNIFBBVFJPQ8ONTklPIE9VIEFQT0lPIERFIFVNQSAgQUfDik5DSUEgREUgRk9NRU5UTyBPVSBPVVRSTyAKT1JHQU5JU01PLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08sIENPTU8gVEFNQsOJTSBBUyBERU1BSVMgT0JSSUdBw4fDlUVTIApFWElHSURBUyBQT1IgQ09OVFJBVE8gT1UgQUNPUkRPLgoKTyBSZXBvc2l0w7NyaW8gc2UgY29tcHJvbWV0ZSBhIGlkZW50aWZpY2FyLCBjbGFyYW1lbnRlLCBvIHNldSBub21lIChzKSBvdSBvKHMpIG5vbWUocykgZG8ocykgZGV0ZW50b3IoZXMpIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBkYSBwdWJsaWNhw6fDo28gZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvLCBhbMOpbSBkYXF1ZWxhcyBjb25jZWRpZGFzIHBvciBlc3RhIGxpY2Vuw6dhLgo=Repositório InstitucionalPUBhttps://repositorio.ufba.br/oai/requestrepositorio@ufba.bropendoar:19322023-10-07T05:04:45Repositório Institucional da UFBA - Universidade Federal da Bahia (UFBA)false |
| dc.title.pt_BR.fl_str_mv |
Introducing a self-supervised, superfeature-based network for Video object segmentation |
| title |
Introducing a self-supervised, superfeature-based network for Video object segmentation |
| spellingShingle |
Introducing a self-supervised, superfeature-based network for Video object segmentation Santos, Marcelo Mendonça dos CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO::ARQUITETURA DE SISTEMAS DE COMPUTACAO Segmentação de objetos em vídeo Segmentação por superpixels Redes neurais convolucionais Video object segmentation Superpixel segmentation Convolutional neural networks |
| title_short |
Introducing a self-supervised, superfeature-based network for Video object segmentation |
| title_full |
Introducing a self-supervised, superfeature-based network for Video object segmentation |
| title_fullStr |
Introducing a self-supervised, superfeature-based network for Video object segmentation |
| title_full_unstemmed |
Introducing a self-supervised, superfeature-based network for Video object segmentation |
| title_sort |
Introducing a self-supervised, superfeature-based network for Video object segmentation |
| author |
Santos, Marcelo Mendonça dos |
| author_facet |
Santos, Marcelo Mendonça dos |
| author_role |
author |
| dc.contributor.advisor1.fl_str_mv |
Oliveira, Luciano Rebouças de |
| dc.contributor.advisor1ID.fl_str_mv |
https://orcid.org/0000-0001-7183-8853 |
| dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/0372650483087124 |
| dc.contributor.referee1.fl_str_mv |
Oliveira, Luciano Rebouças de |
| dc.contributor.referee1ID.fl_str_mv |
https://orcid.org/0000-0001-7183-8853 |
| dc.contributor.referee1Lattes.fl_str_mv |
http://lattes.cnpq.br/5034444360451621 |
| dc.contributor.referee2.fl_str_mv |
Luz, Eduardo José da Silva |
| dc.contributor.referee2Lattes.fl_str_mv |
http://lattes.cnpq.br/5034444360451621 |
| dc.contributor.referee3.fl_str_mv |
Moreira, Gladston Juliano Prates |
| dc.contributor.referee3Lattes.fl_str_mv |
http://lattes.cnpq.br/5034444360451621 |
| dc.contributor.referee4.fl_str_mv |
Santos, Thiago Oliveira dos |
| dc.contributor.referee4Lattes.fl_str_mv |
http://lattes.cnpq.br/5034444360451621 |
| dc.contributor.referee5.fl_str_mv |
Calumby, Rodrigo Tripodi |
| dc.contributor.referee5Lattes.fl_str_mv |
http://lattes.cnpq.br/5034444360451621 |
| dc.contributor.authorID.fl_str_mv |
https://orcid.org/0000-0002-0404-2158 |
| dc.contributor.authorLattes.fl_str_mv |
http://lattes.cnpq.br/4271397173667661 |
| dc.contributor.author.fl_str_mv |
Santos, Marcelo Mendonça dos |
| contributor_str_mv |
Oliveira, Luciano Rebouças de Oliveira, Luciano Rebouças de Luz, Eduardo José da Silva Moreira, Gladston Juliano Prates Santos, Thiago Oliveira dos Calumby, Rodrigo Tripodi |
| dc.subject.cnpq.fl_str_mv |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO::ARQUITETURA DE SISTEMAS DE COMPUTACAO |
| topic |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO::ARQUITETURA DE SISTEMAS DE COMPUTACAO Segmentação de objetos em vídeo Segmentação por superpixels Redes neurais convolucionais Video object segmentation Superpixel segmentation Convolutional neural networks |
| dc.subject.por.fl_str_mv |
Segmentação de objetos em vídeo Segmentação por superpixels Redes neurais convolucionais |
| dc.subject.other.pt_BR.fl_str_mv |
Video object segmentation Superpixel segmentation Convolutional neural networks |
| description |
A segmentação de objetos em vídeo (VOS) é uma tarefa complexa de visão computacional que envolve a identificação e separação de pixels em uma sequência de vídeo com base em regiões, que podem ser o plano de fundo ou primeiro plano, ou mesmo objetos específicos dentro da cena. A tarefa deve ser realizada de forma consistente ao longo da sequência, garantindo que o mesmo objeto ou região receba o mesmo rótulo em todos os quadros. Avanços recentes em técnicas de aprendizado profundo e datasets de alta definição tem levado a avanços significativos na área de VOS. Métodos modernos podem lidar com cenários de vídeo complexos, incluindo múltiplos objetos em movimento em fundos dinâmicos. No entanto, esses métodos são altamente dependentes de datasets anotados manualmente, que podem ser caros e demorados para serem criados. Alternativamente, métodos auto-supervisionados têm sido propostos para eliminar a necessidade de anotações manuais durante o treinamento. Esses métodos utilizam propriedades intrínsecas de vídeos, como a coerência temporal entre quadros, para gerar um sinal de supervisão para o treinamento sem intervenção humana. A desvantagem é que os métodos auto-supervisionados muitas vezes exigem extensos datasets de treinamento para aprender efetivamente a tarefa de VOS sem supervisão. Neste trabalho, propomos Superfeatures in a Highly Compressed Latent Space (SHLS), um novo método de VOS auto-supervisionado que dispensa anotações manuais e reduz substancialmente a demanda por dados de treinamento. Usando uma abordagem de aprendizado de métrica, o SHLS combina superpixels e recursos de aprendizado profundo, permitindo-nos aprender a tarefa de VOS a partir de um pequeno datasets de imagens estáticas não rotuladas. Nossa solução é construída sobre Iterative over-Segmentation via Edge Clustering (ISEC), nosso eficiente método de superpixels que fornece o mesmo nível de precisão de segmentação que os principais algoritmos de superpixels, enquanto gera significativamente menos superpixels. Isso é especialmente útil para o processamento de vídeos, onde o número de pixels aumenta ao longo do tempo. Nosso método SHLS incorpora features convolucionais dos pixels nas áreas dos superpixels correspondentes, resultando em representações de imagem ultra-compactas chamadas de superfeatures. As superfeatures compõem um espaço latente onde as informações do objeto são armazenadas, recuperadas e classificadas de forma eficiente ao longo da sequência de quadros. Realizamos uma série de experimentos nos datasets de VOS mais populares e observamos resultados competitivos. Comparado aos métodos auto-supervisionados do estado-da-arte, o SHLS alcança a melhor performance no teste de segmentação de objeto único do dataset DAVIS-2016 e ocupa uma das cinco melhores posições no teste de multi-objetos do DAVIS-2017. Notavelmente, nosso método foi treinado com apenas 10.000 imagens estáticas, destacando-se dos outros métodos auto-supervisionados, que exigem datasets de vídeo muito maiores. De modo geral, nosso método proposto representa um avanço significativo na segmentação de objetos em vídeo auto-supervisionada, oferecendo uma alternativa eficiente e eficaz às anotações manuais e reduzindo significativamente a demanda por dados de treinamento. |
| publishDate |
2023 |
| dc.date.accessioned.fl_str_mv |
2023-10-06T12:45:48Z |
| dc.date.available.fl_str_mv |
2023-10-06T12:45:48Z |
| dc.date.issued.fl_str_mv |
2023-06-09 |
| dc.type.driver.fl_str_mv |
Doutorado info:eu-repo/semantics/doctoralThesis |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| format |
doctoralThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://repositorio.ufba.br/handle/ri/37993 |
| url |
https://repositorio.ufba.br/handle/ri/37993 |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
| eu_rights_str_mv |
openAccess |
| dc.publisher.none.fl_str_mv |
Universidade Federal da Bahia |
| dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Mecatrônica da UFBA (PPGM) |
| dc.publisher.initials.fl_str_mv |
UFBA |
| dc.publisher.country.fl_str_mv |
Brasil |
| dc.publisher.department.fl_str_mv |
Instituto de Computação - IC |
| publisher.none.fl_str_mv |
Universidade Federal da Bahia |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFBA instname:Universidade Federal da Bahia (UFBA) instacron:UFBA |
| instname_str |
Universidade Federal da Bahia (UFBA) |
| instacron_str |
UFBA |
| institution |
UFBA |
| reponame_str |
Repositório Institucional da UFBA |
| collection |
Repositório Institucional da UFBA |
| bitstream.url.fl_str_mv |
https://repositorio.ufba.br/bitstream/ri/37993/4/my_thesis_VH_impressao.pdf.txt https://repositorio.ufba.br/bitstream/ri/37993/1/my_thesis_VH_impressao.pdf https://repositorio.ufba.br/bitstream/ri/37993/2/license_rdf https://repositorio.ufba.br/bitstream/ri/37993/3/license.txt |
| bitstream.checksum.fl_str_mv |
a686e15fd92dab788504cdcaa65a21e7 95889f082460115d9825e82400b14e79 e39d27027a6cc9cb039ad269a5db8e34 67bf4f75790b0d8d38d8f112a48ad90b |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositório Institucional da UFBA - Universidade Federal da Bahia (UFBA) |
| repository.mail.fl_str_mv |
repositorio@ufba.br |
| _version_ |
1847342274087747584 |