Transferindo conhecimento de textos para imagens através da aprendizagem das características semânticas

Detalhes bibliográficos
Ano de defesa: 2018
Autor(a) principal: WANDERLEY, Miguel Domingos de Santana
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Pernambuco
UFPE
Brasil
Programa de Pos Graduacao em Ciencia da Computacao
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpe.br/handle/123456789/32483
Resumo: Redes neurais profundas vem mostrando um expressivo desempenho em tarefas de reconhecimento de imagens. Dentre as principais técnicas de redes neurais profundas, destacam-se as redes neurais convolucionais, as quais apresentam a capacidade de aprender características de alto nível em imagens, considerando o aspecto espacial das mesmas. A profundidade das redes neurais convolucionais permite que características de baixo nível sejam combinadas em características de mais alta complexidade, gradativamente, até que imagens possam ser codificadas em características de alto nível. Dentre as atividades de reconhecimento de imagens podemos mencionar a classificação de imagens, detecção de objetos e segmentação de imagens. No entanto, as principais técnicas de redes convolucionais profundas demandam volumes massivos de imagens rotuladas para treinamento, nem sempre disponíveis. Neste contexto, técnicas de transferência de conhecimento vem sendo adotadas para superar a falta de dados rotulados disponíveis para treinamento de modelos em tarefas específicas. De modo geral, transferência de aprendizagem busca utilizar dados disponíveis em quantidades expressivas em um determinado domínio fonte para possibilitar uma aprendizagem mais eficiente de um modelo em dados de um domínio alvo, geralmente mais escasso. Este trabalho apresenta uma nova arquitetura de rede neural profunda com a capacidade de transferir conhecimento de dados textuais associados a imagens (domínio fonte) para auxiliar na atividade de reconhecimento de imagens (domínio alvo). Como componentes a rede proposta utiliza um extrator convolucional de características visuais latentes de imagens (codificador) enquanto um modelo generativo probabilístico é usado para definir tópicos semânticos textuais. Uma combinação de classificadores é então utilizada para estimar tópicos semânticos para novas instâncias de imagens baseada nas características visuais latentes desta instância. Experimentos foram conduzidos para avaliar o quão relacionadas estão as características latentes em ambos os domínios (textual e visual) e ainda verificar a eficácia dos tópicos semânticos preditos pelo modelo proposto na tarefa de classificação de imagens. Resultados promissores foram verificados comparando-se com diferentes abordagens estado da arte neste cenário multimodal heterogêneo.
id UFPE_15025b85a95b945113f1368426dcb284
oai_identifier_str oai:repositorio.ufpe.br:123456789/32483
network_acronym_str UFPE
network_name_str Repositório Institucional da UFPE
repository_id_str
spelling Transferindo conhecimento de textos para imagens através da aprendizagem das características semânticasInteligência artificialRedes neuraisRedes neurais profundas vem mostrando um expressivo desempenho em tarefas de reconhecimento de imagens. Dentre as principais técnicas de redes neurais profundas, destacam-se as redes neurais convolucionais, as quais apresentam a capacidade de aprender características de alto nível em imagens, considerando o aspecto espacial das mesmas. A profundidade das redes neurais convolucionais permite que características de baixo nível sejam combinadas em características de mais alta complexidade, gradativamente, até que imagens possam ser codificadas em características de alto nível. Dentre as atividades de reconhecimento de imagens podemos mencionar a classificação de imagens, detecção de objetos e segmentação de imagens. No entanto, as principais técnicas de redes convolucionais profundas demandam volumes massivos de imagens rotuladas para treinamento, nem sempre disponíveis. Neste contexto, técnicas de transferência de conhecimento vem sendo adotadas para superar a falta de dados rotulados disponíveis para treinamento de modelos em tarefas específicas. De modo geral, transferência de aprendizagem busca utilizar dados disponíveis em quantidades expressivas em um determinado domínio fonte para possibilitar uma aprendizagem mais eficiente de um modelo em dados de um domínio alvo, geralmente mais escasso. Este trabalho apresenta uma nova arquitetura de rede neural profunda com a capacidade de transferir conhecimento de dados textuais associados a imagens (domínio fonte) para auxiliar na atividade de reconhecimento de imagens (domínio alvo). Como componentes a rede proposta utiliza um extrator convolucional de características visuais latentes de imagens (codificador) enquanto um modelo generativo probabilístico é usado para definir tópicos semânticos textuais. Uma combinação de classificadores é então utilizada para estimar tópicos semânticos para novas instâncias de imagens baseada nas características visuais latentes desta instância. Experimentos foram conduzidos para avaliar o quão relacionadas estão as características latentes em ambos os domínios (textual e visual) e ainda verificar a eficácia dos tópicos semânticos preditos pelo modelo proposto na tarefa de classificação de imagens. Resultados promissores foram verificados comparando-se com diferentes abordagens estado da arte neste cenário multimodal heterogêneo.CNPqDeep neural networks have been showing significant performance in image recognition tasks. Among the main techniques of deep neural networks, we highlight the convolutional neural networks, which present the ability to learn high-level features from images, considering the spatial aspect of them. The depth of convolutional neural networks allows low-level features to be combined into features of higher complexity, gradually, until images can be encoded into high-level features. Among the image recognition tasks, we can mention the image classification, objects detection, and images segmentation. However, the main techniques of deep convolutional networks require massive volumes of labeled images for training, not always available. In this context, knowledge transfer techniques have been adopted to overcome the lack of labeled data available for training models for specific tasks. In general, transfer learning seeks to use available data in significant quantities in a particular source domain to enable a more efficient learning of a model in data from a target domain, generally more scarce. This work presents a new deep neural network architecture with the ability to transfer knowledge of textual data (source domain) associated with images (target domain) to assist in image recognition tasks. The proposed network uses as components a convolutional feature extractor (encoder) of latent visual image characteristics, while a generative probabilistic model is used to learn textual semantic topics. An ensemble of classifiers is then used to estimate semantic topics for new instances of images, based on the latent visual features of the test instance. Experiments were conducted to evaluate how related are the embedded features in both domains (textual and visual) and to verify the efficacy of the semantic topics predicted by the proposed model in image classification tasks. Promising results were verified comparing with different state-of-the-art approaches in this heterogeneous multimodal scenario.Universidade Federal de PernambucoUFPEBrasilPrograma de Pos Graduacao em Ciencia da ComputacaoPRUDÊNCIO, Ricardo Bastos Cavalcantehttp://lattes.cnpq.br/1845746149007914http://lattes.cnpq.br/2984888073123287WANDERLEY, Miguel Domingos de Santana2019-09-10T21:26:06Z2019-09-10T21:26:06Z2018-08-21info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://repositorio.ufpe.br/handle/123456789/32483ark:/64986/0013000003q9fporAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPE2019-10-26T07:11:44Zoai:repositorio.ufpe.br:123456789/32483Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212019-10-26T07:11:44Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false
dc.title.none.fl_str_mv Transferindo conhecimento de textos para imagens através da aprendizagem das características semânticas
title Transferindo conhecimento de textos para imagens através da aprendizagem das características semânticas
spellingShingle Transferindo conhecimento de textos para imagens através da aprendizagem das características semânticas
WANDERLEY, Miguel Domingos de Santana
Inteligência artificial
Redes neurais
title_short Transferindo conhecimento de textos para imagens através da aprendizagem das características semânticas
title_full Transferindo conhecimento de textos para imagens através da aprendizagem das características semânticas
title_fullStr Transferindo conhecimento de textos para imagens através da aprendizagem das características semânticas
title_full_unstemmed Transferindo conhecimento de textos para imagens através da aprendizagem das características semânticas
title_sort Transferindo conhecimento de textos para imagens através da aprendizagem das características semânticas
author WANDERLEY, Miguel Domingos de Santana
author_facet WANDERLEY, Miguel Domingos de Santana
author_role author
dc.contributor.none.fl_str_mv PRUDÊNCIO, Ricardo Bastos Cavalcante
http://lattes.cnpq.br/1845746149007914
http://lattes.cnpq.br/2984888073123287
dc.contributor.author.fl_str_mv WANDERLEY, Miguel Domingos de Santana
dc.subject.por.fl_str_mv Inteligência artificial
Redes neurais
topic Inteligência artificial
Redes neurais
description Redes neurais profundas vem mostrando um expressivo desempenho em tarefas de reconhecimento de imagens. Dentre as principais técnicas de redes neurais profundas, destacam-se as redes neurais convolucionais, as quais apresentam a capacidade de aprender características de alto nível em imagens, considerando o aspecto espacial das mesmas. A profundidade das redes neurais convolucionais permite que características de baixo nível sejam combinadas em características de mais alta complexidade, gradativamente, até que imagens possam ser codificadas em características de alto nível. Dentre as atividades de reconhecimento de imagens podemos mencionar a classificação de imagens, detecção de objetos e segmentação de imagens. No entanto, as principais técnicas de redes convolucionais profundas demandam volumes massivos de imagens rotuladas para treinamento, nem sempre disponíveis. Neste contexto, técnicas de transferência de conhecimento vem sendo adotadas para superar a falta de dados rotulados disponíveis para treinamento de modelos em tarefas específicas. De modo geral, transferência de aprendizagem busca utilizar dados disponíveis em quantidades expressivas em um determinado domínio fonte para possibilitar uma aprendizagem mais eficiente de um modelo em dados de um domínio alvo, geralmente mais escasso. Este trabalho apresenta uma nova arquitetura de rede neural profunda com a capacidade de transferir conhecimento de dados textuais associados a imagens (domínio fonte) para auxiliar na atividade de reconhecimento de imagens (domínio alvo). Como componentes a rede proposta utiliza um extrator convolucional de características visuais latentes de imagens (codificador) enquanto um modelo generativo probabilístico é usado para definir tópicos semânticos textuais. Uma combinação de classificadores é então utilizada para estimar tópicos semânticos para novas instâncias de imagens baseada nas características visuais latentes desta instância. Experimentos foram conduzidos para avaliar o quão relacionadas estão as características latentes em ambos os domínios (textual e visual) e ainda verificar a eficácia dos tópicos semânticos preditos pelo modelo proposto na tarefa de classificação de imagens. Resultados promissores foram verificados comparando-se com diferentes abordagens estado da arte neste cenário multimodal heterogêneo.
publishDate 2018
dc.date.none.fl_str_mv 2018-08-21
2019-09-10T21:26:06Z
2019-09-10T21:26:06Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufpe.br/handle/123456789/32483
dc.identifier.dark.fl_str_mv ark:/64986/0013000003q9f
url https://repositorio.ufpe.br/handle/123456789/32483
identifier_str_mv ark:/64986/0013000003q9f
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de Pernambuco
UFPE
Brasil
Programa de Pos Graduacao em Ciencia da Computacao
publisher.none.fl_str_mv Universidade Federal de Pernambuco
UFPE
Brasil
Programa de Pos Graduacao em Ciencia da Computacao
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPE
instname:Universidade Federal de Pernambuco (UFPE)
instacron:UFPE
instname_str Universidade Federal de Pernambuco (UFPE)
instacron_str UFPE
institution UFPE
reponame_str Repositório Institucional da UFPE
collection Repositório Institucional da UFPE
repository.name.fl_str_mv Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)
repository.mail.fl_str_mv attena@ufpe.br
_version_ 1846272771277979648