Modelo neural fracamente supervisionado de busca de especialistas em repositório de dados científicos

Detalhes bibliográficos
Ano de defesa: 2021
Autor(a) principal: Sousa, Sérgio José de
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Centro Federal de Educação Tecnológica de Minas Gerais
Programa de Pós-Graduação em Modelagem Matemática e Computacional.
Brasil
CEFET-MG
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.cefetmg.br//handle/123456789/1196
Resumo: Com o crescente volume de dados produzidos nos dias atuais, percebe-se cada vez mais usuários utilizando de diversos tipos de sistemas, como, por exemplo, sistemas de armazenamento de dados profissionais e acadêmicos. Dada a grande quantidade de dados armazenados, é notável a dificuldade de se encontrar candidatos com perfis apropriados a uma determinada atividade. Neste contexto, para tentar solucionar esse problema surge a recuperação ou busca de especialistas, um ramo da recuperação de informações, que consiste em, dada uma consulta, documentos são recuperados e são relacionados como unidades indiretas de informações das especialidades dos candidatos, com isso, alguma técnica é usada para agregar esses documentos gerando um escore. Possuindo um número menor de pesquisas relacionadas, a busca de especialistas na área acadêmica com modelos neurais se mostra um desafio ainda maior devido à complexidade desses modelos e à necessidade de grandes volumes de dados com julgamentos de relevância ou rótulos para seu treinamento. Diante disso, este trabalho propõe uma técnica de expansão e geração de dados fracamente supervisionados onde os julgamentos de relevância são criados com técnicas heurísticas, tornando possível utilizar modelos que exigem grandes volumes de dados. Além disso, é proposto uma técnica utilizando autoencoder profundo para selecionar documentos negativos ou julgamentos de irrelevância e por fim um modelo de ranqueamento baseado em redes recorrentes denominado Dual Embedding LSTM que foi capaz de superar todos os baselines comparados.
id CEFETMG_28e6dd04535cdff8a6c0d9615f7778f2
oai_identifier_str oai:repositorio.cefetmg.br:123456789/1196
network_acronym_str CEFETMG
network_name_str Repositório Institucional do CEFET-MG
repository_id_str
spelling Modelo neural fracamente supervisionado de busca de especialistas em repositório de dados científicosClassificaçãoCurriculum vitaeProcessamento de dadosPlataforma LattesArquivamento e recuperação de informaçãoCom o crescente volume de dados produzidos nos dias atuais, percebe-se cada vez mais usuários utilizando de diversos tipos de sistemas, como, por exemplo, sistemas de armazenamento de dados profissionais e acadêmicos. Dada a grande quantidade de dados armazenados, é notável a dificuldade de se encontrar candidatos com perfis apropriados a uma determinada atividade. Neste contexto, para tentar solucionar esse problema surge a recuperação ou busca de especialistas, um ramo da recuperação de informações, que consiste em, dada uma consulta, documentos são recuperados e são relacionados como unidades indiretas de informações das especialidades dos candidatos, com isso, alguma técnica é usada para agregar esses documentos gerando um escore. Possuindo um número menor de pesquisas relacionadas, a busca de especialistas na área acadêmica com modelos neurais se mostra um desafio ainda maior devido à complexidade desses modelos e à necessidade de grandes volumes de dados com julgamentos de relevância ou rótulos para seu treinamento. Diante disso, este trabalho propõe uma técnica de expansão e geração de dados fracamente supervisionados onde os julgamentos de relevância são criados com técnicas heurísticas, tornando possível utilizar modelos que exigem grandes volumes de dados. Além disso, é proposto uma técnica utilizando autoencoder profundo para selecionar documentos negativos ou julgamentos de irrelevância e por fim um modelo de ranqueamento baseado em redes recorrentes denominado Dual Embedding LSTM que foi capaz de superar todos os baselines comparados.With the growing volume of data produced today, it is clear that more and more users are using different types of systems, such as, for example, professional and academic data storage systems. Given the large amount of stored data, the difficulty of finding candidates with appropriate profiles for a particular activity is noteworthy. In this context, to try to solve this problem comes the expertise retrieval, a branch of information retrieval, which consists of, given a query, documents are recovered and used as indirect units of information for the candidates and some aggregation techniques are used in these documents to generate a score to the candidate. There are several models and techniques to work with this problem, some have been tested extensively but the search for specialists in the academic field with neural models has a smaller amount of research, this fact is due to the complexity of these models and the need for large volumes of data with judgments of relevance or labeled for your training. Therefore, this work proposes a technique of expansion and generation of weak supervised data where the relevance judgments are created with heuristic techniques, making it possible to use models that require large volumes of data. In addition, is proposed a technique of deep auto-encoder to select negative documents and finally a ranking model based on recurrent neural networks that was able to overcome all the baselines compared.Centro Federal de Educação Tecnológica de Minas GeraisPrograma de Pós-Graduação em Modelagem Matemática e Computacional.BrasilCEFET-MGDias, Thiago Magela RodriguesPinto, Adilson Luizhttp://lattes.cnpq.br/4687858846001290http://lattes.cnpq.br/1639967799540564http://lattes.cnpq.br/4767432940301118Dias, Thiago Magela RodriguesPinto, Adilson LuizCarvalho Segundo, Washington Luis Roberto deRodrigues, Thiago de SouzaSousa, Sérgio José de2025-04-14T23:42:49Z2021-08-312025-04-14T23:42:49Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://repositorio.cefetmg.br//handle/123456789/1196porreponame:Repositório Institucional do CEFET-MGinstname:Centro Federal de Educação Tecnológica de Minas Gerais (CEFET-MG)instacron:CEFETinfo:eu-repo/semantics/openAccess2026-03-31T14:37:46Zoai:repositorio.cefetmg.br:123456789/1196Repositório InstitucionalPUBhttps://repositorio.cefetmg.br/server/oai/requestrepositorio@cefetmg.bropendoar:2026-03-31T14:37:46Repositório Institucional do CEFET-MG - Centro Federal de Educação Tecnológica de Minas Gerais (CEFET-MG)false
dc.title.none.fl_str_mv Modelo neural fracamente supervisionado de busca de especialistas em repositório de dados científicos
title Modelo neural fracamente supervisionado de busca de especialistas em repositório de dados científicos
spellingShingle Modelo neural fracamente supervisionado de busca de especialistas em repositório de dados científicos
Sousa, Sérgio José de
Classificação
Curriculum vitae
Processamento de dados
Plataforma Lattes
Arquivamento e recuperação de informação
title_short Modelo neural fracamente supervisionado de busca de especialistas em repositório de dados científicos
title_full Modelo neural fracamente supervisionado de busca de especialistas em repositório de dados científicos
title_fullStr Modelo neural fracamente supervisionado de busca de especialistas em repositório de dados científicos
title_full_unstemmed Modelo neural fracamente supervisionado de busca de especialistas em repositório de dados científicos
title_sort Modelo neural fracamente supervisionado de busca de especialistas em repositório de dados científicos
author Sousa, Sérgio José de
author_facet Sousa, Sérgio José de
author_role author
dc.contributor.none.fl_str_mv Dias, Thiago Magela Rodrigues
Pinto, Adilson Luiz
http://lattes.cnpq.br/4687858846001290
http://lattes.cnpq.br/1639967799540564
http://lattes.cnpq.br/4767432940301118
Dias, Thiago Magela Rodrigues
Pinto, Adilson Luiz
Carvalho Segundo, Washington Luis Roberto de
Rodrigues, Thiago de Souza
dc.contributor.author.fl_str_mv Sousa, Sérgio José de
dc.subject.por.fl_str_mv Classificação
Curriculum vitae
Processamento de dados
Plataforma Lattes
Arquivamento e recuperação de informação
topic Classificação
Curriculum vitae
Processamento de dados
Plataforma Lattes
Arquivamento e recuperação de informação
description Com o crescente volume de dados produzidos nos dias atuais, percebe-se cada vez mais usuários utilizando de diversos tipos de sistemas, como, por exemplo, sistemas de armazenamento de dados profissionais e acadêmicos. Dada a grande quantidade de dados armazenados, é notável a dificuldade de se encontrar candidatos com perfis apropriados a uma determinada atividade. Neste contexto, para tentar solucionar esse problema surge a recuperação ou busca de especialistas, um ramo da recuperação de informações, que consiste em, dada uma consulta, documentos são recuperados e são relacionados como unidades indiretas de informações das especialidades dos candidatos, com isso, alguma técnica é usada para agregar esses documentos gerando um escore. Possuindo um número menor de pesquisas relacionadas, a busca de especialistas na área acadêmica com modelos neurais se mostra um desafio ainda maior devido à complexidade desses modelos e à necessidade de grandes volumes de dados com julgamentos de relevância ou rótulos para seu treinamento. Diante disso, este trabalho propõe uma técnica de expansão e geração de dados fracamente supervisionados onde os julgamentos de relevância são criados com técnicas heurísticas, tornando possível utilizar modelos que exigem grandes volumes de dados. Além disso, é proposto uma técnica utilizando autoencoder profundo para selecionar documentos negativos ou julgamentos de irrelevância e por fim um modelo de ranqueamento baseado em redes recorrentes denominado Dual Embedding LSTM que foi capaz de superar todos os baselines comparados.
publishDate 2021
dc.date.none.fl_str_mv 2021-08-31
2025-04-14T23:42:49Z
2025-04-14T23:42:49Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.cefetmg.br//handle/123456789/1196
url https://repositorio.cefetmg.br//handle/123456789/1196
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Centro Federal de Educação Tecnológica de Minas Gerais
Programa de Pós-Graduação em Modelagem Matemática e Computacional.
Brasil
CEFET-MG
publisher.none.fl_str_mv Centro Federal de Educação Tecnológica de Minas Gerais
Programa de Pós-Graduação em Modelagem Matemática e Computacional.
Brasil
CEFET-MG
dc.source.none.fl_str_mv reponame:Repositório Institucional do CEFET-MG
instname:Centro Federal de Educação Tecnológica de Minas Gerais (CEFET-MG)
instacron:CEFET
instname_str Centro Federal de Educação Tecnológica de Minas Gerais (CEFET-MG)
instacron_str CEFET
institution CEFET
reponame_str Repositório Institucional do CEFET-MG
collection Repositório Institucional do CEFET-MG
repository.name.fl_str_mv Repositório Institucional do CEFET-MG - Centro Federal de Educação Tecnológica de Minas Gerais (CEFET-MG)
repository.mail.fl_str_mv repositorio@cefetmg.br
_version_ 1863183900521529344