Modelo neural fracamente supervisionado de busca de especialistas em repositório de dados científicos
| Ano de defesa: | 2021 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Centro Federal de Educação Tecnológica de Minas Gerais
Programa de Pós-Graduação em Modelagem Matemática e Computacional. Brasil CEFET-MG |
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://repositorio.cefetmg.br//handle/123456789/1196 |
Resumo: | Com o crescente volume de dados produzidos nos dias atuais, percebe-se cada vez mais usuários utilizando de diversos tipos de sistemas, como, por exemplo, sistemas de armazenamento de dados profissionais e acadêmicos. Dada a grande quantidade de dados armazenados, é notável a dificuldade de se encontrar candidatos com perfis apropriados a uma determinada atividade. Neste contexto, para tentar solucionar esse problema surge a recuperação ou busca de especialistas, um ramo da recuperação de informações, que consiste em, dada uma consulta, documentos são recuperados e são relacionados como unidades indiretas de informações das especialidades dos candidatos, com isso, alguma técnica é usada para agregar esses documentos gerando um escore. Possuindo um número menor de pesquisas relacionadas, a busca de especialistas na área acadêmica com modelos neurais se mostra um desafio ainda maior devido à complexidade desses modelos e à necessidade de grandes volumes de dados com julgamentos de relevância ou rótulos para seu treinamento. Diante disso, este trabalho propõe uma técnica de expansão e geração de dados fracamente supervisionados onde os julgamentos de relevância são criados com técnicas heurísticas, tornando possível utilizar modelos que exigem grandes volumes de dados. Além disso, é proposto uma técnica utilizando autoencoder profundo para selecionar documentos negativos ou julgamentos de irrelevância e por fim um modelo de ranqueamento baseado em redes recorrentes denominado Dual Embedding LSTM que foi capaz de superar todos os baselines comparados. |
| id |
CEFETMG_28e6dd04535cdff8a6c0d9615f7778f2 |
|---|---|
| oai_identifier_str |
oai:repositorio.cefetmg.br:123456789/1196 |
| network_acronym_str |
CEFETMG |
| network_name_str |
Repositório Institucional do CEFET-MG |
| repository_id_str |
|
| spelling |
Modelo neural fracamente supervisionado de busca de especialistas em repositório de dados científicosClassificaçãoCurriculum vitaeProcessamento de dadosPlataforma LattesArquivamento e recuperação de informaçãoCom o crescente volume de dados produzidos nos dias atuais, percebe-se cada vez mais usuários utilizando de diversos tipos de sistemas, como, por exemplo, sistemas de armazenamento de dados profissionais e acadêmicos. Dada a grande quantidade de dados armazenados, é notável a dificuldade de se encontrar candidatos com perfis apropriados a uma determinada atividade. Neste contexto, para tentar solucionar esse problema surge a recuperação ou busca de especialistas, um ramo da recuperação de informações, que consiste em, dada uma consulta, documentos são recuperados e são relacionados como unidades indiretas de informações das especialidades dos candidatos, com isso, alguma técnica é usada para agregar esses documentos gerando um escore. Possuindo um número menor de pesquisas relacionadas, a busca de especialistas na área acadêmica com modelos neurais se mostra um desafio ainda maior devido à complexidade desses modelos e à necessidade de grandes volumes de dados com julgamentos de relevância ou rótulos para seu treinamento. Diante disso, este trabalho propõe uma técnica de expansão e geração de dados fracamente supervisionados onde os julgamentos de relevância são criados com técnicas heurísticas, tornando possível utilizar modelos que exigem grandes volumes de dados. Além disso, é proposto uma técnica utilizando autoencoder profundo para selecionar documentos negativos ou julgamentos de irrelevância e por fim um modelo de ranqueamento baseado em redes recorrentes denominado Dual Embedding LSTM que foi capaz de superar todos os baselines comparados.With the growing volume of data produced today, it is clear that more and more users are using different types of systems, such as, for example, professional and academic data storage systems. Given the large amount of stored data, the difficulty of finding candidates with appropriate profiles for a particular activity is noteworthy. In this context, to try to solve this problem comes the expertise retrieval, a branch of information retrieval, which consists of, given a query, documents are recovered and used as indirect units of information for the candidates and some aggregation techniques are used in these documents to generate a score to the candidate. There are several models and techniques to work with this problem, some have been tested extensively but the search for specialists in the academic field with neural models has a smaller amount of research, this fact is due to the complexity of these models and the need for large volumes of data with judgments of relevance or labeled for your training. Therefore, this work proposes a technique of expansion and generation of weak supervised data where the relevance judgments are created with heuristic techniques, making it possible to use models that require large volumes of data. In addition, is proposed a technique of deep auto-encoder to select negative documents and finally a ranking model based on recurrent neural networks that was able to overcome all the baselines compared.Centro Federal de Educação Tecnológica de Minas GeraisPrograma de Pós-Graduação em Modelagem Matemática e Computacional.BrasilCEFET-MGDias, Thiago Magela RodriguesPinto, Adilson Luizhttp://lattes.cnpq.br/4687858846001290http://lattes.cnpq.br/1639967799540564http://lattes.cnpq.br/4767432940301118Dias, Thiago Magela RodriguesPinto, Adilson LuizCarvalho Segundo, Washington Luis Roberto deRodrigues, Thiago de SouzaSousa, Sérgio José de2025-04-14T23:42:49Z2021-08-312025-04-14T23:42:49Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://repositorio.cefetmg.br//handle/123456789/1196porreponame:Repositório Institucional do CEFET-MGinstname:Centro Federal de Educação Tecnológica de Minas Gerais (CEFET-MG)instacron:CEFETinfo:eu-repo/semantics/openAccess2026-03-31T14:37:46Zoai:repositorio.cefetmg.br:123456789/1196Repositório InstitucionalPUBhttps://repositorio.cefetmg.br/server/oai/requestrepositorio@cefetmg.bropendoar:2026-03-31T14:37:46Repositório Institucional do CEFET-MG - Centro Federal de Educação Tecnológica de Minas Gerais (CEFET-MG)false |
| dc.title.none.fl_str_mv |
Modelo neural fracamente supervisionado de busca de especialistas em repositório de dados científicos |
| title |
Modelo neural fracamente supervisionado de busca de especialistas em repositório de dados científicos |
| spellingShingle |
Modelo neural fracamente supervisionado de busca de especialistas em repositório de dados científicos Sousa, Sérgio José de Classificação Curriculum vitae Processamento de dados Plataforma Lattes Arquivamento e recuperação de informação |
| title_short |
Modelo neural fracamente supervisionado de busca de especialistas em repositório de dados científicos |
| title_full |
Modelo neural fracamente supervisionado de busca de especialistas em repositório de dados científicos |
| title_fullStr |
Modelo neural fracamente supervisionado de busca de especialistas em repositório de dados científicos |
| title_full_unstemmed |
Modelo neural fracamente supervisionado de busca de especialistas em repositório de dados científicos |
| title_sort |
Modelo neural fracamente supervisionado de busca de especialistas em repositório de dados científicos |
| author |
Sousa, Sérgio José de |
| author_facet |
Sousa, Sérgio José de |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Dias, Thiago Magela Rodrigues Pinto, Adilson Luiz http://lattes.cnpq.br/4687858846001290 http://lattes.cnpq.br/1639967799540564 http://lattes.cnpq.br/4767432940301118 Dias, Thiago Magela Rodrigues Pinto, Adilson Luiz Carvalho Segundo, Washington Luis Roberto de Rodrigues, Thiago de Souza |
| dc.contributor.author.fl_str_mv |
Sousa, Sérgio José de |
| dc.subject.por.fl_str_mv |
Classificação Curriculum vitae Processamento de dados Plataforma Lattes Arquivamento e recuperação de informação |
| topic |
Classificação Curriculum vitae Processamento de dados Plataforma Lattes Arquivamento e recuperação de informação |
| description |
Com o crescente volume de dados produzidos nos dias atuais, percebe-se cada vez mais usuários utilizando de diversos tipos de sistemas, como, por exemplo, sistemas de armazenamento de dados profissionais e acadêmicos. Dada a grande quantidade de dados armazenados, é notável a dificuldade de se encontrar candidatos com perfis apropriados a uma determinada atividade. Neste contexto, para tentar solucionar esse problema surge a recuperação ou busca de especialistas, um ramo da recuperação de informações, que consiste em, dada uma consulta, documentos são recuperados e são relacionados como unidades indiretas de informações das especialidades dos candidatos, com isso, alguma técnica é usada para agregar esses documentos gerando um escore. Possuindo um número menor de pesquisas relacionadas, a busca de especialistas na área acadêmica com modelos neurais se mostra um desafio ainda maior devido à complexidade desses modelos e à necessidade de grandes volumes de dados com julgamentos de relevância ou rótulos para seu treinamento. Diante disso, este trabalho propõe uma técnica de expansão e geração de dados fracamente supervisionados onde os julgamentos de relevância são criados com técnicas heurísticas, tornando possível utilizar modelos que exigem grandes volumes de dados. Além disso, é proposto uma técnica utilizando autoencoder profundo para selecionar documentos negativos ou julgamentos de irrelevância e por fim um modelo de ranqueamento baseado em redes recorrentes denominado Dual Embedding LSTM que foi capaz de superar todos os baselines comparados. |
| publishDate |
2021 |
| dc.date.none.fl_str_mv |
2021-08-31 2025-04-14T23:42:49Z 2025-04-14T23:42:49Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://repositorio.cefetmg.br//handle/123456789/1196 |
| url |
https://repositorio.cefetmg.br//handle/123456789/1196 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Centro Federal de Educação Tecnológica de Minas Gerais Programa de Pós-Graduação em Modelagem Matemática e Computacional. Brasil CEFET-MG |
| publisher.none.fl_str_mv |
Centro Federal de Educação Tecnológica de Minas Gerais Programa de Pós-Graduação em Modelagem Matemática e Computacional. Brasil CEFET-MG |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional do CEFET-MG instname:Centro Federal de Educação Tecnológica de Minas Gerais (CEFET-MG) instacron:CEFET |
| instname_str |
Centro Federal de Educação Tecnológica de Minas Gerais (CEFET-MG) |
| instacron_str |
CEFET |
| institution |
CEFET |
| reponame_str |
Repositório Institucional do CEFET-MG |
| collection |
Repositório Institucional do CEFET-MG |
| repository.name.fl_str_mv |
Repositório Institucional do CEFET-MG - Centro Federal de Educação Tecnológica de Minas Gerais (CEFET-MG) |
| repository.mail.fl_str_mv |
repositorio@cefetmg.br |
| _version_ |
1863183900521529344 |