Construindo grafos de conhecimento em um domínio com recursos limitados.

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Ligabue, Pedro de Moraes
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/3/3141/tde-10072025-072257/
Resumo: Grafos de conhecimento são utilizados em diversas aplicações, tais como sistemas de perguntas e respostas e sistemas recomendadores, em função da sua capacidade de representar relações entre conceitos. Nesta pequisa, nós buscamos desenvolver um sistema capaz de gerar grafos de conhecimento de forma automática a partir de textos em inglês e em português, ao mesmo tempo em que focamos em um contexto de poucos recursos, tanto em termos de capacidade de processamento quando em termos da disponibilidade de dados. Primeiramente, nós descrevemos o CtxKG, nosso método de geração de grafos de conhecimento, o qual é baseado no OpenIE (um método de extração de triplas de relacionamento) e no BERT (um modelo de linguagem) e contém quatro etapas: a extração de triplas de relacionamento diretamente do texto; a identificação de sinônimos entre triplas; a junção de entidades similares; e a construção de pontes entre grafos de conhecimento de documentos diferentes. O CtxKG se distingue de outros trabalhos da literatura (i) através do seu uso da árvore sintática para evitar a geração de entidade repetidas que ocorre com a implementações básicas do OpenIE; e (ii) através das pontes, as quais criam uma rede conectada de grafos, superando uma limitação de métodos similares que apresentam um grafo isolado para cada documento. Nós comparamos o CtxKG com dois outros métodos através da geração de grafos para artigos de filmes na Wikipédia e comparando-os a grafos de referência construídos com o conjunto de dados OMDb. Então, nós descrevemos a versão em português do CtxKG, o PtxKG, o qual, embora seja semelhante em sua estrutura, inclui alterações-chave, especialmente com relação à etapa de extração de triplas de relacionamento, necessárias para adaptar o método ao contexto do português, que não é diferente apenas em função da linguagem, mas também com relação aos recursos de processamento de linguagem natural disponíveis.
id USP_30ea11a1e93f5ac54b3d29ba079c4e68
oai_identifier_str oai:teses.usp.br:tde-10072025-072257
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling Construindo grafos de conhecimento em um domínio com recursos limitados.Building knowledge graphs in a domain with limited resources.Amazonia azulAtlantic OceanBlue AmazonBrazilian coastEngenharia de computaçãoGrafos de conhecimentoKnowledge graphsRelationship triple extractionWord embeddingsGrafos de conhecimento são utilizados em diversas aplicações, tais como sistemas de perguntas e respostas e sistemas recomendadores, em função da sua capacidade de representar relações entre conceitos. Nesta pequisa, nós buscamos desenvolver um sistema capaz de gerar grafos de conhecimento de forma automática a partir de textos em inglês e em português, ao mesmo tempo em que focamos em um contexto de poucos recursos, tanto em termos de capacidade de processamento quando em termos da disponibilidade de dados. Primeiramente, nós descrevemos o CtxKG, nosso método de geração de grafos de conhecimento, o qual é baseado no OpenIE (um método de extração de triplas de relacionamento) e no BERT (um modelo de linguagem) e contém quatro etapas: a extração de triplas de relacionamento diretamente do texto; a identificação de sinônimos entre triplas; a junção de entidades similares; e a construção de pontes entre grafos de conhecimento de documentos diferentes. O CtxKG se distingue de outros trabalhos da literatura (i) através do seu uso da árvore sintática para evitar a geração de entidade repetidas que ocorre com a implementações básicas do OpenIE; e (ii) através das pontes, as quais criam uma rede conectada de grafos, superando uma limitação de métodos similares que apresentam um grafo isolado para cada documento. Nós comparamos o CtxKG com dois outros métodos através da geração de grafos para artigos de filmes na Wikipédia e comparando-os a grafos de referência construídos com o conjunto de dados OMDb. Então, nós descrevemos a versão em português do CtxKG, o PtxKG, o qual, embora seja semelhante em sua estrutura, inclui alterações-chave, especialmente com relação à etapa de extração de triplas de relacionamento, necessárias para adaptar o método ao contexto do português, que não é diferente apenas em função da linguagem, mas também com relação aos recursos de processamento de linguagem natural disponíveis.Knowledge graphs are employed in several applications, such as question answering and recommendation systems, due to their ability to represent relationships between concepts. In this research, we aim to develop a system capable of automatically generating knowledge graphs from text in English and in Portuguese, all while focusing on a context of low resources, both in terms of computation and data availability. First, we describe CtxKG, our knowledge graph generation method, which is based on OpenIE (a relationship triple extraction method) and BERT (a language model) and contains four stages: the extraction of relationship triples directly from text; the identification of synonyms across triples; the merging of similar entities; and the building of bridges between knowledge graphs of different documents. CtxKG distinguishes itself from those in the current literature (i) through its use of the parse tree to avoid the overlapping entities produced by base implementations of OpenIE; and (ii) through its bridges, which create a connected network of graphs, overcoming a limitation similar methods have of one isolated graph per document. We compare CtxKG to two other methods by generating graphs for movie articles from Wikipedia and contrasting them with benchmark graphs built from the OMDb movie database. We then describe the Portuguese version of CtxKG, PtxKG, which, though similar in structure, includes key changes, especially to the relationship triples extraction stage, in order to fit the Portuguese context, not only in terms of the language but also the available NLP resources.Biblioteca Digitais de Teses e Dissertações da USPBrandão, Anarosa Alves FrancoLigabue, Pedro de Moraes2024-07-02info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/3/3141/tde-10072025-072257/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-07-10T10:41:02Zoai:teses.usp.br:tde-10072025-072257Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-07-10T10:41:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Construindo grafos de conhecimento em um domínio com recursos limitados.
Building knowledge graphs in a domain with limited resources.
title Construindo grafos de conhecimento em um domínio com recursos limitados.
spellingShingle Construindo grafos de conhecimento em um domínio com recursos limitados.
Ligabue, Pedro de Moraes
Amazonia azul
Atlantic Ocean
Blue Amazon
Brazilian coast
Engenharia de computação
Grafos de conhecimento
Knowledge graphs
Relationship triple extraction
Word embeddings
title_short Construindo grafos de conhecimento em um domínio com recursos limitados.
title_full Construindo grafos de conhecimento em um domínio com recursos limitados.
title_fullStr Construindo grafos de conhecimento em um domínio com recursos limitados.
title_full_unstemmed Construindo grafos de conhecimento em um domínio com recursos limitados.
title_sort Construindo grafos de conhecimento em um domínio com recursos limitados.
author Ligabue, Pedro de Moraes
author_facet Ligabue, Pedro de Moraes
author_role author
dc.contributor.none.fl_str_mv Brandão, Anarosa Alves Franco
dc.contributor.author.fl_str_mv Ligabue, Pedro de Moraes
dc.subject.por.fl_str_mv Amazonia azul
Atlantic Ocean
Blue Amazon
Brazilian coast
Engenharia de computação
Grafos de conhecimento
Knowledge graphs
Relationship triple extraction
Word embeddings
topic Amazonia azul
Atlantic Ocean
Blue Amazon
Brazilian coast
Engenharia de computação
Grafos de conhecimento
Knowledge graphs
Relationship triple extraction
Word embeddings
description Grafos de conhecimento são utilizados em diversas aplicações, tais como sistemas de perguntas e respostas e sistemas recomendadores, em função da sua capacidade de representar relações entre conceitos. Nesta pequisa, nós buscamos desenvolver um sistema capaz de gerar grafos de conhecimento de forma automática a partir de textos em inglês e em português, ao mesmo tempo em que focamos em um contexto de poucos recursos, tanto em termos de capacidade de processamento quando em termos da disponibilidade de dados. Primeiramente, nós descrevemos o CtxKG, nosso método de geração de grafos de conhecimento, o qual é baseado no OpenIE (um método de extração de triplas de relacionamento) e no BERT (um modelo de linguagem) e contém quatro etapas: a extração de triplas de relacionamento diretamente do texto; a identificação de sinônimos entre triplas; a junção de entidades similares; e a construção de pontes entre grafos de conhecimento de documentos diferentes. O CtxKG se distingue de outros trabalhos da literatura (i) através do seu uso da árvore sintática para evitar a geração de entidade repetidas que ocorre com a implementações básicas do OpenIE; e (ii) através das pontes, as quais criam uma rede conectada de grafos, superando uma limitação de métodos similares que apresentam um grafo isolado para cada documento. Nós comparamos o CtxKG com dois outros métodos através da geração de grafos para artigos de filmes na Wikipédia e comparando-os a grafos de referência construídos com o conjunto de dados OMDb. Então, nós descrevemos a versão em português do CtxKG, o PtxKG, o qual, embora seja semelhante em sua estrutura, inclui alterações-chave, especialmente com relação à etapa de extração de triplas de relacionamento, necessárias para adaptar o método ao contexto do português, que não é diferente apenas em função da linguagem, mas também com relação aos recursos de processamento de linguagem natural disponíveis.
publishDate 2024
dc.date.none.fl_str_mv 2024-07-02
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/3/3141/tde-10072025-072257/
url https://www.teses.usp.br/teses/disponiveis/3/3141/tde-10072025-072257/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1844786331980398592