Construindo grafos de conhecimento em um domínio com recursos limitados.

Ligabue, Pedro de Moraes

Construindo grafos de conhecimento em um domínio com recursos limitados.

Detalhes bibliográficos
Ano de defesa:	2024
Autor(a) principal:	Ligabue, Pedro de Moraes
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Amazonia azul Atlantic Ocean Blue Amazon Brazilian coast Engenharia de computação Grafos de conhecimento Knowledge graphs Relationship triple extraction Word embeddings
Link de acesso:	https://www.teses.usp.br/teses/disponiveis/3/3141/tde-10072025-072257/
Resumo:	Grafos de conhecimento são utilizados em diversas aplicações, tais como sistemas de perguntas e respostas e sistemas recomendadores, em função da sua capacidade de representar relações entre conceitos. Nesta pequisa, nós buscamos desenvolver um sistema capaz de gerar grafos de conhecimento de forma automática a partir de textos em inglês e em português, ao mesmo tempo em que focamos em um contexto de poucos recursos, tanto em termos de capacidade de processamento quando em termos da disponibilidade de dados. Primeiramente, nós descrevemos o CtxKG, nosso método de geração de grafos de conhecimento, o qual é baseado no OpenIE (um método de extração de triplas de relacionamento) e no BERT (um modelo de linguagem) e contém quatro etapas: a extração de triplas de relacionamento diretamente do texto; a identificação de sinônimos entre triplas; a junção de entidades similares; e a construção de pontes entre grafos de conhecimento de documentos diferentes. O CtxKG se distingue de outros trabalhos da literatura (i) através do seu uso da árvore sintática para evitar a geração de entidade repetidas que ocorre com a implementações básicas do OpenIE; e (ii) através das pontes, as quais criam uma rede conectada de grafos, superando uma limitação de métodos similares que apresentam um grafo isolado para cada documento. Nós comparamos o CtxKG com dois outros métodos através da geração de grafos para artigos de filmes na Wikipédia e comparando-os a grafos de referência construídos com o conjunto de dados OMDb. Então, nós descrevemos a versão em português do CtxKG, o PtxKG, o qual, embora seja semelhante em sua estrutura, inclui alterações-chave, especialmente com relação à etapa de extração de triplas de relacionamento, necessárias para adaptar o método ao contexto do português, que não é diferente apenas em função da linguagem, mas também com relação aos recursos de processamento de linguagem natural disponíveis.

Metadados do item

id	USP_30ea11a1e93f5ac54b3d29ba079c4e68
oai_identifier_str	oai:teses.usp.br:tde-10072025-072257
network_acronym_str	USP
network_name_str	Biblioteca Digital de Teses e Dissertações da USP
repository_id_str
spelling	Construindo grafos de conhecimento em um domínio com recursos limitados.Building knowledge graphs in a domain with limited resources.Amazonia azulAtlantic OceanBlue AmazonBrazilian coastEngenharia de computaçãoGrafos de conhecimentoKnowledge graphsRelationship triple extractionWord embeddingsGrafos de conhecimento são utilizados em diversas aplicações, tais como sistemas de perguntas e respostas e sistemas recomendadores, em função da sua capacidade de representar relações entre conceitos. Nesta pequisa, nós buscamos desenvolver um sistema capaz de gerar grafos de conhecimento de forma automática a partir de textos em inglês e em português, ao mesmo tempo em que focamos em um contexto de poucos recursos, tanto em termos de capacidade de processamento quando em termos da disponibilidade de dados. Primeiramente, nós descrevemos o CtxKG, nosso método de geração de grafos de conhecimento, o qual é baseado no OpenIE (um método de extração de triplas de relacionamento) e no BERT (um modelo de linguagem) e contém quatro etapas: a extração de triplas de relacionamento diretamente do texto; a identificação de sinônimos entre triplas; a junção de entidades similares; e a construção de pontes entre grafos de conhecimento de documentos diferentes. O CtxKG se distingue de outros trabalhos da literatura (i) através do seu uso da árvore sintática para evitar a geração de entidade repetidas que ocorre com a implementações básicas do OpenIE; e (ii) através das pontes, as quais criam uma rede conectada de grafos, superando uma limitação de métodos similares que apresentam um grafo isolado para cada documento. Nós comparamos o CtxKG com dois outros métodos através da geração de grafos para artigos de filmes na Wikipédia e comparando-os a grafos de referência construídos com o conjunto de dados OMDb. Então, nós descrevemos a versão em português do CtxKG, o PtxKG, o qual, embora seja semelhante em sua estrutura, inclui alterações-chave, especialmente com relação à etapa de extração de triplas de relacionamento, necessárias para adaptar o método ao contexto do português, que não é diferente apenas em função da linguagem, mas também com relação aos recursos de processamento de linguagem natural disponíveis.Knowledge graphs are employed in several applications, such as question answering and recommendation systems, due to their ability to represent relationships between concepts. In this research, we aim to develop a system capable of automatically generating knowledge graphs from text in English and in Portuguese, all while focusing on a context of low resources, both in terms of computation and data availability. First, we describe CtxKG, our knowledge graph generation method, which is based on OpenIE (a relationship triple extraction method) and BERT (a language model) and contains four stages: the extraction of relationship triples directly from text; the identification of synonyms across triples; the merging of similar entities; and the building of bridges between knowledge graphs of different documents. CtxKG distinguishes itself from those in the current literature (i) through its use of the parse tree to avoid the overlapping entities produced by base implementations of OpenIE; and (ii) through its bridges, which create a connected network of graphs, overcoming a limitation similar methods have of one isolated graph per document. We compare CtxKG to two other methods by generating graphs for movie articles from Wikipedia and contrasting them with benchmark graphs built from the OMDb movie database. We then describe the Portuguese version of CtxKG, PtxKG, which, though similar in structure, includes key changes, especially to the relationship triples extraction stage, in order to fit the Portuguese context, not only in terms of the language but also the available NLP resources.Biblioteca Digitais de Teses e Dissertações da USPBrandão, Anarosa Alves FrancoLigabue, Pedro de Moraes2024-07-02info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/3/3141/tde-10072025-072257/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-07-10T10:41:02Zoai:teses.usp.br:tde-10072025-072257Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.bropendoar:27212025-07-10T10:41:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv	Construindo grafos de conhecimento em um domínio com recursos limitados. Building knowledge graphs in a domain with limited resources.
title	Construindo grafos de conhecimento em um domínio com recursos limitados.
spellingShingle	Construindo grafos de conhecimento em um domínio com recursos limitados. Ligabue, Pedro de Moraes Amazonia azul Atlantic Ocean Blue Amazon Brazilian coast Engenharia de computação Grafos de conhecimento Knowledge graphs Relationship triple extraction Word embeddings
title_short	Construindo grafos de conhecimento em um domínio com recursos limitados.
title_full	Construindo grafos de conhecimento em um domínio com recursos limitados.
title_fullStr	Construindo grafos de conhecimento em um domínio com recursos limitados.
title_full_unstemmed	Construindo grafos de conhecimento em um domínio com recursos limitados.
title_sort	Construindo grafos de conhecimento em um domínio com recursos limitados.
author	Ligabue, Pedro de Moraes
author_facet	Ligabue, Pedro de Moraes
author_role	author
dc.contributor.none.fl_str_mv	Brandão, Anarosa Alves Franco
dc.contributor.author.fl_str_mv	Ligabue, Pedro de Moraes
dc.subject.por.fl_str_mv	Amazonia azul Atlantic Ocean Blue Amazon Brazilian coast Engenharia de computação Grafos de conhecimento Knowledge graphs Relationship triple extraction Word embeddings
topic	Amazonia azul Atlantic Ocean Blue Amazon Brazilian coast Engenharia de computação Grafos de conhecimento Knowledge graphs Relationship triple extraction Word embeddings
description	Grafos de conhecimento são utilizados em diversas aplicações, tais como sistemas de perguntas e respostas e sistemas recomendadores, em função da sua capacidade de representar relações entre conceitos. Nesta pequisa, nós buscamos desenvolver um sistema capaz de gerar grafos de conhecimento de forma automática a partir de textos em inglês e em português, ao mesmo tempo em que focamos em um contexto de poucos recursos, tanto em termos de capacidade de processamento quando em termos da disponibilidade de dados. Primeiramente, nós descrevemos o CtxKG, nosso método de geração de grafos de conhecimento, o qual é baseado no OpenIE (um método de extração de triplas de relacionamento) e no BERT (um modelo de linguagem) e contém quatro etapas: a extração de triplas de relacionamento diretamente do texto; a identificação de sinônimos entre triplas; a junção de entidades similares; e a construção de pontes entre grafos de conhecimento de documentos diferentes. O CtxKG se distingue de outros trabalhos da literatura (i) através do seu uso da árvore sintática para evitar a geração de entidade repetidas que ocorre com a implementações básicas do OpenIE; e (ii) através das pontes, as quais criam uma rede conectada de grafos, superando uma limitação de métodos similares que apresentam um grafo isolado para cada documento. Nós comparamos o CtxKG com dois outros métodos através da geração de grafos para artigos de filmes na Wikipédia e comparando-os a grafos de referência construídos com o conjunto de dados OMDb. Então, nós descrevemos a versão em português do CtxKG, o PtxKG, o qual, embora seja semelhante em sua estrutura, inclui alterações-chave, especialmente com relação à etapa de extração de triplas de relacionamento, necessárias para adaptar o método ao contexto do português, que não é diferente apenas em função da linguagem, mas também com relação aos recursos de processamento de linguagem natural disponíveis.
publishDate	2024
dc.date.none.fl_str_mv	2024-07-02
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://www.teses.usp.br/teses/disponiveis/3/3141/tde-10072025-072257/
url	https://www.teses.usp.br/teses/disponiveis/3/3141/tde-10072025-072257/
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv	Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Liberar o conteúdo para acesso público.
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP
instname_str	Universidade de São Paulo (USP)
instacron_str	USP
institution	USP
reponame_str	Biblioteca Digital de Teses e Dissertações da USP
collection	Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv	virginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.br
_version_	1844786331980398592

Construindo grafos de conhecimento em um domínio com recursos limitados.

Registros relacionados