Construindo grafos de conhecimento em um domínio com recursos limitados.
| Ano de defesa: | 2024 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Link de acesso: | https://www.teses.usp.br/teses/disponiveis/3/3141/tde-10072025-072257/ |
Resumo: | Grafos de conhecimento são utilizados em diversas aplicações, tais como sistemas de perguntas e respostas e sistemas recomendadores, em função da sua capacidade de representar relações entre conceitos. Nesta pequisa, nós buscamos desenvolver um sistema capaz de gerar grafos de conhecimento de forma automática a partir de textos em inglês e em português, ao mesmo tempo em que focamos em um contexto de poucos recursos, tanto em termos de capacidade de processamento quando em termos da disponibilidade de dados. Primeiramente, nós descrevemos o CtxKG, nosso método de geração de grafos de conhecimento, o qual é baseado no OpenIE (um método de extração de triplas de relacionamento) e no BERT (um modelo de linguagem) e contém quatro etapas: a extração de triplas de relacionamento diretamente do texto; a identificação de sinônimos entre triplas; a junção de entidades similares; e a construção de pontes entre grafos de conhecimento de documentos diferentes. O CtxKG se distingue de outros trabalhos da literatura (i) através do seu uso da árvore sintática para evitar a geração de entidade repetidas que ocorre com a implementações básicas do OpenIE; e (ii) através das pontes, as quais criam uma rede conectada de grafos, superando uma limitação de métodos similares que apresentam um grafo isolado para cada documento. Nós comparamos o CtxKG com dois outros métodos através da geração de grafos para artigos de filmes na Wikipédia e comparando-os a grafos de referência construídos com o conjunto de dados OMDb. Então, nós descrevemos a versão em português do CtxKG, o PtxKG, o qual, embora seja semelhante em sua estrutura, inclui alterações-chave, especialmente com relação à etapa de extração de triplas de relacionamento, necessárias para adaptar o método ao contexto do português, que não é diferente apenas em função da linguagem, mas também com relação aos recursos de processamento de linguagem natural disponíveis. |
| id |
USP_30ea11a1e93f5ac54b3d29ba079c4e68 |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-10072025-072257 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
|
| spelling |
Construindo grafos de conhecimento em um domínio com recursos limitados.Building knowledge graphs in a domain with limited resources.Amazonia azulAtlantic OceanBlue AmazonBrazilian coastEngenharia de computaçãoGrafos de conhecimentoKnowledge graphsRelationship triple extractionWord embeddingsGrafos de conhecimento são utilizados em diversas aplicações, tais como sistemas de perguntas e respostas e sistemas recomendadores, em função da sua capacidade de representar relações entre conceitos. Nesta pequisa, nós buscamos desenvolver um sistema capaz de gerar grafos de conhecimento de forma automática a partir de textos em inglês e em português, ao mesmo tempo em que focamos em um contexto de poucos recursos, tanto em termos de capacidade de processamento quando em termos da disponibilidade de dados. Primeiramente, nós descrevemos o CtxKG, nosso método de geração de grafos de conhecimento, o qual é baseado no OpenIE (um método de extração de triplas de relacionamento) e no BERT (um modelo de linguagem) e contém quatro etapas: a extração de triplas de relacionamento diretamente do texto; a identificação de sinônimos entre triplas; a junção de entidades similares; e a construção de pontes entre grafos de conhecimento de documentos diferentes. O CtxKG se distingue de outros trabalhos da literatura (i) através do seu uso da árvore sintática para evitar a geração de entidade repetidas que ocorre com a implementações básicas do OpenIE; e (ii) através das pontes, as quais criam uma rede conectada de grafos, superando uma limitação de métodos similares que apresentam um grafo isolado para cada documento. Nós comparamos o CtxKG com dois outros métodos através da geração de grafos para artigos de filmes na Wikipédia e comparando-os a grafos de referência construídos com o conjunto de dados OMDb. Então, nós descrevemos a versão em português do CtxKG, o PtxKG, o qual, embora seja semelhante em sua estrutura, inclui alterações-chave, especialmente com relação à etapa de extração de triplas de relacionamento, necessárias para adaptar o método ao contexto do português, que não é diferente apenas em função da linguagem, mas também com relação aos recursos de processamento de linguagem natural disponíveis.Knowledge graphs are employed in several applications, such as question answering and recommendation systems, due to their ability to represent relationships between concepts. In this research, we aim to develop a system capable of automatically generating knowledge graphs from text in English and in Portuguese, all while focusing on a context of low resources, both in terms of computation and data availability. First, we describe CtxKG, our knowledge graph generation method, which is based on OpenIE (a relationship triple extraction method) and BERT (a language model) and contains four stages: the extraction of relationship triples directly from text; the identification of synonyms across triples; the merging of similar entities; and the building of bridges between knowledge graphs of different documents. CtxKG distinguishes itself from those in the current literature (i) through its use of the parse tree to avoid the overlapping entities produced by base implementations of OpenIE; and (ii) through its bridges, which create a connected network of graphs, overcoming a limitation similar methods have of one isolated graph per document. We compare CtxKG to two other methods by generating graphs for movie articles from Wikipedia and contrasting them with benchmark graphs built from the OMDb movie database. We then describe the Portuguese version of CtxKG, PtxKG, which, though similar in structure, includes key changes, especially to the relationship triples extraction stage, in order to fit the Portuguese context, not only in terms of the language but also the available NLP resources.Biblioteca Digitais de Teses e Dissertações da USPBrandão, Anarosa Alves FrancoLigabue, Pedro de Moraes2024-07-02info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/3/3141/tde-10072025-072257/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-07-10T10:41:02Zoai:teses.usp.br:tde-10072025-072257Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-07-10T10:41:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Construindo grafos de conhecimento em um domínio com recursos limitados. Building knowledge graphs in a domain with limited resources. |
| title |
Construindo grafos de conhecimento em um domínio com recursos limitados. |
| spellingShingle |
Construindo grafos de conhecimento em um domínio com recursos limitados. Ligabue, Pedro de Moraes Amazonia azul Atlantic Ocean Blue Amazon Brazilian coast Engenharia de computação Grafos de conhecimento Knowledge graphs Relationship triple extraction Word embeddings |
| title_short |
Construindo grafos de conhecimento em um domínio com recursos limitados. |
| title_full |
Construindo grafos de conhecimento em um domínio com recursos limitados. |
| title_fullStr |
Construindo grafos de conhecimento em um domínio com recursos limitados. |
| title_full_unstemmed |
Construindo grafos de conhecimento em um domínio com recursos limitados. |
| title_sort |
Construindo grafos de conhecimento em um domínio com recursos limitados. |
| author |
Ligabue, Pedro de Moraes |
| author_facet |
Ligabue, Pedro de Moraes |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Brandão, Anarosa Alves Franco |
| dc.contributor.author.fl_str_mv |
Ligabue, Pedro de Moraes |
| dc.subject.por.fl_str_mv |
Amazonia azul Atlantic Ocean Blue Amazon Brazilian coast Engenharia de computação Grafos de conhecimento Knowledge graphs Relationship triple extraction Word embeddings |
| topic |
Amazonia azul Atlantic Ocean Blue Amazon Brazilian coast Engenharia de computação Grafos de conhecimento Knowledge graphs Relationship triple extraction Word embeddings |
| description |
Grafos de conhecimento são utilizados em diversas aplicações, tais como sistemas de perguntas e respostas e sistemas recomendadores, em função da sua capacidade de representar relações entre conceitos. Nesta pequisa, nós buscamos desenvolver um sistema capaz de gerar grafos de conhecimento de forma automática a partir de textos em inglês e em português, ao mesmo tempo em que focamos em um contexto de poucos recursos, tanto em termos de capacidade de processamento quando em termos da disponibilidade de dados. Primeiramente, nós descrevemos o CtxKG, nosso método de geração de grafos de conhecimento, o qual é baseado no OpenIE (um método de extração de triplas de relacionamento) e no BERT (um modelo de linguagem) e contém quatro etapas: a extração de triplas de relacionamento diretamente do texto; a identificação de sinônimos entre triplas; a junção de entidades similares; e a construção de pontes entre grafos de conhecimento de documentos diferentes. O CtxKG se distingue de outros trabalhos da literatura (i) através do seu uso da árvore sintática para evitar a geração de entidade repetidas que ocorre com a implementações básicas do OpenIE; e (ii) através das pontes, as quais criam uma rede conectada de grafos, superando uma limitação de métodos similares que apresentam um grafo isolado para cada documento. Nós comparamos o CtxKG com dois outros métodos através da geração de grafos para artigos de filmes na Wikipédia e comparando-os a grafos de referência construídos com o conjunto de dados OMDb. Então, nós descrevemos a versão em português do CtxKG, o PtxKG, o qual, embora seja semelhante em sua estrutura, inclui alterações-chave, especialmente com relação à etapa de extração de triplas de relacionamento, necessárias para adaptar o método ao contexto do português, que não é diferente apenas em função da linguagem, mas também com relação aos recursos de processamento de linguagem natural disponíveis. |
| publishDate |
2024 |
| dc.date.none.fl_str_mv |
2024-07-02 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/3/3141/tde-10072025-072257/ |
| url |
https://www.teses.usp.br/teses/disponiveis/3/3141/tde-10072025-072257/ |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1844786331980398592 |