OPHELIA: a neural solution for text classification using joint embeddings of words and KG entities

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Costa, Liliane Soares da
Orientador(a): Fileto, Renato
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Link de acesso: https://repositorio.ufsc.br/handle/123456789/261039
Resumo: Tese (doutorado) ? Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2023.
id UFSC_db4db25e189d817dc352ba0a612dc1b7
oai_identifier_str oai:repositorio.ufsc.br:123456789/261039
network_acronym_str UFSC
network_name_str Repositório Institucional da UFSC
repository_id_str
spelling Universidade Federal de Santa CatarinaCosta, Liliane Soares daFileto, Renato2024-11-12T23:24:31Z2024-11-12T23:24:31Z2023388772https://repositorio.ufsc.br/handle/123456789/261039Tese (doutorado) ? Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2023.A contínua expansão da coleta e disseminação de dados textuais tornou a classificação de texto uma tarefa crucial para aproveitar as enormes quantidades de texto digital disponíveis atualmente. O objetivo da classificação de texto é categorizar um documento de texto em uma ou mais categorias predefinidas dentro de um domínio de aplicação específico. Abordagens existentes de classificação de texto podem ser prejudicadas quando usam apenas o modelo de bagof-words para representar as características, pois isso ignora a ordem das palavras e os sentidos, que podem variar dependendo do contexto. Os embeddings de palavras surgiram recentemente para superar essas limitações, permitindo melhorias significativas de desempenho ao condensar o conhecimento da linguagem em vetores densos. Além disso, as relações entre entidades do mundo real expressas em grafos de conhecimento podem ser condensadas em vetores densos por meio de embeddings de conhecimento. No entanto, abordagens existentes não aproveitam totalmente os embeddings de conhecimento ao não considerá-las em seus modelos. Modelos tradicionais de representação de texto são limitados, pois focam exclusivamente nas palavras, carecendo da capacidade de diferenciar entre documentos que compartilham o mesmo vocabulário, mas oferecem perspectivas diferentes sobre um determinado assunto. Nesse contexto, este trabalho surge em resposta às diversas aplicações da classificação automática de texto. Além disso, ele se baseia no potencial das representações de espaço vetorial e busca preencher a lacuna relacionada à compreensão da semântica presente em dados de linguagem natural. O principal objetivo deste estudo é avançar a pesquisa no campo da Classificação de Texto, incorporando aspectos semânticos na representação de coleções de documentos. Para isso, propomos OPHELIA, uma abordagem de Rede Neural Profunda (DNN) para tarefas de classificação de texto usando embeddings de conhecimento e palavras. OPHELIA aproveita embeddings conjuntamente treinadas de grafos de conhecimento e texto. Esses embeddings podem fornecer informações contextuais mais consolidadas do que embeddings separados de texto e conhecimento, e seu uso para melhorar a classificação de texto ainda não foi suficientemente explorado. O FastText é usado para treinar embeddings conjuntos de palavras e conhecimento, permitindo que sejam consistentemente integradas em um único espaço incorporado. A rede neural usada para OPHELIA é a Rede Neural Feedforward e a Rede de Cápsulas. Esta tese fornece inicialmente uma revisão abrangente da literatura sobre classificação de texto usando embeddings como características. Em seguida, descrevemos os algoritmos e arquiteturas que compõem OPHELIA. Realizamos experimentos com diferentes modelos de redes neurais profundas com números variados de células e camadas ocultas. Cada arquitetura foi avaliada com sua melhor combinação de parâmetros para comparar seu desempenho com abordagens de ponta. Nossos resultados demonstram que OPHELIA supera as abordagens existentes no conjunto de dados da BBC e permanece competitivo nos conjuntos de dados AG News e Reuters-21578.Abstract: The continuous expansion of textual data collection and dissemination has made text classification a crucial task for harnessing the massive amounts of digital text available today. Text classification aims to categorize a text document into one or more predefined categories within a specific application domain. Existing text classification approaches may be hindered when using just the bag-of-words model to represent features because it ignores word order and senses, which can vary depending on context. Word embeddings have recently emerged to address these limitations, allowing for significant performance improvements by condensing language knowledge into dense vectors. Furthermore, real-world entity relationships expressed in knowledge graphs can be condensed into dense vectors through knowledge embeddings. However, existing approaches do not fully leverage knowledge embeddings by failing to consider them in their models. Traditional text representation models are limited as they solely focus on words, lacking the ability to differentiate between documents that share the same vocabulary but offer different perspectives on a given subject. In this context, this work emerges in response to the diverse applications of automatic text classification. Additionally, it builds upon the potential of vector space representations and seeks to bridge the gap related to understanding the semantics present in natural language data. The primary goal of this study is to advance research in the field of Text Classification by incorporating semantic aspects into the representation of document collections. To achieve this, we propose OPHELIA, a Deep Neural Network (DNN) approach for text classification tasks using knowledge and word embeddings. OPHELIA exploits jointly trained embeddings of knowledge graphs and text. These embeddings can provide more consolidated contextual information than separate embeddings of text and knowledge, and their use for enhancing text classification has not been sufficiently explored yet. FastText is used to jointly train word and knowledge embeddings, allowing them to be consistently integrated into a single embedded space. The neural network used for OPHELIA is the Feedforward Neural Network and Capsule Network. This thesis first provides a comprehensive review of the literature on text classification using embeddings as features. Then, we describe the algorithms and architectures that constitute OPHELIA. We conduct experiments with different deep neural network models with varying numbers of hidden cells and hidden layers. Each architecture is evaluated with its optimal parameter combination to compare its performance with state-of-theart approaches. Our results demonstrate that OPHELIA outperforms existing approaches on the BBC dataset and remains competitive on AG News and Reuters-21578.95 p.| il., gráfs.engComputaçãoProcessamento de textos (Computação)Redes neurais (Computação)OPHELIA: a neural solution for text classification using joint embeddings of words and KG entitiesinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSCinfo:eu-repo/semantics/openAccessORIGINALPGCC1246-T.pdfPGCC1246-T.pdfapplication/pdf10368548https://repositorio.ufsc.br/bitstream/123456789/261039/-1/PGCC1246-T.pdf2f9af0ea2881f270311346323dd98c8aMD5-1123456789/2610392024-11-12 20:24:32.065oai:repositorio.ufsc.br:123456789/261039Repositório InstitucionalPUBhttp://150.162.242.35/oai/requestsandra.sobrera@ufsc.bropendoar:23732024-11-12T23:24:32Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false
dc.title.none.fl_str_mv OPHELIA: a neural solution for text classification using joint embeddings of words and KG entities
title OPHELIA: a neural solution for text classification using joint embeddings of words and KG entities
spellingShingle OPHELIA: a neural solution for text classification using joint embeddings of words and KG entities
Costa, Liliane Soares da
Computação
Processamento de textos (Computação)
Redes neurais (Computação)
title_short OPHELIA: a neural solution for text classification using joint embeddings of words and KG entities
title_full OPHELIA: a neural solution for text classification using joint embeddings of words and KG entities
title_fullStr OPHELIA: a neural solution for text classification using joint embeddings of words and KG entities
title_full_unstemmed OPHELIA: a neural solution for text classification using joint embeddings of words and KG entities
title_sort OPHELIA: a neural solution for text classification using joint embeddings of words and KG entities
author Costa, Liliane Soares da
author_facet Costa, Liliane Soares da
author_role author
dc.contributor.none.fl_str_mv Universidade Federal de Santa Catarina
dc.contributor.author.fl_str_mv Costa, Liliane Soares da
dc.contributor.advisor1.fl_str_mv Fileto, Renato
contributor_str_mv Fileto, Renato
dc.subject.classification.none.fl_str_mv Computação
Processamento de textos (Computação)
Redes neurais (Computação)
topic Computação
Processamento de textos (Computação)
Redes neurais (Computação)
description Tese (doutorado) ? Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2023.
publishDate 2023
dc.date.issued.fl_str_mv 2023
dc.date.accessioned.fl_str_mv 2024-11-12T23:24:31Z
dc.date.available.fl_str_mv 2024-11-12T23:24:31Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufsc.br/handle/123456789/261039
dc.identifier.other.none.fl_str_mv 388772
identifier_str_mv 388772
url https://repositorio.ufsc.br/handle/123456789/261039
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 95 p.| il., gráfs.
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSC
instname:Universidade Federal de Santa Catarina (UFSC)
instacron:UFSC
instname_str Universidade Federal de Santa Catarina (UFSC)
instacron_str UFSC
institution UFSC
reponame_str Repositório Institucional da UFSC
collection Repositório Institucional da UFSC
bitstream.url.fl_str_mv https://repositorio.ufsc.br/bitstream/123456789/261039/-1/PGCC1246-T.pdf
bitstream.checksum.fl_str_mv 2f9af0ea2881f270311346323dd98c8a
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)
repository.mail.fl_str_mv sandra.sobrera@ufsc.br
_version_ 1851759249887068160