OPHELIA: a neural solution for text classification using joint embeddings of words and KG entities

Costa, Liliane Soares da

OPHELIA: a neural solution for text classification using joint embeddings of words and KG entities

Detalhes bibliográficos
Ano de defesa:	2023
Autor(a) principal:	Costa, Liliane Soares da
Orientador(a):	Fileto, Renato
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Tese
Tipo de acesso:	Acesso aberto
Idioma:	eng
Instituição de defesa:	Não Informado pela instituição
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Link de acesso:	https://repositorio.ufsc.br/handle/123456789/261039
Resumo:	Tese (doutorado) ? Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2023.

Metadados do item

id	UFSC_db4db25e189d817dc352ba0a612dc1b7
oai_identifier_str	oai:repositorio.ufsc.br:123456789/261039
network_acronym_str	UFSC
network_name_str	Repositório Institucional da UFSC
repository_id_str
spelling	Universidade Federal de Santa CatarinaCosta, Liliane Soares daFileto, Renato2024-11-12T23:24:31Z2024-11-12T23:24:31Z2023388772https://repositorio.ufsc.br/handle/123456789/261039Tese (doutorado) ? Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2023.A contínua expansão da coleta e disseminação de dados textuais tornou a classificação de texto uma tarefa crucial para aproveitar as enormes quantidades de texto digital disponíveis atualmente. O objetivo da classificação de texto é categorizar um documento de texto em uma ou mais categorias predefinidas dentro de um domínio de aplicação específico. Abordagens existentes de classificação de texto podem ser prejudicadas quando usam apenas o modelo de bagof-words para representar as características, pois isso ignora a ordem das palavras e os sentidos, que podem variar dependendo do contexto. Os embeddings de palavras surgiram recentemente para superar essas limitações, permitindo melhorias significativas de desempenho ao condensar o conhecimento da linguagem em vetores densos. Além disso, as relações entre entidades do mundo real expressas em grafos de conhecimento podem ser condensadas em vetores densos por meio de embeddings de conhecimento. No entanto, abordagens existentes não aproveitam totalmente os embeddings de conhecimento ao não considerá-las em seus modelos. Modelos tradicionais de representação de texto são limitados, pois focam exclusivamente nas palavras, carecendo da capacidade de diferenciar entre documentos que compartilham o mesmo vocabulário, mas oferecem perspectivas diferentes sobre um determinado assunto. Nesse contexto, este trabalho surge em resposta às diversas aplicações da classificação automática de texto. Além disso, ele se baseia no potencial das representações de espaço vetorial e busca preencher a lacuna relacionada à compreensão da semântica presente em dados de linguagem natural. O principal objetivo deste estudo é avançar a pesquisa no campo da Classificação de Texto, incorporando aspectos semânticos na representação de coleções de documentos. Para isso, propomos OPHELIA, uma abordagem de Rede Neural Profunda (DNN) para tarefas de classificação de texto usando embeddings de conhecimento e palavras. OPHELIA aproveita embeddings conjuntamente treinadas de grafos de conhecimento e texto. Esses embeddings podem fornecer informações contextuais mais consolidadas do que embeddings separados de texto e conhecimento, e seu uso para melhorar a classificação de texto ainda não foi suficientemente explorado. O FastText é usado para treinar embeddings conjuntos de palavras e conhecimento, permitindo que sejam consistentemente integradas em um único espaço incorporado. A rede neural usada para OPHELIA é a Rede Neural Feedforward e a Rede de Cápsulas. Esta tese fornece inicialmente uma revisão abrangente da literatura sobre classificação de texto usando embeddings como características. Em seguida, descrevemos os algoritmos e arquiteturas que compõem OPHELIA. Realizamos experimentos com diferentes modelos de redes neurais profundas com números variados de células e camadas ocultas. Cada arquitetura foi avaliada com sua melhor combinação de parâmetros para comparar seu desempenho com abordagens de ponta. Nossos resultados demonstram que OPHELIA supera as abordagens existentes no conjunto de dados da BBC e permanece competitivo nos conjuntos de dados AG News e Reuters-21578.Abstract: The continuous expansion of textual data collection and dissemination has made text classification a crucial task for harnessing the massive amounts of digital text available today. Text classification aims to categorize a text document into one or more predefined categories within a specific application domain. Existing text classification approaches may be hindered when using just the bag-of-words model to represent features because it ignores word order and senses, which can vary depending on context. Word embeddings have recently emerged to address these limitations, allowing for significant performance improvements by condensing language knowledge into dense vectors. Furthermore, real-world entity relationships expressed in knowledge graphs can be condensed into dense vectors through knowledge embeddings. However, existing approaches do not fully leverage knowledge embeddings by failing to consider them in their models. Traditional text representation models are limited as they solely focus on words, lacking the ability to differentiate between documents that share the same vocabulary but offer different perspectives on a given subject. In this context, this work emerges in response to the diverse applications of automatic text classification. Additionally, it builds upon the potential of vector space representations and seeks to bridge the gap related to understanding the semantics present in natural language data. The primary goal of this study is to advance research in the field of Text Classification by incorporating semantic aspects into the representation of document collections. To achieve this, we propose OPHELIA, a Deep Neural Network (DNN) approach for text classification tasks using knowledge and word embeddings. OPHELIA exploits jointly trained embeddings of knowledge graphs and text. These embeddings can provide more consolidated contextual information than separate embeddings of text and knowledge, and their use for enhancing text classification has not been sufficiently explored yet. FastText is used to jointly train word and knowledge embeddings, allowing them to be consistently integrated into a single embedded space. The neural network used for OPHELIA is the Feedforward Neural Network and Capsule Network. This thesis first provides a comprehensive review of the literature on text classification using embeddings as features. Then, we describe the algorithms and architectures that constitute OPHELIA. We conduct experiments with different deep neural network models with varying numbers of hidden cells and hidden layers. Each architecture is evaluated with its optimal parameter combination to compare its performance with state-of-theart approaches. Our results demonstrate that OPHELIA outperforms existing approaches on the BBC dataset and remains competitive on AG News and Reuters-21578.95 p.\| il., gráfs.engComputaçãoProcessamento de textos (Computação)Redes neurais (Computação)OPHELIA: a neural solution for text classification using joint embeddings of words and KG entitiesinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSCinfo:eu-repo/semantics/openAccessORIGINALPGCC1246-T.pdfPGCC1246-T.pdfapplication/pdf10368548https://repositorio.ufsc.br/bitstream/123456789/261039/-1/PGCC1246-T.pdf2f9af0ea2881f270311346323dd98c8aMD5-1123456789/2610392024-11-12 20:24:32.065oai:repositorio.ufsc.br:123456789/261039Repositório InstitucionalPUBhttp://150.162.242.35/oai/requestsandra.sobrera@ufsc.bropendoar:23732024-11-12T23:24:32Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false
dc.title.none.fl_str_mv	OPHELIA: a neural solution for text classification using joint embeddings of words and KG entities
title	OPHELIA: a neural solution for text classification using joint embeddings of words and KG entities
spellingShingle	OPHELIA: a neural solution for text classification using joint embeddings of words and KG entities Costa, Liliane Soares da Computação Processamento de textos (Computação) Redes neurais (Computação)
title_short	OPHELIA: a neural solution for text classification using joint embeddings of words and KG entities
title_full	OPHELIA: a neural solution for text classification using joint embeddings of words and KG entities
title_fullStr	OPHELIA: a neural solution for text classification using joint embeddings of words and KG entities
title_full_unstemmed	OPHELIA: a neural solution for text classification using joint embeddings of words and KG entities
title_sort	OPHELIA: a neural solution for text classification using joint embeddings of words and KG entities
author	Costa, Liliane Soares da
author_facet	Costa, Liliane Soares da
author_role	author
dc.contributor.none.fl_str_mv	Universidade Federal de Santa Catarina
dc.contributor.author.fl_str_mv	Costa, Liliane Soares da
dc.contributor.advisor1.fl_str_mv	Fileto, Renato
contributor_str_mv	Fileto, Renato
dc.subject.classification.none.fl_str_mv	Computação Processamento de textos (Computação) Redes neurais (Computação)
topic	Computação Processamento de textos (Computação) Redes neurais (Computação)
description	Tese (doutorado) ? Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2023.
publishDate	2023
dc.date.issued.fl_str_mv	2023
dc.date.accessioned.fl_str_mv	2024-11-12T23:24:31Z
dc.date.available.fl_str_mv	2024-11-12T23:24:31Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://repositorio.ufsc.br/handle/123456789/261039
dc.identifier.other.none.fl_str_mv	388772
identifier_str_mv	388772
url	https://repositorio.ufsc.br/handle/123456789/261039
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	95 p.\| il., gráfs.
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFSC instname:Universidade Federal de Santa Catarina (UFSC) instacron:UFSC
instname_str	Universidade Federal de Santa Catarina (UFSC)
instacron_str	UFSC
institution	UFSC
reponame_str	Repositório Institucional da UFSC
collection	Repositório Institucional da UFSC
bitstream.url.fl_str_mv	https://repositorio.ufsc.br/bitstream/123456789/261039/-1/PGCC1246-T.pdf
bitstream.checksum.fl_str_mv	2f9af0ea2881f270311346323dd98c8a
bitstream.checksumAlgorithm.fl_str_mv	MD5
repository.name.fl_str_mv	Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)
repository.mail.fl_str_mv	sandra.sobrera@ufsc.br
_version_	1851759249887068160

OPHELIA: a neural solution for text classification using joint embeddings of words and KG entities

Registros relacionados