Exportação concluída — 

How to classify domain entities into top-level ontology concepts using language models : a study across multiple labels, resources, domains, and languages

Detalhes bibliográficos
Ano de defesa: 2025
Autor(a) principal: Lopes Junior, Alcides Gonçalves
Orientador(a): Abel, Mara
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://hdl.handle.net/10183/290803
Resumo: Classificar entidades de domínio em seus respectivos conceitos de ontologias de topo é umproblema complexo que normalmente exige análise manual e profundo conhecimento especializado no domínio de interesse e em engenharia de ontologias. Uma abordagem eficiente para classificar entidades de domínio pode melhorar a integração e a interope rabilidade de dados, aspectos cruciais para a representação e modelagem estruturada do conhecimento. Motivados por esse desafio, propomos uma abordagem automatizada para classificar entidades de domínio em conceitos de ontologias de topo, utilizando Defini ções em Linguagem Natural (NLDs) dessas entidades de domínio. Nossa hipótese é que as NLDsencapsulam informações semânticas essenciais para associar entidades de domí nio a conceitos específicos de ontologias de topo. Além disso, propomos dois pipelines de classificação treinados utilizando técnicas de ajuste fino e abordagens clássicas de Apren dizado de Máquina (ML), aproveitando modelos de linguagem de última geração para lidar com os dados textuais. Para avaliar nossa proposta, construímos conjuntos de da dos multi-rótulo, multi-recurso e multilíngues, extraídos do BabelNet e de ontologias de domínio disponíveis no repositório OBO Foundry. Esses conjuntos de dados abrangem mapeamentos para as ontologias de topo DOLCE-Lite-Plus (DLP) e Basic Formal Onto logy (BFO), garantindo uma coleção diversa e representativa de entidades de domínio e suas respectivas classificações em ontologias de topo, incluindo diferentes representações textuais das entidades de domínio, como NLDs, definienda, definientia e sentenças de exemplo. Em nossos experimentos, investigamos a eficácia de nossa abordagem em diferentes técnicas de representação textual, idiomas, recursos de conhecimento, domínios de conhecimento e ontologias de domínio. Os resultados de nossos experimentos desta camovalor de aproveitar Definições em Linguagem Natural (NLDs) e pipelines baseados em embeddings na classificação de entidades de domínio em conceitos de ontologias de topo. Em diversos cenários, as NLDs superaram consistentemente outras abordagens de representação textual, alcançando macro F1-scores superiores a 90% na maioria dos ca sos. Alémdisso, pipelines utilizando o modelo de linguagem Mistral7B e um classificador KNNobtiveramummacroF1-scorede86,6%emavaliaçõesentrediferentes fontes de dados. Mesmo em experimentos entre diferentes domínios, onde o desempenho inicial caiu abaixo de 40%, a inclusão estratégica de dados específicos do domínio no treinamento resultou em melhorias significativas, evidenciando as diferenças entre NLDs gerais e es pecíficas de domínio nessa tarefa de classificação. Os achados ressaltam o potencial do desenvolvimento de ferramentas automatizadas que possam apoiar os engenheiros de on tologias no processo de desenvolvimento de ontologias. No entanto, algumas limitações permanecem, como a dependência de NLDs de alta qualidade e os desafios no tratamento de idiomas e domínios de conhecimento sub-representados.
id URGS_f65b61c4a35921b5c330b40c6c20ae3b
oai_identifier_str oai:www.lume.ufrgs.br:10183/290803
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str
spelling Lopes Junior, Alcides GonçalvesAbel, Mara2025-04-25T06:56:02Z2025http://hdl.handle.net/10183/290803001255272Classificar entidades de domínio em seus respectivos conceitos de ontologias de topo é umproblema complexo que normalmente exige análise manual e profundo conhecimento especializado no domínio de interesse e em engenharia de ontologias. Uma abordagem eficiente para classificar entidades de domínio pode melhorar a integração e a interope rabilidade de dados, aspectos cruciais para a representação e modelagem estruturada do conhecimento. Motivados por esse desafio, propomos uma abordagem automatizada para classificar entidades de domínio em conceitos de ontologias de topo, utilizando Defini ções em Linguagem Natural (NLDs) dessas entidades de domínio. Nossa hipótese é que as NLDsencapsulam informações semânticas essenciais para associar entidades de domí nio a conceitos específicos de ontologias de topo. Além disso, propomos dois pipelines de classificação treinados utilizando técnicas de ajuste fino e abordagens clássicas de Apren dizado de Máquina (ML), aproveitando modelos de linguagem de última geração para lidar com os dados textuais. Para avaliar nossa proposta, construímos conjuntos de da dos multi-rótulo, multi-recurso e multilíngues, extraídos do BabelNet e de ontologias de domínio disponíveis no repositório OBO Foundry. Esses conjuntos de dados abrangem mapeamentos para as ontologias de topo DOLCE-Lite-Plus (DLP) e Basic Formal Onto logy (BFO), garantindo uma coleção diversa e representativa de entidades de domínio e suas respectivas classificações em ontologias de topo, incluindo diferentes representações textuais das entidades de domínio, como NLDs, definienda, definientia e sentenças de exemplo. Em nossos experimentos, investigamos a eficácia de nossa abordagem em diferentes técnicas de representação textual, idiomas, recursos de conhecimento, domínios de conhecimento e ontologias de domínio. Os resultados de nossos experimentos desta camovalor de aproveitar Definições em Linguagem Natural (NLDs) e pipelines baseados em embeddings na classificação de entidades de domínio em conceitos de ontologias de topo. Em diversos cenários, as NLDs superaram consistentemente outras abordagens de representação textual, alcançando macro F1-scores superiores a 90% na maioria dos ca sos. Alémdisso, pipelines utilizando o modelo de linguagem Mistral7B e um classificador KNNobtiveramummacroF1-scorede86,6%emavaliaçõesentrediferentes fontes de dados. Mesmo em experimentos entre diferentes domínios, onde o desempenho inicial caiu abaixo de 40%, a inclusão estratégica de dados específicos do domínio no treinamento resultou em melhorias significativas, evidenciando as diferenças entre NLDs gerais e es pecíficas de domínio nessa tarefa de classificação. Os achados ressaltam o potencial do desenvolvimento de ferramentas automatizadas que possam apoiar os engenheiros de on tologias no processo de desenvolvimento de ontologias. No entanto, algumas limitações permanecem, como a dependência de NLDs de alta qualidade e os desafios no tratamento de idiomas e domínios de conhecimento sub-representados.Classifying domain entities into their respective top-level ontology concepts is a com plex problem that typically demands manual analysis and deep expertise in the domain of interest and ontology engineering. An efficient approach to classifying domain entities can enhance data integration and interoperability, which is crucial for structured knowl edge representation and modeling. Motivated by this challenge, we propose an automated approach to classify domain entities into top-level ontology concepts using Natural Lan guage Definitions (NLDs) of these domain entities. We hypothesize that NLDs encap sulate semantic information that is critical for associating domain entities with specific top-level ontology concepts. Also, we proposed two classification pipelines trained using f ine-tuning and classic Machine Learning (ML) approaches and leveraging state-of-the art language models to deal with the textual input. To evaluate our proposal, we con structed multi-label, multi-resource, and multi-language datasets by extracting data from BabelNet and domain ontologies available in the OBO Foundry repository. These datasets encompass mappings to DOLCE-Lite-Plus (DLP) and Basic Formal Ontology (BFO) top level ontologies, ensuring a diverse and representative collection of domain entities and their corresponding top-level classifications, including different textual representations of domain entities, such as NLDs, definienda, definientia, and example sentences. In our experiments, we investigated the effectiveness of our approach across different tex tual representation techniques, languages, knowledge resources, knowledge domains, and domain ontologies. The results of our experiments highlight the value of leveraging Nat ural Language Definitions (NLDs) and embedding-based pipelines in classifying domain entities into top-level ontology concepts. Across multiple scenarios, NLDs consistently outperformed other textual representation approaches, achieving macro F1-scores exceed ing 90% in most of the cases. Also, pipelines using the Mistral7B language model and a KNNclassifier delivered a macro F1-score of 86.6% in cross-resource evaluations. Even in the challenging cross-domain experiments, where initial performance dropped below 40%, strategic inclusion of domain-specific data in the training data led to significant im provements, showcasing the differences between general and domains-specific NLDs in this classification task. Also, the findings underscore the potential of automated tools that can significantly support ontology engineers during the ontology development process. However, some limitations remain, such as the reliance on high-quality NLDs and chal lenges in handling underrepresented languages and knowledge domains.application/pdfengOntologiasLinguagem naturalModelo de linguagemAprendizado de máquinaHow to classify domain entities into top-level ontology concepts using language models : a study across multiple labels, resources, domains, and languagesCom oclassificar entidades de domínio em conceitos de ontologias de topo usando modelos de linguagem: um estudo com múltiplos rótulos, recursos, domínios, e idiomasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2025doutoradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001255272.pdf.txt001255272.pdf.txtExtracted Texttext/plain313379http://www.lume.ufrgs.br/bitstream/10183/290803/2/001255272.pdf.txtd0e1f1b2d92b134dc7a77aa1a50730f1MD52ORIGINAL001255272.pdfTexto completo (inglês)application/pdf2590528http://www.lume.ufrgs.br/bitstream/10183/290803/1/001255272.pdf2535813c7f47f6e3f7286263f9c26b85MD5110183/2908032025-04-26 06:55:59.725101oai:www.lume.ufrgs.br:10183/290803Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532025-04-26T09:55:59Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv How to classify domain entities into top-level ontology concepts using language models : a study across multiple labels, resources, domains, and languages
dc.title.alternative.pt.fl_str_mv Com oclassificar entidades de domínio em conceitos de ontologias de topo usando modelos de linguagem: um estudo com múltiplos rótulos, recursos, domínios, e idiomas
title How to classify domain entities into top-level ontology concepts using language models : a study across multiple labels, resources, domains, and languages
spellingShingle How to classify domain entities into top-level ontology concepts using language models : a study across multiple labels, resources, domains, and languages
Lopes Junior, Alcides Gonçalves
Ontologias
Linguagem natural
Modelo de linguagem
Aprendizado de máquina
title_short How to classify domain entities into top-level ontology concepts using language models : a study across multiple labels, resources, domains, and languages
title_full How to classify domain entities into top-level ontology concepts using language models : a study across multiple labels, resources, domains, and languages
title_fullStr How to classify domain entities into top-level ontology concepts using language models : a study across multiple labels, resources, domains, and languages
title_full_unstemmed How to classify domain entities into top-level ontology concepts using language models : a study across multiple labels, resources, domains, and languages
title_sort How to classify domain entities into top-level ontology concepts using language models : a study across multiple labels, resources, domains, and languages
author Lopes Junior, Alcides Gonçalves
author_facet Lopes Junior, Alcides Gonçalves
author_role author
dc.contributor.author.fl_str_mv Lopes Junior, Alcides Gonçalves
dc.contributor.advisor1.fl_str_mv Abel, Mara
contributor_str_mv Abel, Mara
dc.subject.por.fl_str_mv Ontologias
Linguagem natural
Modelo de linguagem
Aprendizado de máquina
topic Ontologias
Linguagem natural
Modelo de linguagem
Aprendizado de máquina
description Classificar entidades de domínio em seus respectivos conceitos de ontologias de topo é umproblema complexo que normalmente exige análise manual e profundo conhecimento especializado no domínio de interesse e em engenharia de ontologias. Uma abordagem eficiente para classificar entidades de domínio pode melhorar a integração e a interope rabilidade de dados, aspectos cruciais para a representação e modelagem estruturada do conhecimento. Motivados por esse desafio, propomos uma abordagem automatizada para classificar entidades de domínio em conceitos de ontologias de topo, utilizando Defini ções em Linguagem Natural (NLDs) dessas entidades de domínio. Nossa hipótese é que as NLDsencapsulam informações semânticas essenciais para associar entidades de domí nio a conceitos específicos de ontologias de topo. Além disso, propomos dois pipelines de classificação treinados utilizando técnicas de ajuste fino e abordagens clássicas de Apren dizado de Máquina (ML), aproveitando modelos de linguagem de última geração para lidar com os dados textuais. Para avaliar nossa proposta, construímos conjuntos de da dos multi-rótulo, multi-recurso e multilíngues, extraídos do BabelNet e de ontologias de domínio disponíveis no repositório OBO Foundry. Esses conjuntos de dados abrangem mapeamentos para as ontologias de topo DOLCE-Lite-Plus (DLP) e Basic Formal Onto logy (BFO), garantindo uma coleção diversa e representativa de entidades de domínio e suas respectivas classificações em ontologias de topo, incluindo diferentes representações textuais das entidades de domínio, como NLDs, definienda, definientia e sentenças de exemplo. Em nossos experimentos, investigamos a eficácia de nossa abordagem em diferentes técnicas de representação textual, idiomas, recursos de conhecimento, domínios de conhecimento e ontologias de domínio. Os resultados de nossos experimentos desta camovalor de aproveitar Definições em Linguagem Natural (NLDs) e pipelines baseados em embeddings na classificação de entidades de domínio em conceitos de ontologias de topo. Em diversos cenários, as NLDs superaram consistentemente outras abordagens de representação textual, alcançando macro F1-scores superiores a 90% na maioria dos ca sos. Alémdisso, pipelines utilizando o modelo de linguagem Mistral7B e um classificador KNNobtiveramummacroF1-scorede86,6%emavaliaçõesentrediferentes fontes de dados. Mesmo em experimentos entre diferentes domínios, onde o desempenho inicial caiu abaixo de 40%, a inclusão estratégica de dados específicos do domínio no treinamento resultou em melhorias significativas, evidenciando as diferenças entre NLDs gerais e es pecíficas de domínio nessa tarefa de classificação. Os achados ressaltam o potencial do desenvolvimento de ferramentas automatizadas que possam apoiar os engenheiros de on tologias no processo de desenvolvimento de ontologias. No entanto, algumas limitações permanecem, como a dependência de NLDs de alta qualidade e os desafios no tratamento de idiomas e domínios de conhecimento sub-representados.
publishDate 2025
dc.date.accessioned.fl_str_mv 2025-04-25T06:56:02Z
dc.date.issued.fl_str_mv 2025
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/290803
dc.identifier.nrb.pt_BR.fl_str_mv 001255272
url http://hdl.handle.net/10183/290803
identifier_str_mv 001255272
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/290803/2/001255272.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/290803/1/001255272.pdf
bitstream.checksum.fl_str_mv d0e1f1b2d92b134dc7a77aa1a50730f1
2535813c7f47f6e3f7286263f9c26b85
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br||lume@ufrgs.br
_version_ 1844167623523172352