Proposta de metodologia para abordagem terminológica da análise de domínio baseada em mineração de texto: uma aplicação na ciência da informação

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Reis, Elismar Vicente dos
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Estadual Paulista (Unesp)
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://hdl.handle.net/11449/244152
Resumo: Esta tese teve como finalidade elaborar uma metodologia para operacionalização da abordagem terminológica da análise de domínio. Estudos terminológicos investigam padrões das linguagens dos discursos, e suas análises baseiam-se em unidades de significação nos textos, sem esquecer do contexto sociocultural. Nessa mesma linha, a análise de domínio busca descobrir estruturas de conhecimento, padrões de linguagem e comportamento de cooperação nos domínios. A mineração de texto serve para automatizar a extração de regularidades, padrões ou tendências nos documentos em linguagem natural. Portanto, a análise de domínio propõe os objetos a serem investigados e a mineração de texto fornece os meios para as descobertas. Por isso, para desenvolver a metodologia, fez-se uso das técnicas de dedução de frequência de termos e análise por categorias temáticas, advindas do campo da linguística e automatizadas pela mineração de texto. Desenvolveu-se um fluxograma canônico, que nesta tese concebeu-se no software Knime. O software é composto por módulos para pré-processamento, transformação e mineração de textos para descoberta de conhecimento. A metodologia foi aplicada em 287 resumos de estudos apresentados pelo GT7 nos ENANCIBs de 2012 a 2018. A automatização proporcionou melhorias nas questões de limitação humana quanto a leitura, exploração e registro de grandes volumes de dados. Por meio da técnica de dedução de frequência de termos, foram encontradas especificidades desconhecidas na linguagem dos resumos, relacionadas à quantidade de termos que compõem as sentenças e termos mais recorrentes. Por meio do algoritmo de Alocação Latente de Dirichlet (Latent Dirichlet Allocation – LDA), identificou-se cinco tópicos, cada um constituído por dez palavras, que representam os principais temas do corpus. O algoritmo possibilitou ainda identificar clusters de resumos com interlocução temática. Desse modo, encontraram-se adjacências nas comunicações do grupo de autores, que mesmo sem se conhecerem, desenvolveram textos convergentes, formando uma comunidade com discursos correlatos. O algoritmo snowball foi empregue para realização do stemming, que agrupa palavras de mesmo radical, pois considera-se que tais termos possuem significado semelhante e proximidade gramatical. A radicalização reduziu o conjunto inicial de termos de 5.820 para 3.657, simplificando e limitando a quantidade, o que pode auxiliar processos de indexação, buscas, recuperação da informação e custo computacional. Os resultados foram promissores, pois conseguiu-se automatizar análises de texto e de conteúdo. Conclui-se que a metodologia pode contribuir com a comunidade científica para realização de pesquisas em linguagem natural, de busca e recuperação da informação, e para descoberta de padrões e articulações temáticas dos textos. Pode corroborar também para expansão de estudos da literatura científica fora das bases bibliográficas mais conhecidas. As temáticas da área de linguística, assim como análise de domínio e mineração de texto, possuem evidente consonância conceitual, demonstrando a pertinência da pesquisa. A metodologia proporcionou a operacionalização da abordagem terminológica de forma automatizada e em consonância a análise de domínio, pois, os algoritmos utilizados consideram indicadores em relação ao conjunto total dos textos, revelando perspectivas informacionais coletivas e não individuais.
id UNSP_793db3fc64c6a56fcf3ac7d3403684e5
oai_identifier_str oai:repositorio.unesp.br:11449/244152
network_acronym_str UNSP
network_name_str Repositório Institucional da UNESP
repository_id_str
spelling Proposta de metodologia para abordagem terminológica da análise de domínio baseada em mineração de texto: uma aplicação na ciência da informaçãoMethodology proposal for a terminological approach to domain analysis based on text mining: an application in information sciencePropuesta metodológica para una aproximación terminológica al análisis de dominio basada en minería de textos: una aplicación en ciencias de la informaciónMetodologiaTerminologiaAnálise de domínioMineração de textoLiteratura científicaMethodologyTerminologyDomain analysisText miningScientific literatureAnálisis de dominioExtracción de textosEsta tese teve como finalidade elaborar uma metodologia para operacionalização da abordagem terminológica da análise de domínio. Estudos terminológicos investigam padrões das linguagens dos discursos, e suas análises baseiam-se em unidades de significação nos textos, sem esquecer do contexto sociocultural. Nessa mesma linha, a análise de domínio busca descobrir estruturas de conhecimento, padrões de linguagem e comportamento de cooperação nos domínios. A mineração de texto serve para automatizar a extração de regularidades, padrões ou tendências nos documentos em linguagem natural. Portanto, a análise de domínio propõe os objetos a serem investigados e a mineração de texto fornece os meios para as descobertas. Por isso, para desenvolver a metodologia, fez-se uso das técnicas de dedução de frequência de termos e análise por categorias temáticas, advindas do campo da linguística e automatizadas pela mineração de texto. Desenvolveu-se um fluxograma canônico, que nesta tese concebeu-se no software Knime. O software é composto por módulos para pré-processamento, transformação e mineração de textos para descoberta de conhecimento. A metodologia foi aplicada em 287 resumos de estudos apresentados pelo GT7 nos ENANCIBs de 2012 a 2018. A automatização proporcionou melhorias nas questões de limitação humana quanto a leitura, exploração e registro de grandes volumes de dados. Por meio da técnica de dedução de frequência de termos, foram encontradas especificidades desconhecidas na linguagem dos resumos, relacionadas à quantidade de termos que compõem as sentenças e termos mais recorrentes. Por meio do algoritmo de Alocação Latente de Dirichlet (Latent Dirichlet Allocation – LDA), identificou-se cinco tópicos, cada um constituído por dez palavras, que representam os principais temas do corpus. O algoritmo possibilitou ainda identificar clusters de resumos com interlocução temática. Desse modo, encontraram-se adjacências nas comunicações do grupo de autores, que mesmo sem se conhecerem, desenvolveram textos convergentes, formando uma comunidade com discursos correlatos. O algoritmo snowball foi empregue para realização do stemming, que agrupa palavras de mesmo radical, pois considera-se que tais termos possuem significado semelhante e proximidade gramatical. A radicalização reduziu o conjunto inicial de termos de 5.820 para 3.657, simplificando e limitando a quantidade, o que pode auxiliar processos de indexação, buscas, recuperação da informação e custo computacional. Os resultados foram promissores, pois conseguiu-se automatizar análises de texto e de conteúdo. Conclui-se que a metodologia pode contribuir com a comunidade científica para realização de pesquisas em linguagem natural, de busca e recuperação da informação, e para descoberta de padrões e articulações temáticas dos textos. Pode corroborar também para expansão de estudos da literatura científica fora das bases bibliográficas mais conhecidas. As temáticas da área de linguística, assim como análise de domínio e mineração de texto, possuem evidente consonância conceitual, demonstrando a pertinência da pesquisa. A metodologia proporcionou a operacionalização da abordagem terminológica de forma automatizada e em consonância a análise de domínio, pois, os algoritmos utilizados consideram indicadores em relação ao conjunto total dos textos, revelando perspectivas informacionais coletivas e não individuais.This study aimed to develop a methodology for operationalizing the terminological approach to domain analysis. Terminological studies investigate language patterns of discourses, and their analyzes are based on units of meaning in texts, without forgetting the sociocultural context. Along the same lines, domain analysis seeks to discover knowledge structures, language patterns and cooperation behavior in domains. Text mining serves to automate the extraction of regularities, patterns or trends in natural language documents. Therefore, domain analysis proposes the objects to be investigated and text mining provides the means for discoveries. Therefore, in order to develop the methodology, we used the techniques of deducing the frequency of terms and analysis by thematic categories, coming from the field of linguistics and automated by text mining. A canonical flowchart was developed, which in this thesis was conceived in the Knime software. The software consists of modules for pre-processing, transforming and mining texts for knowledge discovery. The methodology was applied to 287 abstracts of studies presented by GT7 at the ENANCIBs from 2012 to 2018. Automation provided improvements in human limitation issues regarding the reading, exploration and recording of large volumes of data. Through the technique of deducing the frequency of terms, unknown specificities were found in the language of the abstracts, related to the number of terms that make up the most recurrent sentences and terms. Using the Latent Dirichlet Allocation (LDA) algorithm, five topics were identified, each consisting of ten words, representing the main themes of the corpus. The algorithm also made it possible to identify clusters of abstracts with thematic interlocution. In this way, adjacencies were found in the communications of the group of authors, who, even without knowing each other, developed converging texts, forming a community with related discourses. The snowball algorithm was used to carry out stemming, which groups words with the same root, since it is considered that such terms have similar meaning and grammatical proximity. Radicalization reduced the initial set of terms from 5.820 to 3.657, simplifying and limiting the quantity, which can help indexing processes, searches, information retrieval and computational cost. The results were promising, as it was possible to automate text and content analysis. It is concluded that the methodology can contribute to the scientific community to carry out research in natural language, to search and retrieve information, and to discover patterns and thematic articulations of the texts. It can also corroborate the expansion of studies in the scientific literature outside the most well-known bibliographic bases. The themes in the area of linguistics, as well as domain analysis and text mining, have an evident conceptual consonance, demonstrating the pertinence of the research. The methodology provided the operationalization of the terminological approach in an automated way and in line with the domain analysis, since the algorithms used consider indicators in relation to the total set of texts, revealing collective and not individual informational perspectives.Não recebi financiamentoUniversidade Estadual Paulista (Unesp)Oliveira, Ely Francina Tannuri de [UNESP]Sant'Ana, Ricardo César Gonçalves [UNESP]Universidade Estadual Paulista (Unesp)Reis, Elismar Vicente dos2023-06-21T13:44:35Z2023-06-21T13:44:35Z2023-03-30info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfREIS, Elismar Vicente dos. Proposta de metodologia para abordagem terminológica da análise de domínio baseada em mineração de texto: uma aplicação na ciência da informação. Universidade Estadual Paulista (Unesp), 2023.http://hdl.handle.net/11449/24415233004110043P4porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2024-08-12T18:32:48Zoai:repositorio.unesp.br:11449/244152Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestrepositoriounesp@unesp.bropendoar:29462024-08-12T18:32:48Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false
dc.title.none.fl_str_mv Proposta de metodologia para abordagem terminológica da análise de domínio baseada em mineração de texto: uma aplicação na ciência da informação
Methodology proposal for a terminological approach to domain analysis based on text mining: an application in information science
Propuesta metodológica para una aproximación terminológica al análisis de dominio basada en minería de textos: una aplicación en ciencias de la información
title Proposta de metodologia para abordagem terminológica da análise de domínio baseada em mineração de texto: uma aplicação na ciência da informação
spellingShingle Proposta de metodologia para abordagem terminológica da análise de domínio baseada em mineração de texto: uma aplicação na ciência da informação
Reis, Elismar Vicente dos
Metodologia
Terminologia
Análise de domínio
Mineração de texto
Literatura científica
Methodology
Terminology
Domain analysis
Text mining
Scientific literature
Análisis de dominio
Extracción de textos
title_short Proposta de metodologia para abordagem terminológica da análise de domínio baseada em mineração de texto: uma aplicação na ciência da informação
title_full Proposta de metodologia para abordagem terminológica da análise de domínio baseada em mineração de texto: uma aplicação na ciência da informação
title_fullStr Proposta de metodologia para abordagem terminológica da análise de domínio baseada em mineração de texto: uma aplicação na ciência da informação
title_full_unstemmed Proposta de metodologia para abordagem terminológica da análise de domínio baseada em mineração de texto: uma aplicação na ciência da informação
title_sort Proposta de metodologia para abordagem terminológica da análise de domínio baseada em mineração de texto: uma aplicação na ciência da informação
author Reis, Elismar Vicente dos
author_facet Reis, Elismar Vicente dos
author_role author
dc.contributor.none.fl_str_mv Oliveira, Ely Francina Tannuri de [UNESP]
Sant'Ana, Ricardo César Gonçalves [UNESP]
Universidade Estadual Paulista (Unesp)
dc.contributor.author.fl_str_mv Reis, Elismar Vicente dos
dc.subject.por.fl_str_mv Metodologia
Terminologia
Análise de domínio
Mineração de texto
Literatura científica
Methodology
Terminology
Domain analysis
Text mining
Scientific literature
Análisis de dominio
Extracción de textos
topic Metodologia
Terminologia
Análise de domínio
Mineração de texto
Literatura científica
Methodology
Terminology
Domain analysis
Text mining
Scientific literature
Análisis de dominio
Extracción de textos
description Esta tese teve como finalidade elaborar uma metodologia para operacionalização da abordagem terminológica da análise de domínio. Estudos terminológicos investigam padrões das linguagens dos discursos, e suas análises baseiam-se em unidades de significação nos textos, sem esquecer do contexto sociocultural. Nessa mesma linha, a análise de domínio busca descobrir estruturas de conhecimento, padrões de linguagem e comportamento de cooperação nos domínios. A mineração de texto serve para automatizar a extração de regularidades, padrões ou tendências nos documentos em linguagem natural. Portanto, a análise de domínio propõe os objetos a serem investigados e a mineração de texto fornece os meios para as descobertas. Por isso, para desenvolver a metodologia, fez-se uso das técnicas de dedução de frequência de termos e análise por categorias temáticas, advindas do campo da linguística e automatizadas pela mineração de texto. Desenvolveu-se um fluxograma canônico, que nesta tese concebeu-se no software Knime. O software é composto por módulos para pré-processamento, transformação e mineração de textos para descoberta de conhecimento. A metodologia foi aplicada em 287 resumos de estudos apresentados pelo GT7 nos ENANCIBs de 2012 a 2018. A automatização proporcionou melhorias nas questões de limitação humana quanto a leitura, exploração e registro de grandes volumes de dados. Por meio da técnica de dedução de frequência de termos, foram encontradas especificidades desconhecidas na linguagem dos resumos, relacionadas à quantidade de termos que compõem as sentenças e termos mais recorrentes. Por meio do algoritmo de Alocação Latente de Dirichlet (Latent Dirichlet Allocation – LDA), identificou-se cinco tópicos, cada um constituído por dez palavras, que representam os principais temas do corpus. O algoritmo possibilitou ainda identificar clusters de resumos com interlocução temática. Desse modo, encontraram-se adjacências nas comunicações do grupo de autores, que mesmo sem se conhecerem, desenvolveram textos convergentes, formando uma comunidade com discursos correlatos. O algoritmo snowball foi empregue para realização do stemming, que agrupa palavras de mesmo radical, pois considera-se que tais termos possuem significado semelhante e proximidade gramatical. A radicalização reduziu o conjunto inicial de termos de 5.820 para 3.657, simplificando e limitando a quantidade, o que pode auxiliar processos de indexação, buscas, recuperação da informação e custo computacional. Os resultados foram promissores, pois conseguiu-se automatizar análises de texto e de conteúdo. Conclui-se que a metodologia pode contribuir com a comunidade científica para realização de pesquisas em linguagem natural, de busca e recuperação da informação, e para descoberta de padrões e articulações temáticas dos textos. Pode corroborar também para expansão de estudos da literatura científica fora das bases bibliográficas mais conhecidas. As temáticas da área de linguística, assim como análise de domínio e mineração de texto, possuem evidente consonância conceitual, demonstrando a pertinência da pesquisa. A metodologia proporcionou a operacionalização da abordagem terminológica de forma automatizada e em consonância a análise de domínio, pois, os algoritmos utilizados consideram indicadores em relação ao conjunto total dos textos, revelando perspectivas informacionais coletivas e não individuais.
publishDate 2023
dc.date.none.fl_str_mv 2023-06-21T13:44:35Z
2023-06-21T13:44:35Z
2023-03-30
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv REIS, Elismar Vicente dos. Proposta de metodologia para abordagem terminológica da análise de domínio baseada em mineração de texto: uma aplicação na ciência da informação. Universidade Estadual Paulista (Unesp), 2023.
http://hdl.handle.net/11449/244152
33004110043P4
identifier_str_mv REIS, Elismar Vicente dos. Proposta de metodologia para abordagem terminológica da análise de domínio baseada em mineração de texto: uma aplicação na ciência da informação. Universidade Estadual Paulista (Unesp), 2023.
33004110043P4
url http://hdl.handle.net/11449/244152
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNESP
instname:Universidade Estadual Paulista (UNESP)
instacron:UNESP
instname_str Universidade Estadual Paulista (UNESP)
instacron_str UNESP
institution UNESP
reponame_str Repositório Institucional da UNESP
collection Repositório Institucional da UNESP
repository.name.fl_str_mv Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)
repository.mail.fl_str_mv repositoriounesp@unesp.br
_version_ 1854954819177938944