Identificação e extração semiautomática de contextos definitórios em corpus com vistas à redação da definição terminológica: proposta de sistematização linguística para a língua portuguesa
| Ano de defesa: | 2014 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Tese |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Federal de São Carlos
Câmpus São Carlos |
| Programa de Pós-Graduação: |
Programa de Pós-Graduação em Linguística - PPGL
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Palavras-chave em Inglês: | |
| Área do conhecimento CNPq: | |
| Link de acesso: | https://hdl.handle.net/20.500.14289/22229 |
Resumo: | Computational tools in Natural Language Processing (NLP) are essential in handling electronic texts. Some of the resources commonly used are: frequency counters, word lists, keywords, and concordancers. It is noteworthy that this last tool, which terminologists use to view and extract defining contexts for certain terms, is useful in the stage of writing terminological definitions. Depending on the term and corpus size, the list of concordances may exceed a few hundred lines, making the task of defining the term extremely time-consuming. Yet, while concordancers facilitate the task of writing definitions, studies in terminology (ALARCÓN, 2009) and NLP (KLAVANS; MURESAN, 2001) have shown that it is possible to develop linguistic formalism that can be a substrate for the generation or enrichment of a system capable of detecting such contexts. While research in this direction has already been undertaken for English, Spanish, German, and French, among other languagesǡ research on Portuguese needs a more accurate linguistic explanation of defining context, in order to serve as a base for the development of similar systems for the Portuguese language. Therefore, the goals of this research are as follows: 1) to investigate the patterns of defining contexts found in technical corpora in Portuguese, 2) to provide linguistic knowledge which can be formalised computationally to create a system of semi-automatic extraction of candidate defining contexts, and 3) to evaluate the results generated. As the study’s corpus, we used scientific articles from the Bank of Portuguese (LAEL-PUC), and for the analysis, the following verbs were chosen: nomear ‘to name’, conceber ‘to conceive’, chamar ‘to call’, entender ‘to understand’, conhecer ‘to know’ and denominar ‘to denominate’. It was possible to do: 1) a quantitative and qualitative description of each verbal definitory pattern, 2) a local grammar for the chosen verbs with the purpose of aiding in the semiautomatic retrieval of definitory contexts, 3) an exclusion grammar to serve as a stoplist for local grammars and 4) a set of heuristics for a semiautomatic definitory context classifier. The evaluation of the lexical-syntactic rules of these six verbs showed 64% accuracy and 92% coverage in the global average, which represents an optimistic result in comparison to the results of previous studies. As a result, it was possible to 1) validate the methodology used, making it possible to extend it to other lexical-syntactic patterns and 2) obtain linguistic knowledge in order to integrate a semiautomatic computational system for definitory context candidates extraction for the Portuguese language. |
| id |
SCAR_64cb74955d41a595189d89db5b262666 |
|---|---|
| oai_identifier_str |
oai:repositorio.ufscar.br:20.500.14289/22229 |
| network_acronym_str |
SCAR |
| network_name_str |
Repositório Institucional da UFSCAR |
| repository_id_str |
|
| spelling |
Kamikawachi, Dayse Simon LandimAlmeida, Gladis Maria de Barcelloshttp://lattes.cnpq.br/4046789388750478http://lattes.cnpq.br/78460394221361992025-06-17T12:16:06Z2014-08-18KAMIKAWACHI, Dayse Simon Landim. Identificação e extração semiautomática de contextos definitórios em corpus com vistas à redação da definição terminológica: proposta de sistematização linguística para a língua portuguesa. 2014. Tese (Doutorado em Linguística) – Universidade Federal de São Carlos, São Carlos, 2014. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/22229.https://hdl.handle.net/20.500.14289/22229Computational tools in Natural Language Processing (NLP) are essential in handling electronic texts. Some of the resources commonly used are: frequency counters, word lists, keywords, and concordancers. It is noteworthy that this last tool, which terminologists use to view and extract defining contexts for certain terms, is useful in the stage of writing terminological definitions. Depending on the term and corpus size, the list of concordances may exceed a few hundred lines, making the task of defining the term extremely time-consuming. Yet, while concordancers facilitate the task of writing definitions, studies in terminology (ALARCÓN, 2009) and NLP (KLAVANS; MURESAN, 2001) have shown that it is possible to develop linguistic formalism that can be a substrate for the generation or enrichment of a system capable of detecting such contexts. While research in this direction has already been undertaken for English, Spanish, German, and French, among other languagesǡ research on Portuguese needs a more accurate linguistic explanation of defining context, in order to serve as a base for the development of similar systems for the Portuguese language. Therefore, the goals of this research are as follows: 1) to investigate the patterns of defining contexts found in technical corpora in Portuguese, 2) to provide linguistic knowledge which can be formalised computationally to create a system of semi-automatic extraction of candidate defining contexts, and 3) to evaluate the results generated. As the study’s corpus, we used scientific articles from the Bank of Portuguese (LAEL-PUC), and for the analysis, the following verbs were chosen: nomear ‘to name’, conceber ‘to conceive’, chamar ‘to call’, entender ‘to understand’, conhecer ‘to know’ and denominar ‘to denominate’. It was possible to do: 1) a quantitative and qualitative description of each verbal definitory pattern, 2) a local grammar for the chosen verbs with the purpose of aiding in the semiautomatic retrieval of definitory contexts, 3) an exclusion grammar to serve as a stoplist for local grammars and 4) a set of heuristics for a semiautomatic definitory context classifier. The evaluation of the lexical-syntactic rules of these six verbs showed 64% accuracy and 92% coverage in the global average, which represents an optimistic result in comparison to the results of previous studies. As a result, it was possible to 1) validate the methodology used, making it possible to extend it to other lexical-syntactic patterns and 2) obtain linguistic knowledge in order to integrate a semiautomatic computational system for definitory context candidates extraction for the Portuguese language.Ferramentas computacionais em Processamento de Língua Natural (PLN) são essenciais na manipulação de textos eletrônicos. Algumas ferramentas utilizadas que se podem citar são: contadores de frequência, listas de palavras, palavras-chave e concordanciadores. Destaca-se que esta última é a que terminólogos recorrem para visualizar e extrair contextos definitórios sobre determinado termo, os quais serão úteis na etapa da redação da definição terminológica. Ocorre que a lista de concordâncias, dependendo do termo e do tamanho do corpus, pode chegar muitas vezes a várias centenas de linhas, tornando a tarefa de definir extremamente morosa. Ainda que o concordanciador facilite essa tarefa humana, estudos no âmbito da Terminologia (ALARCÓN, 2009) e do PLN (KLAVANS; MURESAN, 2001) têm demonstrado que é possível desenvolver formalismo linguístico de maneira a auxiliar na geração ou enriquecimento de um sistema capaz de detectar automaticamente tais contextos. Pesquisas nessa direção têm sido realizadas para o inglês, espanhol, alemão, francês, entre outras línguas, mas para o português ainda há a necessidade de uma descrição linguística mais apurada sobre como se constituem os contextos definitórios, de modo que essa descrição possa servir de base para a construção de sistemas semelhantes para o português. Assim, esta pesquisa tem como objetivos gerais: 1) investigar padrões de contextos definitórios presentes em corpora de especialidades em língua portuguesa do Brasil; 2) proporcionar conhecimento linguístico que possa ser formalizado computacionalmente, a fim de integrar um sistema de extração semiautomática de candidatos a contextos definitórios; e, finalmente, 3) avaliar os resultados gerados. Na análise, foram eleitos os verbos “nomear”, “conceber”, “chamar”, “entender”, “conhecer” e “denominar” e, como corpus de estudo, esta pesquisa valeu-se de artigos científicos do Banco do Português (LAEL-PUC/SP). Foi possível realizar: 1) uma descrição quantitativa e qualitativa de cada padrão verbal definitório; 2) uma gramática local para os seis verbos, a fim de auxiliar na recuperação semiautomática de contextos definitórios; 3) uma gramática de exclusão para servir como uma stoplist das gramáticas locais; e 4) um conjunto de heurísticas para um classificador semiautomático de contextos definitórios. A avaliação geral apresentou precisão de 64% e cobertura de 92% na média global, o que demonstra um resultado otimista, se comparado com os demais trabalhos na literatura. Como resultado, foi possível: 1) validar a metodologia empregada a fim de estendê-la a outros padrões léxico-sintáticos; 2) obter conhecimento linguístico de modo a integrar um sistema computacional de extração semiautomática de candidatos a contextos definitórios para o português.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)porUniversidade Federal de São CarlosCâmpus São CarlosPrograma de Pós-Graduação em Linguística - PPGLUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessDefinitory contextTerminological definitionNatural language processingTerminologyContexto definitórioDefinição terminológicaProcessamento de linguagem naturalTerminologiaLINGUISTICA, LETRAS E ARTES::LINGUISTICA::TEORIA E ANALISE LINGUISTICAIdentificação e extração semiautomática de contextos definitórios em corpus com vistas à redação da definição terminológica: proposta de sistematização linguística para a língua portuguesaSemiautomatic identification and extraction of definitory contexts in corpora to support the writing of terminological definitions: a proposal for the linguistic systematization of the Portuguese languageIdentificación y extracción semiautomática de contextos definitorios en corpus para apoyar la redacción de definiciones terminológicas: una propuesta de sistematización lingüística de la lengua portuguesainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALTeseFinal-Dayse_Simon_Landim_Kamikawachi.pdfTeseFinal-Dayse_Simon_Landim_Kamikawachi.pdfapplication/pdf3437595https://repositorio.ufscar.br/bitstreams/d27aff78-cedf-4232-ad6d-f48672e63802/download769df4736bba35228196576da7bc87b0MD51trueAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8905https://repositorio.ufscar.br/bitstreams/99c2a2f3-0e4d-4315-89e7-98266f348afb/download57e258e544f104f04afb1d5e5b4e53c0MD52falseAnonymousREADTEXTTeseFinal-Dayse_Simon_Landim_Kamikawachi.pdf.txtTeseFinal-Dayse_Simon_Landim_Kamikawachi.pdf.txtExtracted texttext/plain103879https://repositorio.ufscar.br/bitstreams/bc9e6764-bb34-4f19-9f5d-22dd197ba97e/download95e13f6841aa5ba297869cfdb6cc8013MD53falseAnonymousREADTHUMBNAILTeseFinal-Dayse_Simon_Landim_Kamikawachi.pdf.jpgTeseFinal-Dayse_Simon_Landim_Kamikawachi.pdf.jpgGenerated Thumbnailimage/jpeg6968https://repositorio.ufscar.br/bitstreams/786a5ba6-6943-45d8-ba36-95da232a92cc/downloade9edd66e7ff73791ef1b9691fa4d0e6cMD54falseAnonymousREAD20.500.14289/222292025-06-18 00:03:20.453http://creativecommons.org/licenses/by-nc-nd/3.0/br/Attribution-NonCommercial-NoDerivs 3.0 Brazilopen.accessoai:repositorio.ufscar.br:20.500.14289/22229https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-06-18T03:03:20Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false |
| dc.title.por.fl_str_mv |
Identificação e extração semiautomática de contextos definitórios em corpus com vistas à redação da definição terminológica: proposta de sistematização linguística para a língua portuguesa |
| dc.title.alternative.eng.fl_str_mv |
Semiautomatic identification and extraction of definitory contexts in corpora to support the writing of terminological definitions: a proposal for the linguistic systematization of the Portuguese language |
| dc.title.alternative.spa.fl_str_mv |
Identificación y extracción semiautomática de contextos definitorios en corpus para apoyar la redacción de definiciones terminológicas: una propuesta de sistematización lingüística de la lengua portuguesa |
| title |
Identificação e extração semiautomática de contextos definitórios em corpus com vistas à redação da definição terminológica: proposta de sistematização linguística para a língua portuguesa |
| spellingShingle |
Identificação e extração semiautomática de contextos definitórios em corpus com vistas à redação da definição terminológica: proposta de sistematização linguística para a língua portuguesa Kamikawachi, Dayse Simon Landim Definitory context Terminological definition Natural language processing Terminology Contexto definitório Definição terminológica Processamento de linguagem natural Terminologia LINGUISTICA, LETRAS E ARTES::LINGUISTICA::TEORIA E ANALISE LINGUISTICA |
| title_short |
Identificação e extração semiautomática de contextos definitórios em corpus com vistas à redação da definição terminológica: proposta de sistematização linguística para a língua portuguesa |
| title_full |
Identificação e extração semiautomática de contextos definitórios em corpus com vistas à redação da definição terminológica: proposta de sistematização linguística para a língua portuguesa |
| title_fullStr |
Identificação e extração semiautomática de contextos definitórios em corpus com vistas à redação da definição terminológica: proposta de sistematização linguística para a língua portuguesa |
| title_full_unstemmed |
Identificação e extração semiautomática de contextos definitórios em corpus com vistas à redação da definição terminológica: proposta de sistematização linguística para a língua portuguesa |
| title_sort |
Identificação e extração semiautomática de contextos definitórios em corpus com vistas à redação da definição terminológica: proposta de sistematização linguística para a língua portuguesa |
| author |
Kamikawachi, Dayse Simon Landim |
| author_facet |
Kamikawachi, Dayse Simon Landim |
| author_role |
author |
| dc.contributor.authorlattes.none.fl_str_mv |
http://lattes.cnpq.br/7846039422136199 |
| dc.contributor.author.fl_str_mv |
Kamikawachi, Dayse Simon Landim |
| dc.contributor.advisor1.fl_str_mv |
Almeida, Gladis Maria de Barcellos |
| dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/4046789388750478 |
| contributor_str_mv |
Almeida, Gladis Maria de Barcellos |
| dc.subject.eng.fl_str_mv |
Definitory context Terminological definition Natural language processing Terminology |
| topic |
Definitory context Terminological definition Natural language processing Terminology Contexto definitório Definição terminológica Processamento de linguagem natural Terminologia LINGUISTICA, LETRAS E ARTES::LINGUISTICA::TEORIA E ANALISE LINGUISTICA |
| dc.subject.por.fl_str_mv |
Contexto definitório Definição terminológica Processamento de linguagem natural Terminologia |
| dc.subject.cnpq.fl_str_mv |
LINGUISTICA, LETRAS E ARTES::LINGUISTICA::TEORIA E ANALISE LINGUISTICA |
| description |
Computational tools in Natural Language Processing (NLP) are essential in handling electronic texts. Some of the resources commonly used are: frequency counters, word lists, keywords, and concordancers. It is noteworthy that this last tool, which terminologists use to view and extract defining contexts for certain terms, is useful in the stage of writing terminological definitions. Depending on the term and corpus size, the list of concordances may exceed a few hundred lines, making the task of defining the term extremely time-consuming. Yet, while concordancers facilitate the task of writing definitions, studies in terminology (ALARCÓN, 2009) and NLP (KLAVANS; MURESAN, 2001) have shown that it is possible to develop linguistic formalism that can be a substrate for the generation or enrichment of a system capable of detecting such contexts. While research in this direction has already been undertaken for English, Spanish, German, and French, among other languagesǡ research on Portuguese needs a more accurate linguistic explanation of defining context, in order to serve as a base for the development of similar systems for the Portuguese language. Therefore, the goals of this research are as follows: 1) to investigate the patterns of defining contexts found in technical corpora in Portuguese, 2) to provide linguistic knowledge which can be formalised computationally to create a system of semi-automatic extraction of candidate defining contexts, and 3) to evaluate the results generated. As the study’s corpus, we used scientific articles from the Bank of Portuguese (LAEL-PUC), and for the analysis, the following verbs were chosen: nomear ‘to name’, conceber ‘to conceive’, chamar ‘to call’, entender ‘to understand’, conhecer ‘to know’ and denominar ‘to denominate’. It was possible to do: 1) a quantitative and qualitative description of each verbal definitory pattern, 2) a local grammar for the chosen verbs with the purpose of aiding in the semiautomatic retrieval of definitory contexts, 3) an exclusion grammar to serve as a stoplist for local grammars and 4) a set of heuristics for a semiautomatic definitory context classifier. The evaluation of the lexical-syntactic rules of these six verbs showed 64% accuracy and 92% coverage in the global average, which represents an optimistic result in comparison to the results of previous studies. As a result, it was possible to 1) validate the methodology used, making it possible to extend it to other lexical-syntactic patterns and 2) obtain linguistic knowledge in order to integrate a semiautomatic computational system for definitory context candidates extraction for the Portuguese language. |
| publishDate |
2014 |
| dc.date.issued.fl_str_mv |
2014-08-18 |
| dc.date.accessioned.fl_str_mv |
2025-06-17T12:16:06Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
| format |
doctoralThesis |
| status_str |
publishedVersion |
| dc.identifier.citation.fl_str_mv |
KAMIKAWACHI, Dayse Simon Landim. Identificação e extração semiautomática de contextos definitórios em corpus com vistas à redação da definição terminológica: proposta de sistematização linguística para a língua portuguesa. 2014. Tese (Doutorado em Linguística) – Universidade Federal de São Carlos, São Carlos, 2014. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/22229. |
| dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/20.500.14289/22229 |
| identifier_str_mv |
KAMIKAWACHI, Dayse Simon Landim. Identificação e extração semiautomática de contextos definitórios em corpus com vistas à redação da definição terminológica: proposta de sistematização linguística para a língua portuguesa. 2014. Tese (Doutorado em Linguística) – Universidade Federal de São Carlos, São Carlos, 2014. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/22229. |
| url |
https://hdl.handle.net/20.500.14289/22229 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
| eu_rights_str_mv |
openAccess |
| dc.publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
| dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Linguística - PPGL |
| dc.publisher.initials.fl_str_mv |
UFSCar |
| publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos (UFSCAR) instacron:UFSCAR |
| instname_str |
Universidade Federal de São Carlos (UFSCAR) |
| instacron_str |
UFSCAR |
| institution |
UFSCAR |
| reponame_str |
Repositório Institucional da UFSCAR |
| collection |
Repositório Institucional da UFSCAR |
| bitstream.url.fl_str_mv |
https://repositorio.ufscar.br/bitstreams/d27aff78-cedf-4232-ad6d-f48672e63802/download https://repositorio.ufscar.br/bitstreams/99c2a2f3-0e4d-4315-89e7-98266f348afb/download https://repositorio.ufscar.br/bitstreams/bc9e6764-bb34-4f19-9f5d-22dd197ba97e/download https://repositorio.ufscar.br/bitstreams/786a5ba6-6943-45d8-ba36-95da232a92cc/download |
| bitstream.checksum.fl_str_mv |
769df4736bba35228196576da7bc87b0 57e258e544f104f04afb1d5e5b4e53c0 95e13f6841aa5ba297869cfdb6cc8013 e9edd66e7ff73791ef1b9691fa4d0e6c |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR) |
| repository.mail.fl_str_mv |
repositorio.sibi@ufscar.br |
| _version_ |
1851688800718159872 |