Um estudo sobre a relevância dos padrões lexicais para a interpretação de textos por meio da extração de informação

Detalhes bibliográficos
Ano de defesa: 2006
Autor(a) principal: Porfirio, Lucielen lattes
Orientador(a): Bidarra, Jorge lattes
Banca de defesa: Benites, Sonia Aparecida Lopes lattes, Sella, Aparecida Feola lattes
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Estadual do Oeste do Parana
Programa de Pós-Graduação: Programa de Pós-Graduação "Stricto Sensu" em Letras
Departamento: Linguagem e Sociedade
País: BR
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: http://tede.unioeste.br:8080/tede/handle/tede/2324
Resumo: Text interpretation is a complex process that depends not only on linguistics aspects, but also cognitive and extra linguistics. In order to interpret a text, any reader must, initially, be able to decode the language and formulate mental representations of the message brought by the text. In order to do so, he will need, necessarily, to make hypothesis and inferences, and activate his previous knowledge, either linguistics or extra linguistics. Besides, the reader must locate the main ideas of the text that are expressed in the lexical items and in the relation among them. In such case, it s reasonable to admit that the identification of isolated terms in a text and the analysis of its real function in it are both very important elements for the text interpretation work. Several methods might be used for working with text interpretation. Among the most common we have the answer to questions (oral or written) about the content of the text, and more recently the Information Extraction (IE). This one is a method that consists, fundamentally, on identification and extraction of relevant linguistic aspects (lexical, syntactic and conceptual semantic) used for different types of objectives, such as: summarization, categorization and text interpretation. Through the location of keywords and linguistics structures the method goal is identify and extract the most important information that together may allow the individual to understand the subject discussed there more easily. Assuming that the interactions among lexical items are one of the most important elements in text interpretation, the goal of this paper is to discuss in what way the reader could better explore this relation, in order to help him to interpret a text. For the analysis three keywords were tracked in a research corpus in the dominium of gastroenterology: intestine , cause and helicobacter pylori . Based on the lexical patterns of collocation, colligation and semantic prosody, these words were investigated, observing how the linguistic relations of each one could reveal meanings and help in interpretation process. As a result, we noticed that through the observation of the lexical patters it was possible to extract information regarding the text subject, as well as important aspects discussed in them, such as diseases, its causes, effects and treatments, even without having access to the whole texts.
id UNIOESTE-1_d9a3d5694df77acebbbf222a71a1e5e8
oai_identifier_str oai:tede.unioeste.br:tede/2324
network_acronym_str UNIOESTE-1
network_name_str Biblioteca Digital de Teses e Dissertações do UNIOESTE
repository_id_str
spelling Bidarra, Jorgehttp://lattes.cnpq.br/4214786666641182Benites, Sonia Aparecida Lopeshttp://lattes.cnpq.br/8970977949384491Sella, Aparecida Feolahttp://lattes.cnpq.br/3297322988541357http://lattes.cnpq.br/3364822682052612Porfirio, Lucielen2017-07-10T18:55:26Z2006-12-212006-02-17PORFIRIO, Lucielen. Um estudo sobre a relevância dos padrões lexicais para a interpretação de textos por meio da extração de informação. 2006. 101 f. Dissertação (Mestrado em Linguagem e Sociedade) - Universidade Estadual do Oeste do Parana, Cascavel, 2006.http://tede.unioeste.br:8080/tede/handle/tede/2324Text interpretation is a complex process that depends not only on linguistics aspects, but also cognitive and extra linguistics. In order to interpret a text, any reader must, initially, be able to decode the language and formulate mental representations of the message brought by the text. In order to do so, he will need, necessarily, to make hypothesis and inferences, and activate his previous knowledge, either linguistics or extra linguistics. Besides, the reader must locate the main ideas of the text that are expressed in the lexical items and in the relation among them. In such case, it s reasonable to admit that the identification of isolated terms in a text and the analysis of its real function in it are both very important elements for the text interpretation work. Several methods might be used for working with text interpretation. Among the most common we have the answer to questions (oral or written) about the content of the text, and more recently the Information Extraction (IE). This one is a method that consists, fundamentally, on identification and extraction of relevant linguistic aspects (lexical, syntactic and conceptual semantic) used for different types of objectives, such as: summarization, categorization and text interpretation. Through the location of keywords and linguistics structures the method goal is identify and extract the most important information that together may allow the individual to understand the subject discussed there more easily. Assuming that the interactions among lexical items are one of the most important elements in text interpretation, the goal of this paper is to discuss in what way the reader could better explore this relation, in order to help him to interpret a text. For the analysis three keywords were tracked in a research corpus in the dominium of gastroenterology: intestine , cause and helicobacter pylori . Based on the lexical patterns of collocation, colligation and semantic prosody, these words were investigated, observing how the linguistic relations of each one could reveal meanings and help in interpretation process. As a result, we noticed that through the observation of the lexical patters it was possible to extract information regarding the text subject, as well as important aspects discussed in them, such as diseases, its causes, effects and treatments, even without having access to the whole texts.A interpretação de textos é um processo complexo por natureza que depende não apenas de aspectos lingüísticos, mas também, cognitivos e extralingüísticos. Para interpretar um texto, todo leitor deve, inicialmente, ser capaz de decodificar o código desse texto e formular as representações mentais sobre o que é trazido como mensagem. Para tanto, o leitor precisará, necessariamente, levantar hipóteses, fazer inferências, e ativar seus conhecimentos prévios, tanto os lingüísticos quanto os de mundo (extralingüísticos). Além disso, o leitor deve localizar as principais idéias contidas num texto, as quais estão expressas nos itens lexicais e nas interações entre eles. Sendo assim, é razoável admitir que a identificação de termos isolados num texto e a análise das suas verdadeiras funções constituem, ambos, elementos de alta relevância para um trabalho de análise interpretativa. Vários métodos têm sido utilizados para se trabalhar a interpretação de textos. Dentre os mais comuns, citamos o exercício de respostas a perguntas (orais ou escritas) e, mais recentemente, a extração de informação. A extração de informação (EI) de textos é um método que consiste, fundamentalmente, na identificação e extração de aspectos lingüísticos relevantes (lexicais, sintáticos e semântico-conceituais), usados para diferentes tipos de finalidades, tais como: a sumarização, a categorização e a interpretação textual. A partir da localização de palavras-chaves e de estruturas lingüísticas, o objetivo do método é não só identificar, mas também extrair do texto as informações importantes que, em conjunto, possam permitir ao indivíduo compreender mais facilmente o assunto ali tratado. Assumindo que as interações entre os itens lexicais são, senão os únicos, um dos elementos mais importantes na interpretação de textos, o objetivo dessa pesquisa é discutir de que maneira essas relações poderiam ser melhor exploradas pelo leitor, para auxiliá-lo no trabalho interpretativo. Para a análise três palavras-chaves foram rastreadas num corpus de pesquisa no domínio da gastroenterologia: intestino , causa e helicobacter pylori . Com base nos padrões lexicais da colocação, coligação e prosódia semântica, as ocorrências de cada uma das palavras foram analisadas, com o intuito de verificar como as relações lingüísticas revelam sentidos e auxiliam no processo interpretativo. Como resultado, observamos que, mesmo sem acesso ao texto como um todo, a partir das ocorrências dos padrões foi possível extrair informações relativas ao assunto dos textos, bem como de aspectos importantes neles discutidos, tais como patologias, suas causas e efeitos.Made available in DSpace on 2017-07-10T18:55:26Z (GMT). No. of bitstreams: 1 Lucielen Porfirio.pdf: 522478 bytes, checksum: 120e6f485faab939a4f8ab24bf1f53d1 (MD5) Previous issue date: 2006-02-17application/pdfporUniversidade Estadual do Oeste do ParanaPrograma de Pós-Graduação "Stricto Sensu" em LetrasUNIOESTEBRLinguagem e Sociedadehttp://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessinterpretação de textosextração de informaçãopalavra-chavepadrões lexicaisText interpretationinformation extractionkeywordlexical patternsCNPQ::LINGUISTICA, LETRAS E ARTES::LETRASUm estudo sobre a relevância dos padrões lexicais para a interpretação de textos por meio da extração de informaçãoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Biblioteca Digital de Teses e Dissertações do UNIOESTEinstname:Universidade Estadual do Oeste do Paraná (UNIOESTE)instacron:UNIOESTEORIGINALLucielen Porfirio.pdfapplication/pdf522478http://tede.unioeste.br:8080/tede/bitstream/tede/2324/1/Lucielen+Porfirio.pdf120e6f485faab939a4f8ab24bf1f53d1MD51tede/23242017-07-10 15:55:26.866oai:tede.unioeste.br:tede/2324Biblioteca Digital de Teses e Dissertaçõeshttp://tede.unioeste.br/PUBhttp://tede.unioeste.br/oai/requestbiblioteca.repositorio@unioeste.bropendoar:2017-07-10T18:55:26Biblioteca Digital de Teses e Dissertações do UNIOESTE - Universidade Estadual do Oeste do Paraná (UNIOESTE)false
dc.title.por.fl_str_mv Um estudo sobre a relevância dos padrões lexicais para a interpretação de textos por meio da extração de informação
title Um estudo sobre a relevância dos padrões lexicais para a interpretação de textos por meio da extração de informação
spellingShingle Um estudo sobre a relevância dos padrões lexicais para a interpretação de textos por meio da extração de informação
Porfirio, Lucielen
interpretação de textos
extração de informação
palavra-chave
padrões lexicais
Text interpretation
information extraction
keyword
lexical patterns
CNPQ::LINGUISTICA, LETRAS E ARTES::LETRAS
title_short Um estudo sobre a relevância dos padrões lexicais para a interpretação de textos por meio da extração de informação
title_full Um estudo sobre a relevância dos padrões lexicais para a interpretação de textos por meio da extração de informação
title_fullStr Um estudo sobre a relevância dos padrões lexicais para a interpretação de textos por meio da extração de informação
title_full_unstemmed Um estudo sobre a relevância dos padrões lexicais para a interpretação de textos por meio da extração de informação
title_sort Um estudo sobre a relevância dos padrões lexicais para a interpretação de textos por meio da extração de informação
author Porfirio, Lucielen
author_facet Porfirio, Lucielen
author_role author
dc.contributor.advisor1.fl_str_mv Bidarra, Jorge
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/4214786666641182
dc.contributor.referee1.fl_str_mv Benites, Sonia Aparecida Lopes
dc.contributor.referee1Lattes.fl_str_mv http://lattes.cnpq.br/8970977949384491
dc.contributor.referee2.fl_str_mv Sella, Aparecida Feola
dc.contributor.referee2Lattes.fl_str_mv http://lattes.cnpq.br/3297322988541357
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/3364822682052612
dc.contributor.author.fl_str_mv Porfirio, Lucielen
contributor_str_mv Bidarra, Jorge
Benites, Sonia Aparecida Lopes
Sella, Aparecida Feola
dc.subject.por.fl_str_mv interpretação de textos
extração de informação
palavra-chave
padrões lexicais
topic interpretação de textos
extração de informação
palavra-chave
padrões lexicais
Text interpretation
information extraction
keyword
lexical patterns
CNPQ::LINGUISTICA, LETRAS E ARTES::LETRAS
dc.subject.eng.fl_str_mv Text interpretation
information extraction
keyword
lexical patterns
dc.subject.cnpq.fl_str_mv CNPQ::LINGUISTICA, LETRAS E ARTES::LETRAS
description Text interpretation is a complex process that depends not only on linguistics aspects, but also cognitive and extra linguistics. In order to interpret a text, any reader must, initially, be able to decode the language and formulate mental representations of the message brought by the text. In order to do so, he will need, necessarily, to make hypothesis and inferences, and activate his previous knowledge, either linguistics or extra linguistics. Besides, the reader must locate the main ideas of the text that are expressed in the lexical items and in the relation among them. In such case, it s reasonable to admit that the identification of isolated terms in a text and the analysis of its real function in it are both very important elements for the text interpretation work. Several methods might be used for working with text interpretation. Among the most common we have the answer to questions (oral or written) about the content of the text, and more recently the Information Extraction (IE). This one is a method that consists, fundamentally, on identification and extraction of relevant linguistic aspects (lexical, syntactic and conceptual semantic) used for different types of objectives, such as: summarization, categorization and text interpretation. Through the location of keywords and linguistics structures the method goal is identify and extract the most important information that together may allow the individual to understand the subject discussed there more easily. Assuming that the interactions among lexical items are one of the most important elements in text interpretation, the goal of this paper is to discuss in what way the reader could better explore this relation, in order to help him to interpret a text. For the analysis three keywords were tracked in a research corpus in the dominium of gastroenterology: intestine , cause and helicobacter pylori . Based on the lexical patterns of collocation, colligation and semantic prosody, these words were investigated, observing how the linguistic relations of each one could reveal meanings and help in interpretation process. As a result, we noticed that through the observation of the lexical patters it was possible to extract information regarding the text subject, as well as important aspects discussed in them, such as diseases, its causes, effects and treatments, even without having access to the whole texts.
publishDate 2006
dc.date.available.fl_str_mv 2006-12-21
dc.date.issued.fl_str_mv 2006-02-17
dc.date.accessioned.fl_str_mv 2017-07-10T18:55:26Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv PORFIRIO, Lucielen. Um estudo sobre a relevância dos padrões lexicais para a interpretação de textos por meio da extração de informação. 2006. 101 f. Dissertação (Mestrado em Linguagem e Sociedade) - Universidade Estadual do Oeste do Parana, Cascavel, 2006.
dc.identifier.uri.fl_str_mv http://tede.unioeste.br:8080/tede/handle/tede/2324
identifier_str_mv PORFIRIO, Lucielen. Um estudo sobre a relevância dos padrões lexicais para a interpretação de textos por meio da extração de informação. 2006. 101 f. Dissertação (Mestrado em Linguagem e Sociedade) - Universidade Estadual do Oeste do Parana, Cascavel, 2006.
url http://tede.unioeste.br:8080/tede/handle/tede/2324
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Estadual do Oeste do Parana
dc.publisher.program.fl_str_mv Programa de Pós-Graduação "Stricto Sensu" em Letras
dc.publisher.initials.fl_str_mv UNIOESTE
dc.publisher.country.fl_str_mv BR
dc.publisher.department.fl_str_mv Linguagem e Sociedade
publisher.none.fl_str_mv Universidade Estadual do Oeste do Parana
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações do UNIOESTE
instname:Universidade Estadual do Oeste do Paraná (UNIOESTE)
instacron:UNIOESTE
instname_str Universidade Estadual do Oeste do Paraná (UNIOESTE)
instacron_str UNIOESTE
institution UNIOESTE
reponame_str Biblioteca Digital de Teses e Dissertações do UNIOESTE
collection Biblioteca Digital de Teses e Dissertações do UNIOESTE
bitstream.url.fl_str_mv http://tede.unioeste.br:8080/tede/bitstream/tede/2324/1/Lucielen+Porfirio.pdf
bitstream.checksum.fl_str_mv 120e6f485faab939a4f8ab24bf1f53d1
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações do UNIOESTE - Universidade Estadual do Oeste do Paraná (UNIOESTE)
repository.mail.fl_str_mv biblioteca.repositorio@unioeste.br
_version_ 1851949172149714944