Investigação de estratégias de seleção de conteúdo baseadas na UNL (Universal Networking Language)

Detalhes bibliográficos
Ano de defesa: 2015
Autor(a) principal: Chaud, Matheus Rigobelo
Orientador(a): Di Felippo, Ariani lattes
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de São Carlos
Programa de Pós-Graduação: Programa de Pós-Graduação em Linguística - PPGL
Departamento: Não Informado pela instituição
País: BR
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: https://repositorio.ufscar.br/handle/20.500.14289/5799
Resumo: The field of Natural Language Processing (NLP) has witnessed increased attention to Multilingual Multidocument Summarization (MMS), whose goal is to process a cluster of source documents in more than one language and generate a summary of this collection in one of the target languages. In MMS, the selection of sentences from source texts for summary generation may be based on either shallow or deep linguistic features. The purpose of this research was to investigate whether the use of deep knowledge, obtained from a conceptual representation of the source texts, could be useful for content selection in texts within the newspaper genre. In this study, we used a formal representation system the UNL (Universal Networking Language). In order to investigate content selection strategies based on this interlingua, 3 clusters of texts were represented in UNL, each consisting of 1 text in Portuguese, 1 text in English and 1 human-written reference summary. Additionally, in each cluster, the sentences of the source texts were aligned to the sentences of their respective human summaries, in order to identify total or partial content overlap between these sentences. The data collected allowed a comparison between content selection strategies based on conceptual information and a traditional selection method based on a superficial feature - the position of the sentence in the source text. According to the results, content selection based on sentence position was more closely correlated with the selection made by the human summarizer, compared to the conceptual methods investigated. Furthermore, the sentences in the beginning of the source texts, which, in newspaper articles, usually convey the most relevant information, did not necessarily contain the most frequent concepts in the text collection; on several occasions, the sentences with the most frequent concepts were in the middle or at the end of the text. These results indicate that, at least in the clusters analyzed, other criteria besides concept frequency help determine the relevance of a sentence. In other words, content selection in human multidocument summarization may not be limited to the selection of the sentences with the most frequent concepts. In fact, it seems to be a much more complex process.
id SCAR_c2e2345184c16270522913dd464428e4
oai_identifier_str oai:repositorio.ufscar.br:20.500.14289/5799
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str
spelling Chaud, Matheus RigobeloDi Felippo, Arianihttp://lattes.cnpq.br/8648412103197455http://lattes.cnpq.br/46559518448842523e01c45e-4863-4a2f-a840-03b24b0377402016-06-02T20:25:24Z2015-04-132016-06-02T20:25:24Z2015-03-03CHAUD, Matheus Rigobelo. Investigação de estratégias de seleção de conteúdo baseadas na UNL (Universal Networking Language). 2015. 171 f. Dissertação (Mestrado em Ciências Humanas) - Universidade Federal de São Carlos, São Carlos, 2015.https://repositorio.ufscar.br/handle/20.500.14289/5799The field of Natural Language Processing (NLP) has witnessed increased attention to Multilingual Multidocument Summarization (MMS), whose goal is to process a cluster of source documents in more than one language and generate a summary of this collection in one of the target languages. In MMS, the selection of sentences from source texts for summary generation may be based on either shallow or deep linguistic features. The purpose of this research was to investigate whether the use of deep knowledge, obtained from a conceptual representation of the source texts, could be useful for content selection in texts within the newspaper genre. In this study, we used a formal representation system the UNL (Universal Networking Language). In order to investigate content selection strategies based on this interlingua, 3 clusters of texts were represented in UNL, each consisting of 1 text in Portuguese, 1 text in English and 1 human-written reference summary. Additionally, in each cluster, the sentences of the source texts were aligned to the sentences of their respective human summaries, in order to identify total or partial content overlap between these sentences. The data collected allowed a comparison between content selection strategies based on conceptual information and a traditional selection method based on a superficial feature - the position of the sentence in the source text. According to the results, content selection based on sentence position was more closely correlated with the selection made by the human summarizer, compared to the conceptual methods investigated. Furthermore, the sentences in the beginning of the source texts, which, in newspaper articles, usually convey the most relevant information, did not necessarily contain the most frequent concepts in the text collection; on several occasions, the sentences with the most frequent concepts were in the middle or at the end of the text. These results indicate that, at least in the clusters analyzed, other criteria besides concept frequency help determine the relevance of a sentence. In other words, content selection in human multidocument summarization may not be limited to the selection of the sentences with the most frequent concepts. In fact, it seems to be a much more complex process.Na área de Processamento Automático das Línguas Naturais (PLN), há um destaque crescente para a Sumarização Automática Multidocumento Multilíngue (SAMM), cujo objetivo é processar uma coleção de documentos-fonte em mais de uma língua e gerar um sumário correspondente a essa coleção em uma das línguas-alvo. Na SAMM, a seleção das sentenças dos textos-fonte para composição do sumário pode ser feita com base em atributos linguísticos superficiais ou profundos. O objetivo deste projeto foi investigar se a utilização de conhecimento profundo, obtido a partir de uma representação conceitual dos textos-fonte, pode ser útil na seleção de conteúdo em textos do gênero jornalístico. Para isso, utilizou-se um sistema de representação formal a UNL (Universal Networking Language). Visando investigar estratégias de seleção de conteúdo baseadas nessa interlíngua, fez-se a representação em UNL de 3 coleções de textos, cada qual com 1 texto-fonte em português, 1 texto-fonte em inglês e 1 sumário humano de referência. Fez-se também o alinhamento das sentenças dos textos-fonte de cada coleção às sentenças de seus respectivos sumários humanos, objetivando identificar sobreposição total ou parcial de conteúdo entre essas sentenças. Esses dados permitiram a comparação entre estratégias de seleção de conteúdo baseadas em informações conceituais e um método de seleção tradicional baseado em um atributo superficial a posição da sentença no texto-fonte. De acordo com os resultados obtidos, a seleção de conteúdo com base na posição no texto-fonte correlacionou-se mais adequadamente com a seleção realizada pelo sumarizador humano, comparado aos métodos conceituais investigados. Além disso, as sentenças iniciais dos textos-fonte, que, em textos jornalísticos, normalmente veiculam as informações mais relevantes, não necessariamente continham os conceitos mais frequentes da coleção; em diversas ocasiões, as sentenças com os conceitos mais frequentes estavam em posição intermediária ou final no texto. Esses resultados indicam que, ao menos nas coleções analisadas, outros critérios, além da frequência de conceitos, concorrem para determinar a relevância de uma sentença. Em outras palavras, na sumarização humana multidocumento, a seleção de conteúdo provavelmente não se resume a selecionar sentenças com os conceitos mais frequentes, tratando-se de um processo bem mais complexo.Financiadora de Estudos e Projetosapplication/pdfporUniversidade Federal de São CarlosPrograma de Pós-Graduação em Linguística - PPGLUFSCarBRLinguística aplicadaSumarização automáticaEstratégias de seleção de conteúdoInterlíngua UNL (Universal Networking Language)Processamento automático de línguas naturaisSistemas de representação de conhecimentoAutomatic summarizationMultilingual multidocument summarizationNatural language processingKnowledge representation systemsUniversal networking languageContent selectionLINGUISTICA, LETRAS E ARTES::LINGUISTICAInvestigação de estratégias de seleção de conteúdo baseadas na UNL (Universal Networking Language)info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis-1-126c5db60-6612-41e6-a8f9-f94fb475ca58info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINAL6636.pdfapplication/pdf3131517https://repositorio.ufscar.br/bitstreams/85b684f8-045b-482d-a62d-e563002e9e47/download2afb763348af4eeb377c36a05732707fMD51trueAnonymousREADTEXT6636.pdf.txt6636.pdf.txtExtracted texttext/plain0https://repositorio.ufscar.br/bitstreams/1866204b-7332-4cf8-ac80-33675b5773c7/downloadd41d8cd98f00b204e9800998ecf8427eMD54falseAnonymousREADTHUMBNAIL6636.pdf.jpg6636.pdf.jpgIM Thumbnailimage/jpeg10496https://repositorio.ufscar.br/bitstreams/327918e1-e5a9-4c7d-8398-ce09d4ff925c/downloadd89813757547c1595105cbdf36fb9d2fMD55falseAnonymousREAD20.500.14289/57992025-02-05 15:35:28.552open.accessoai:repositorio.ufscar.br:20.500.14289/5799https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-02-05T18:35:28Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.por.fl_str_mv Investigação de estratégias de seleção de conteúdo baseadas na UNL (Universal Networking Language)
title Investigação de estratégias de seleção de conteúdo baseadas na UNL (Universal Networking Language)
spellingShingle Investigação de estratégias de seleção de conteúdo baseadas na UNL (Universal Networking Language)
Chaud, Matheus Rigobelo
Linguística aplicada
Sumarização automática
Estratégias de seleção de conteúdo
Interlíngua UNL (Universal Networking Language)
Processamento automático de línguas naturais
Sistemas de representação de conhecimento
Automatic summarization
Multilingual multidocument summarization
Natural language processing
Knowledge representation systems
Universal networking language
Content selection
LINGUISTICA, LETRAS E ARTES::LINGUISTICA
title_short Investigação de estratégias de seleção de conteúdo baseadas na UNL (Universal Networking Language)
title_full Investigação de estratégias de seleção de conteúdo baseadas na UNL (Universal Networking Language)
title_fullStr Investigação de estratégias de seleção de conteúdo baseadas na UNL (Universal Networking Language)
title_full_unstemmed Investigação de estratégias de seleção de conteúdo baseadas na UNL (Universal Networking Language)
title_sort Investigação de estratégias de seleção de conteúdo baseadas na UNL (Universal Networking Language)
author Chaud, Matheus Rigobelo
author_facet Chaud, Matheus Rigobelo
author_role author
dc.contributor.authorlattes.por.fl_str_mv http://lattes.cnpq.br/4655951844884252
dc.contributor.author.fl_str_mv Chaud, Matheus Rigobelo
dc.contributor.advisor1.fl_str_mv Di Felippo, Ariani
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/8648412103197455
dc.contributor.authorID.fl_str_mv 3e01c45e-4863-4a2f-a840-03b24b037740
contributor_str_mv Di Felippo, Ariani
dc.subject.por.fl_str_mv Linguística aplicada
Sumarização automática
Estratégias de seleção de conteúdo
Interlíngua UNL (Universal Networking Language)
Processamento automático de línguas naturais
Sistemas de representação de conhecimento
topic Linguística aplicada
Sumarização automática
Estratégias de seleção de conteúdo
Interlíngua UNL (Universal Networking Language)
Processamento automático de línguas naturais
Sistemas de representação de conhecimento
Automatic summarization
Multilingual multidocument summarization
Natural language processing
Knowledge representation systems
Universal networking language
Content selection
LINGUISTICA, LETRAS E ARTES::LINGUISTICA
dc.subject.eng.fl_str_mv Automatic summarization
Multilingual multidocument summarization
Natural language processing
Knowledge representation systems
Universal networking language
Content selection
dc.subject.cnpq.fl_str_mv LINGUISTICA, LETRAS E ARTES::LINGUISTICA
description The field of Natural Language Processing (NLP) has witnessed increased attention to Multilingual Multidocument Summarization (MMS), whose goal is to process a cluster of source documents in more than one language and generate a summary of this collection in one of the target languages. In MMS, the selection of sentences from source texts for summary generation may be based on either shallow or deep linguistic features. The purpose of this research was to investigate whether the use of deep knowledge, obtained from a conceptual representation of the source texts, could be useful for content selection in texts within the newspaper genre. In this study, we used a formal representation system the UNL (Universal Networking Language). In order to investigate content selection strategies based on this interlingua, 3 clusters of texts were represented in UNL, each consisting of 1 text in Portuguese, 1 text in English and 1 human-written reference summary. Additionally, in each cluster, the sentences of the source texts were aligned to the sentences of their respective human summaries, in order to identify total or partial content overlap between these sentences. The data collected allowed a comparison between content selection strategies based on conceptual information and a traditional selection method based on a superficial feature - the position of the sentence in the source text. According to the results, content selection based on sentence position was more closely correlated with the selection made by the human summarizer, compared to the conceptual methods investigated. Furthermore, the sentences in the beginning of the source texts, which, in newspaper articles, usually convey the most relevant information, did not necessarily contain the most frequent concepts in the text collection; on several occasions, the sentences with the most frequent concepts were in the middle or at the end of the text. These results indicate that, at least in the clusters analyzed, other criteria besides concept frequency help determine the relevance of a sentence. In other words, content selection in human multidocument summarization may not be limited to the selection of the sentences with the most frequent concepts. In fact, it seems to be a much more complex process.
publishDate 2015
dc.date.available.fl_str_mv 2015-04-13
2016-06-02T20:25:24Z
dc.date.issued.fl_str_mv 2015-03-03
dc.date.accessioned.fl_str_mv 2016-06-02T20:25:24Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv CHAUD, Matheus Rigobelo. Investigação de estratégias de seleção de conteúdo baseadas na UNL (Universal Networking Language). 2015. 171 f. Dissertação (Mestrado em Ciências Humanas) - Universidade Federal de São Carlos, São Carlos, 2015.
dc.identifier.uri.fl_str_mv https://repositorio.ufscar.br/handle/20.500.14289/5799
identifier_str_mv CHAUD, Matheus Rigobelo. Investigação de estratégias de seleção de conteúdo baseadas na UNL (Universal Networking Language). 2015. 171 f. Dissertação (Mestrado em Ciências Humanas) - Universidade Federal de São Carlos, São Carlos, 2015.
url https://repositorio.ufscar.br/handle/20.500.14289/5799
dc.language.iso.fl_str_mv por
language por
dc.relation.confidence.fl_str_mv -1
-1
dc.relation.authority.fl_str_mv 26c5db60-6612-41e6-a8f9-f94fb475ca58
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Linguística - PPGL
dc.publisher.initials.fl_str_mv UFSCar
dc.publisher.country.fl_str_mv BR
publisher.none.fl_str_mv Universidade Federal de São Carlos
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstreams/85b684f8-045b-482d-a62d-e563002e9e47/download
https://repositorio.ufscar.br/bitstreams/1866204b-7332-4cf8-ac80-33675b5773c7/download
https://repositorio.ufscar.br/bitstreams/327918e1-e5a9-4c7d-8398-ce09d4ff925c/download
bitstream.checksum.fl_str_mv 2afb763348af4eeb377c36a05732707f
d41d8cd98f00b204e9800998ecf8427e
d89813757547c1595105cbdf36fb9d2f
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv repositorio.sibi@ufscar.br
_version_ 1851688759203987456