Compressão de sentenças sobre domínios com disponibilidade limitada de dados rotulados

Detalhes bibliográficos
Ano de defesa: 2019
Autor(a) principal: Soares, Felipe Melo
Orientador(a): Macêdo, José Antonio Fernandes de
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Área do conhecimento CNPq:
Link de acesso: http://repositorio.ufc.br/handle/riufc/74512
Resumo: Huge volumes of data are produced every day on the Web. These are a big amount of videos, images, and texts that store unstructured information. Text summarization systems were created to facilitate the presentations of large amounts of textual data as well as to aid information retrieval over this type of data. The sentence compression has been developed due to the need for better summaries generated by these systems. However, when trained over domains with restricted amounts of labeled data for sentence compression, neural netword-based models tend to not be able to extract important features. Thus, to improve the performance of these models in this scenario, some pieces of information must be extracted and adapted before being used for training. Thus, we propose a sentence compression model capable of achieving competitive results, even when trained with smaller amounts of data, compared with other neural networkbased models, by using a set of linguistic features extracted from words alongside a rare words reduction strategy over the sentences.
id UFC-7_6fc85c555321e874e19c8dd6a7d26771
oai_identifier_str oai:repositorio.ufc.br:riufc/74512
network_acronym_str UFC-7
network_name_str Repositório Institucional da Universidade Federal do Ceará (UFC)
repository_id_str
spelling Soares, Felipe MeloMacêdo, José Antonio Fernandes de2023-09-28T15:00:55Z2023-09-28T15:00:55Z2019SOARES, Felipe Melo. Compressão de sentenças sobre domínios com disponibilidade limitada de dados rotulados. 2019. 77 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal do Ceará, Fortaleza, 2019.http://repositorio.ufc.br/handle/riufc/74512Huge volumes of data are produced every day on the Web. These are a big amount of videos, images, and texts that store unstructured information. Text summarization systems were created to facilitate the presentations of large amounts of textual data as well as to aid information retrieval over this type of data. The sentence compression has been developed due to the need for better summaries generated by these systems. However, when trained over domains with restricted amounts of labeled data for sentence compression, neural netword-based models tend to not be able to extract important features. Thus, to improve the performance of these models in this scenario, some pieces of information must be extracted and adapted before being used for training. Thus, we propose a sentence compression model capable of achieving competitive results, even when trained with smaller amounts of data, compared with other neural networkbased models, by using a set of linguistic features extracted from words alongside a rare words reduction strategy over the sentences.Dia após dia, volumes gigantescos de dados são produzidos na Web. São grandes quantidades de vídeos, imagens e textos que armazenam informação de maneira não estruturada. Sistemas de sumarização de textos foram criados com o intuito facilitar a apresentação de grandes quantidades de dados textuais para usuários assim como para facilitar a recuperação de informações nesses tipos de dados. A tarefa de compressão de sentenças surgiu para melhorar a qualidade dos sumários gerados por esses sistemas. No entanto, em domínios com pouca disponibilidade de dados rotulados para a compressão de sentenças, modelos baseados em redes neurais tem grandes dificuldades de extrair todas as informações que eles precisam. Para melhorar a performance destes modelos neste cenário, é possível que parte da informação das palavras seja extraída e adaptada antes de ser utilizada para o treinamento. Portanto, este trabalho propõe um método de compressão de sentenças capaz de atingir resultados competitivos mesmo utilizando quantidades de dados inferiores ao normalmente utilizado na literatura através da utilização de um conjunto de atributos linguísticos extraídos das palavras, aliada a uma estratégia de redução de palavras raras aplicada sobre as sentenças.Compressão de sentenças sobre domínios com disponibilidade limitada de dados rotuladosSentence compression on domains with restricted labeled data availabilityinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisCompressão de sentençasSumarização automática de textosProcessamento de linguagem naturalRedes neurais recorrentesRotulação de sequênciasSentence compressionAutomatic text summarizationNatural language processingRecurrent neural networksSequence labelingCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da Universidade Federal do Ceará (UFC)instname:Universidade Federal do Ceará (UFC)instacron:UFChttp://lattes.cnpq.br/1407114598800709http://lattes.cnpq.br/58017318504233242019ORIGINAL2019_dis_fmsoares.pdf2019_dis_fmsoares.pdfapplication/pdf1533750http://repositorio.ufc.br/bitstream/riufc/74512/3/2019_dis_fmsoares.pdfde07a5dfbec07920d8472bea95ec20ceMD53LICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://repositorio.ufc.br/bitstream/riufc/74512/4/license.txt8a4605be74aa9ea9d79846c1fba20a33MD54riufc/745122023-09-28 12:00:57.567oai:repositorio.ufc.br:riufc/74512Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttp://www.repositorio.ufc.br/ri-oai/requestbu@ufc.br || repositorio@ufc.bropendoar:2023-09-28T15:00:57Repositório Institucional da Universidade Federal do Ceará (UFC) - Universidade Federal do Ceará (UFC)false
dc.title.pt_BR.fl_str_mv Compressão de sentenças sobre domínios com disponibilidade limitada de dados rotulados
dc.title.en.pt_BR.fl_str_mv Sentence compression on domains with restricted labeled data availability
title Compressão de sentenças sobre domínios com disponibilidade limitada de dados rotulados
spellingShingle Compressão de sentenças sobre domínios com disponibilidade limitada de dados rotulados
Soares, Felipe Melo
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Compressão de sentenças
Sumarização automática de textos
Processamento de linguagem natural
Redes neurais recorrentes
Rotulação de sequências
Sentence compression
Automatic text summarization
Natural language processing
Recurrent neural networks
Sequence labeling
title_short Compressão de sentenças sobre domínios com disponibilidade limitada de dados rotulados
title_full Compressão de sentenças sobre domínios com disponibilidade limitada de dados rotulados
title_fullStr Compressão de sentenças sobre domínios com disponibilidade limitada de dados rotulados
title_full_unstemmed Compressão de sentenças sobre domínios com disponibilidade limitada de dados rotulados
title_sort Compressão de sentenças sobre domínios com disponibilidade limitada de dados rotulados
author Soares, Felipe Melo
author_facet Soares, Felipe Melo
author_role author
dc.contributor.author.fl_str_mv Soares, Felipe Melo
dc.contributor.advisor1.fl_str_mv Macêdo, José Antonio Fernandes de
contributor_str_mv Macêdo, José Antonio Fernandes de
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Compressão de sentenças
Sumarização automática de textos
Processamento de linguagem natural
Redes neurais recorrentes
Rotulação de sequências
Sentence compression
Automatic text summarization
Natural language processing
Recurrent neural networks
Sequence labeling
dc.subject.ptbr.pt_BR.fl_str_mv Compressão de sentenças
Sumarização automática de textos
Processamento de linguagem natural
Redes neurais recorrentes
Rotulação de sequências
dc.subject.en.pt_BR.fl_str_mv Sentence compression
Automatic text summarization
Natural language processing
Recurrent neural networks
Sequence labeling
description Huge volumes of data are produced every day on the Web. These are a big amount of videos, images, and texts that store unstructured information. Text summarization systems were created to facilitate the presentations of large amounts of textual data as well as to aid information retrieval over this type of data. The sentence compression has been developed due to the need for better summaries generated by these systems. However, when trained over domains with restricted amounts of labeled data for sentence compression, neural netword-based models tend to not be able to extract important features. Thus, to improve the performance of these models in this scenario, some pieces of information must be extracted and adapted before being used for training. Thus, we propose a sentence compression model capable of achieving competitive results, even when trained with smaller amounts of data, compared with other neural networkbased models, by using a set of linguistic features extracted from words alongside a rare words reduction strategy over the sentences.
publishDate 2019
dc.date.issued.fl_str_mv 2019
dc.date.accessioned.fl_str_mv 2023-09-28T15:00:55Z
dc.date.available.fl_str_mv 2023-09-28T15:00:55Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv SOARES, Felipe Melo. Compressão de sentenças sobre domínios com disponibilidade limitada de dados rotulados. 2019. 77 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal do Ceará, Fortaleza, 2019.
dc.identifier.uri.fl_str_mv http://repositorio.ufc.br/handle/riufc/74512
identifier_str_mv SOARES, Felipe Melo. Compressão de sentenças sobre domínios com disponibilidade limitada de dados rotulados. 2019. 77 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal do Ceará, Fortaleza, 2019.
url http://repositorio.ufc.br/handle/riufc/74512
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositório Institucional da Universidade Federal do Ceará (UFC)
instname:Universidade Federal do Ceará (UFC)
instacron:UFC
instname_str Universidade Federal do Ceará (UFC)
instacron_str UFC
institution UFC
reponame_str Repositório Institucional da Universidade Federal do Ceará (UFC)
collection Repositório Institucional da Universidade Federal do Ceará (UFC)
bitstream.url.fl_str_mv http://repositorio.ufc.br/bitstream/riufc/74512/3/2019_dis_fmsoares.pdf
http://repositorio.ufc.br/bitstream/riufc/74512/4/license.txt
bitstream.checksum.fl_str_mv de07a5dfbec07920d8472bea95ec20ce
8a4605be74aa9ea9d79846c1fba20a33
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da Universidade Federal do Ceará (UFC) - Universidade Federal do Ceará (UFC)
repository.mail.fl_str_mv bu@ufc.br || repositorio@ufc.br
_version_ 1847793289678290944