Thoth : um algoritmo para geração de frases curtas em linguagem natural a partir de dados abertos e conectados
| Ano de defesa: | 2019 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade do Vale do Rio dos Sinos
|
| Programa de Pós-Graduação: |
Programa de Pós-Graduação em Computação Aplicada
|
| Departamento: |
Escola Politécnica
|
| País: |
Brasil
|
| Palavras-chave em Português: | |
| Palavras-chave em Inglês: | |
| Área do conhecimento CNPq: | |
| Link de acesso: | http://www.repositorio.jesuita.org.br/handle/UNISINOS/8777 |
Resumo: | A atual consolidação e disponibilização de bases de dados abertos e conectados vem fomentando diversas iniciativas, sendo que, dentre elas, observa-se o uso do conteúdo armazenado para geração de linguagem natural. A geração de frases em linguagem natural pode ser beneficiada com o uso destas bases em pelo menos dois aspectos, que são a grande quantidade de informações disponível e a existência de anotações adicionais sobre o significado destas informações. Quanto aos recursos usados para a lexicalização das frases, os trabalhos nesta área podem ser agrupados em três categorias, sendo a primeira caracterizada pela utilização de templates para a definição da estrutura das frases, a segunda pelo uso de algoritmos de aprendizado de máquina para a geração das frases de modo não supervisionado e a terceira a utilização de ambas abordagens em um modelo híbrido. As abordagens geram resultados considerados interessantes, porém apresentam dificuldades em relação à naturalidade das sentenças geradas. Observa-se que os trabalhos relacionados ao tema não utilizam em ampla escala as informações das propriedades RDF presentes nas ontologias, fatores que podem ser considerados como apoio na geração de frases mais naturais. Dentre essas informações estão relacionamentos semânticos entre conceitos que podem ajudar a construção de sentenças em linguagem natural. Diante deste contexto, a pesquisa atual visa explorar essas propriedades para geração de linguagem natural para o idioma inglês a partir de um conjunto de templates elaborados por linguistas e do uso de recursos lexicais. Foram executados duas avaliações para ajustar critérios e variáveis para o algoritmo de geração de linguagem proposto e um terceiro para validação final da pesquisa. A primeira avaliação buscou identificar formas de geração de frases em linguagem natural a partir das propriedades RDF. Partindo da análise dos resultados da primeira avaliação, uma nova avaliação foi conduzida buscando medir a naturalidade das sentenças geradas a partir das propriedades RDF. Por fim, uma terceira avaliação foi projetada e executada, onde profissionais da linguística e nativos do idioma inglês avaliaram as frases curtas geradas pelo algoritmo. Os resultados da avaliação final foram considerados promissores para aplicações que objetivem geração de linguagem natural a partir das informações das propriedades RDF com apoio de recursos lexicais. |
| id |
USIN_99d9ad995974b5eb7a699bf192ec0fe0 |
|---|---|
| oai_identifier_str |
oai:www.repositorio.jesuita.org.br:UNISINOS/8777 |
| network_acronym_str |
USIN |
| network_name_str |
Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos) |
| repository_id_str |
|
| spelling |
2019-08-28T16:33:02Z2019-08-28T16:33:02Z2019-03-28Submitted by JOSIANE SANTOS DE OLIVEIRA (josianeso) on 2019-08-28T16:33:02Z No. of bitstreams: 1 Augusto Lopes da Silva_.pdf: 4761341 bytes, checksum: a21ef92cc5d8670e0e5cefbcaadcb668 (MD5)Made available in DSpace on 2019-08-28T16:33:02Z (GMT). No. of bitstreams: 1 Augusto Lopes da Silva_.pdf: 4761341 bytes, checksum: a21ef92cc5d8670e0e5cefbcaadcb668 (MD5) Previous issue date: 2019-03-28A atual consolidação e disponibilização de bases de dados abertos e conectados vem fomentando diversas iniciativas, sendo que, dentre elas, observa-se o uso do conteúdo armazenado para geração de linguagem natural. A geração de frases em linguagem natural pode ser beneficiada com o uso destas bases em pelo menos dois aspectos, que são a grande quantidade de informações disponível e a existência de anotações adicionais sobre o significado destas informações. Quanto aos recursos usados para a lexicalização das frases, os trabalhos nesta área podem ser agrupados em três categorias, sendo a primeira caracterizada pela utilização de templates para a definição da estrutura das frases, a segunda pelo uso de algoritmos de aprendizado de máquina para a geração das frases de modo não supervisionado e a terceira a utilização de ambas abordagens em um modelo híbrido. As abordagens geram resultados considerados interessantes, porém apresentam dificuldades em relação à naturalidade das sentenças geradas. Observa-se que os trabalhos relacionados ao tema não utilizam em ampla escala as informações das propriedades RDF presentes nas ontologias, fatores que podem ser considerados como apoio na geração de frases mais naturais. Dentre essas informações estão relacionamentos semânticos entre conceitos que podem ajudar a construção de sentenças em linguagem natural. Diante deste contexto, a pesquisa atual visa explorar essas propriedades para geração de linguagem natural para o idioma inglês a partir de um conjunto de templates elaborados por linguistas e do uso de recursos lexicais. Foram executados duas avaliações para ajustar critérios e variáveis para o algoritmo de geração de linguagem proposto e um terceiro para validação final da pesquisa. A primeira avaliação buscou identificar formas de geração de frases em linguagem natural a partir das propriedades RDF. Partindo da análise dos resultados da primeira avaliação, uma nova avaliação foi conduzida buscando medir a naturalidade das sentenças geradas a partir das propriedades RDF. Por fim, uma terceira avaliação foi projetada e executada, onde profissionais da linguística e nativos do idioma inglês avaliaram as frases curtas geradas pelo algoritmo. Os resultados da avaliação final foram considerados promissores para aplicações que objetivem geração de linguagem natural a partir das informações das propriedades RDF com apoio de recursos lexicais.The current consolidation and availability of linked open data have fomented several initiatives, among them it is possible to observe the use of the content stored in them for natural language generation. The generation of natural language phrases can benefit from using these bases in at least two aspects, which are the large amount of information available and the existence of additional notes on the meaning of this information. As for the resources used for the lexicalization of sentences, the works in this area can be grouped into three categories: the first one characterized by the use of sets of templates to define the sentence structure; the second by the use of machine learning algorithms to the generation of sentences in an unsupervised way; and the third the use of both approaches in a hybrid model. The approaches generate interesting results but have difficulties in relation to the naturalness of the sentences generated. It is observed that the works related to the topic do not use on a large scale the information of the RDF properties present in the ontologies, factors that can be considered as support in the generation of more natural phrases. Among these are semantic relationships between concepts that can help construct sentences in natural language. In this context, the current research aims to explore these properties for the generation of natural language for the English language from a set of templates developed by linguists and the use of lexical resources. Two evaluations were performed to evaluate criteria and variables for the proposed language generation algorithm and a third one for final validation of the research. The first evaluation sought to identify ways of generating natural language phrases from the RDF properties. Starting from the analysis of the results of the first evaluation, a new experiment was conducted to measure the naturalness of the sentences generated from the RDF properties. Finally, a third evaluation was designed and executed, where linguistic professionals and native English speakers evaluated the short sentences generated by the algorithm. The results of the final evaluation were considered promising for applications that aim to generate natural language from the information of RDF properties with the support of lexical resources.CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorSilva, Augusto Lopes dahttp://lattes.cnpq.br/4295273503383886http://lattes.cnpq.br/3914159735707328Rigo, Sandro JoséUniversidade do Vale do Rio dos SinosPrograma de Pós-Graduação em Computação AplicadaUnisinosBrasilEscola PolitécnicaThoth : um algoritmo para geração de frases curtas em linguagem natural a partir de dados abertos e conectadosACCNPQ::Ciências Exatas e da Terra::Ciência da ComputaçãoDados Abertos e ConectadosGeração de Linguagem NaturalRDFLinked Open DataNatural Language GenerationRDFinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://www.repositorio.jesuita.org.br/handle/UNISINOS/8777info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)instname:Universidade do Vale do Rio dos Sinos (UNISINOS)instacron:UNISINOSORIGINALAugusto Lopes da Silva_.pdfAugusto Lopes da Silva_.pdfapplication/pdf4761341http://repositorio.jesuita.org.br/bitstream/UNISINOS/8777/1/Augusto+Lopes+da+Silva_.pdfa21ef92cc5d8670e0e5cefbcaadcb668MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-82175http://repositorio.jesuita.org.br/bitstream/UNISINOS/8777/2/license.txt320e21f23402402ac4988605e1edd177MD52UNISINOS/87772019-08-28 13:35:02.311oai:www.repositorio.jesuita.org.br:UNISINOS/8777Ck5PVEE6IENPTE9RVUUgQVFVSSBBIFNVQSBQUsOTUFJJQSBMSUNFTsOHQQoKRXN0YSBsaWNlbsOnYSBkZSBleGVtcGxvIMOpIGZvcm5lY2lkYSBhcGVuYXMgcGFyYSBmaW5zIGluZm9ybWF0aXZvcy4KCkxpY2Vuw6dhIERFIERJU1RSSUJVScOHw4NPIE7Dg08tRVhDTFVTSVZBCgpDb20gYSBhcHJlc2VudGHDp8OjbyBkZXN0YSBsaWNlbsOnYSwgdm9jw6ogKG8gYXV0b3IgKGVzKSBvdSBvIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGRlIGF1dG9yKSBjb25jZWRlIMOgIApVbml2ZXJzaWRhZGUgZG8gVmFsZSBkbyBSaW8gZG9zIFNpbm9zIChVTklTSU5PUykgbyBkaXJlaXRvIG7Do28tZXhjbHVzaXZvIGRlIHJlcHJvZHV6aXIsICB0cmFkdXppciAoY29uZm9ybWUgZGVmaW5pZG8gYWJhaXhvKSwgZS9vdSAKZGlzdHJpYnVpciBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gKGluY2x1aW5kbyBvIHJlc3VtbykgcG9yIHRvZG8gbyBtdW5kbyBubyBmb3JtYXRvIGltcHJlc3NvIGUgZWxldHLDtG5pY28gZSAKZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIGZvcm1hdG9zIMOhdWRpbyBvdSB2w61kZW8uCgpWb2PDqiBjb25jb3JkYSBxdWUgYSBTaWdsYSBkZSBVbml2ZXJzaWRhZGUgcG9kZSwgc2VtIGFsdGVyYXIgbyBjb250ZcO6ZG8sIHRyYW5zcG9yIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyAKcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBhIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSBwb2RlIG1hbnRlciBtYWlzIGRlIHVtYSBjw7NwaWEgYSBzdWEgdGVzZSBvdSAKZGlzc2VydGHDp8OjbyBwYXJhIGZpbnMgZGUgc2VndXJhbsOnYSwgYmFjay11cCBlIHByZXNlcnZhw6fDo28uCgpWb2PDqiBkZWNsYXJhIHF1ZSBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gw6kgb3JpZ2luYWwgZSBxdWUgdm9jw6ogdGVtIG8gcG9kZXIgZGUgY29uY2VkZXIgb3MgZGlyZWl0b3MgY29udGlkb3MgCm5lc3RhIGxpY2Vuw6dhLiBWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IApjb25oZWNpbWVudG8sIGluZnJpbmdlIGRpcmVpdG9zIGF1dG9yYWlzIGRlIG5pbmd1w6ltLgoKQ2FzbyBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gY29udGVuaGEgbWF0ZXJpYWwgcXVlIHZvY8OqIG7Do28gcG9zc3VpIGEgdGl0dWxhcmlkYWRlIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgdm9jw6ogCmRlY2xhcmEgcXVlIG9idGV2ZSBhIHBlcm1pc3PDo28gaXJyZXN0cml0YSBkbyBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgcGFyYSBjb25jZWRlciDDoCBTaWdsYSBkZSBVbml2ZXJzaWRhZGUgCm9zIGRpcmVpdG9zIGFwcmVzZW50YWRvcyBuZXN0YSBsaWNlbsOnYSwgZSBxdWUgZXNzZSBtYXRlcmlhbCBkZSBwcm9wcmllZGFkZSBkZSB0ZXJjZWlyb3MgZXN0w6EgY2xhcmFtZW50ZSAKaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvIGRhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBvcmEgZGVwb3NpdGFkYS4KCkNBU08gQSBURVNFIE9VIERJU1NFUlRBw4fDg08gT1JBIERFUE9TSVRBREEgVEVOSEEgU0lETyBSRVNVTFRBRE8gREUgVU0gUEFUUk9Dw41OSU8gT1UgCkFQT0lPIERFIFVNQSBBR8OKTkNJQSBERSBGT01FTlRPIE9VIE9VVFJPIE9SR0FOSVNNTyBRVUUgTsODTyBTRUpBIEEgU0lHTEEgREUgClVOSVZFUlNJREFERSwgVk9Dw4ogREVDTEFSQSBRVUUgUkVTUEVJVE9VIFRPRE9TIEUgUVVBSVNRVUVSIERJUkVJVE9TIERFIFJFVklTw4NPIENPTU8gClRBTULDiU0gQVMgREVNQUlTIE9CUklHQcOHw5VFUyBFWElHSURBUyBQT1IgQ09OVFJBVE8gT1UgQUNPUkRPLgoKQSBTaWdsYSBkZSBVbml2ZXJzaWRhZGUgc2UgY29tcHJvbWV0ZSBhIGlkZW50aWZpY2FyIGNsYXJhbWVudGUgbyBzZXUgbm9tZSAocykgb3UgbyhzKSBub21lKHMpIGRvKHMpIApkZXRlbnRvcihlcykgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIGRhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbywgZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvLCBhbMOpbSBkYXF1ZWxhcyAKY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4KBiblioteca Digital de Teses e DissertaçõesPRIhttp://www.repositorio.jesuita.org.br/oai/requestmaicons@unisinos.br ||dspace@unisinos.bropendoar:2019-08-28T16:35:02Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos) - Universidade do Vale do Rio dos Sinos (UNISINOS)false |
| dc.title.pt_BR.fl_str_mv |
Thoth : um algoritmo para geração de frases curtas em linguagem natural a partir de dados abertos e conectados |
| title |
Thoth : um algoritmo para geração de frases curtas em linguagem natural a partir de dados abertos e conectados |
| spellingShingle |
Thoth : um algoritmo para geração de frases curtas em linguagem natural a partir de dados abertos e conectados Silva, Augusto Lopes da ACCNPQ::Ciências Exatas e da Terra::Ciência da Computação Dados Abertos e Conectados Geração de Linguagem Natural RDF Linked Open Data Natural Language Generation RDF |
| title_short |
Thoth : um algoritmo para geração de frases curtas em linguagem natural a partir de dados abertos e conectados |
| title_full |
Thoth : um algoritmo para geração de frases curtas em linguagem natural a partir de dados abertos e conectados |
| title_fullStr |
Thoth : um algoritmo para geração de frases curtas em linguagem natural a partir de dados abertos e conectados |
| title_full_unstemmed |
Thoth : um algoritmo para geração de frases curtas em linguagem natural a partir de dados abertos e conectados |
| title_sort |
Thoth : um algoritmo para geração de frases curtas em linguagem natural a partir de dados abertos e conectados |
| author |
Silva, Augusto Lopes da |
| author_facet |
Silva, Augusto Lopes da |
| author_role |
author |
| dc.contributor.authorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/4295273503383886 |
| dc.contributor.advisorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/3914159735707328 |
| dc.contributor.author.fl_str_mv |
Silva, Augusto Lopes da |
| dc.contributor.advisor1.fl_str_mv |
Rigo, Sandro José |
| contributor_str_mv |
Rigo, Sandro José |
| dc.subject.cnpq.fl_str_mv |
ACCNPQ::Ciências Exatas e da Terra::Ciência da Computação |
| topic |
ACCNPQ::Ciências Exatas e da Terra::Ciência da Computação Dados Abertos e Conectados Geração de Linguagem Natural RDF Linked Open Data Natural Language Generation RDF |
| dc.subject.por.fl_str_mv |
Dados Abertos e Conectados Geração de Linguagem Natural RDF |
| dc.subject.eng.fl_str_mv |
Linked Open Data Natural Language Generation RDF |
| description |
A atual consolidação e disponibilização de bases de dados abertos e conectados vem fomentando diversas iniciativas, sendo que, dentre elas, observa-se o uso do conteúdo armazenado para geração de linguagem natural. A geração de frases em linguagem natural pode ser beneficiada com o uso destas bases em pelo menos dois aspectos, que são a grande quantidade de informações disponível e a existência de anotações adicionais sobre o significado destas informações. Quanto aos recursos usados para a lexicalização das frases, os trabalhos nesta área podem ser agrupados em três categorias, sendo a primeira caracterizada pela utilização de templates para a definição da estrutura das frases, a segunda pelo uso de algoritmos de aprendizado de máquina para a geração das frases de modo não supervisionado e a terceira a utilização de ambas abordagens em um modelo híbrido. As abordagens geram resultados considerados interessantes, porém apresentam dificuldades em relação à naturalidade das sentenças geradas. Observa-se que os trabalhos relacionados ao tema não utilizam em ampla escala as informações das propriedades RDF presentes nas ontologias, fatores que podem ser considerados como apoio na geração de frases mais naturais. Dentre essas informações estão relacionamentos semânticos entre conceitos que podem ajudar a construção de sentenças em linguagem natural. Diante deste contexto, a pesquisa atual visa explorar essas propriedades para geração de linguagem natural para o idioma inglês a partir de um conjunto de templates elaborados por linguistas e do uso de recursos lexicais. Foram executados duas avaliações para ajustar critérios e variáveis para o algoritmo de geração de linguagem proposto e um terceiro para validação final da pesquisa. A primeira avaliação buscou identificar formas de geração de frases em linguagem natural a partir das propriedades RDF. Partindo da análise dos resultados da primeira avaliação, uma nova avaliação foi conduzida buscando medir a naturalidade das sentenças geradas a partir das propriedades RDF. Por fim, uma terceira avaliação foi projetada e executada, onde profissionais da linguística e nativos do idioma inglês avaliaram as frases curtas geradas pelo algoritmo. Os resultados da avaliação final foram considerados promissores para aplicações que objetivem geração de linguagem natural a partir das informações das propriedades RDF com apoio de recursos lexicais. |
| publishDate |
2019 |
| dc.date.accessioned.fl_str_mv |
2019-08-28T16:33:02Z |
| dc.date.available.fl_str_mv |
2019-08-28T16:33:02Z |
| dc.date.issued.fl_str_mv |
2019-03-28 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
http://www.repositorio.jesuita.org.br/handle/UNISINOS/8777 |
| url |
http://www.repositorio.jesuita.org.br/handle/UNISINOS/8777 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.publisher.none.fl_str_mv |
Universidade do Vale do Rio dos Sinos |
| dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Computação Aplicada |
| dc.publisher.initials.fl_str_mv |
Unisinos |
| dc.publisher.country.fl_str_mv |
Brasil |
| dc.publisher.department.fl_str_mv |
Escola Politécnica |
| publisher.none.fl_str_mv |
Universidade do Vale do Rio dos Sinos |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos) instname:Universidade do Vale do Rio dos Sinos (UNISINOS) instacron:UNISINOS |
| instname_str |
Universidade do Vale do Rio dos Sinos (UNISINOS) |
| instacron_str |
UNISINOS |
| institution |
UNISINOS |
| reponame_str |
Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos) |
| collection |
Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos) |
| bitstream.url.fl_str_mv |
http://repositorio.jesuita.org.br/bitstream/UNISINOS/8777/1/Augusto+Lopes+da+Silva_.pdf http://repositorio.jesuita.org.br/bitstream/UNISINOS/8777/2/license.txt |
| bitstream.checksum.fl_str_mv |
a21ef92cc5d8670e0e5cefbcaadcb668 320e21f23402402ac4988605e1edd177 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
| repository.name.fl_str_mv |
Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos) - Universidade do Vale do Rio dos Sinos (UNISINOS) |
| repository.mail.fl_str_mv |
maicons@unisinos.br ||dspace@unisinos.br |
| _version_ |
1853242076080111616 |