Uso de aprendizado supervisionado multivisão para atribuição automática de autoria de textos

Detalhes bibliográficos
Ano de defesa: 2020
Autor(a) principal: SOUSA, Luís Fred Gonçalves de
Orientador(a): VIMIEIRO, Renato
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso embargado
Idioma: por
Instituição de defesa: Universidade Federal de Pernambuco
Programa de Pós-Graduação: Programa de Pos Graduacao em Ciencia da Computacao
Departamento: Não Informado pela instituição
País: Brasil
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpe.br/handle/123456789/38965
Resumo: Atribuição de autoria é o problema de identificar o autor de um ou mais textos com base no estilo de escrita do autor. Normalmente, a tarefa assume que o estilo de escrita dos autores conserva traços que são inacessíveis à manipulação consciente. Dessarte, tal poderia ser seguramente usado para identificar o autor de um texto. Os pesquisadores têm investigado um grande número de características textuais com o objetivo de validar a habilidade destas de revelar mecanismos subconscientes de variação de linguagem, os quais podem, consequentemente, refletir autoria. Muitos marcadores de estilo autorial já foram propostos na literatura. Não obstante, permanece a falta de consenso sobre qual é o melhor para representar as escolhas dos autores. Esta dissertação assume um ponto de vista neutro na disputa pelo melhor conjunto de características de texto capaz de representar estilos de escrita. No lugar disso, é investigado como diferentes fontes de informação podem relevar diferentes aspectos do estilo de um autor, complementando-se, assim, para aprimorar o processo geral de atribuição de autoria. Com esse propósito, o problema de atribuição de autoria é modelado nesse estudo como uma tarefa de aprendizado de máquina multivisão. A eficácia da abordagem proposta é avaliada em quatro conjuntos de dados com número variado de autores e obras. A performance do método é comparada ao estado da arte em abordagens de aprendizado de máquina para atribuição de autoria. No decorrer do estudo, foi analisado como o método multivisão aprimora as abordagens tradicionais que usam uma única fonte de informação para atribuir autoria, os quais foram chamados de métodos univisão. Os resultados confirmam a relevância de algumas características individuais de texto para a tarefa, mas também mostram como essas características se complementam com outros tipos de recursos linguísticos para melhorar a consistência e a precisão da atribuição de autoria. Ademais, foi verificado que os classificadores treinados com dados multivisão consistentemente concordam sobre os rótulos verdadeiros dos textos. O estudo ainda discute como essas melhorias, tanto na acurácia quanto na concordância de classificação, são benéficas para linguistas e outros especialistas.
id UFPE_89b63b85f37bb3fa6c65e8e99e410a55
oai_identifier_str oai:repositorio.ufpe.br:123456789/38965
network_acronym_str UFPE
network_name_str Repositório Institucional da UFPE
repository_id_str
spelling SOUSA, Luís Fred Gonçalves dehttp://lattes.cnpq.br/2004244088757573http://lattes.cnpq.br/5736183954752317VIMIEIRO, Renato2021-01-06T18:29:39Z2021-01-06T18:29:39Z2020-08-20SOUSA, Luís Fred Gonçalves de. Uso de aprendizado supervisionado multivisão para atribuição automática de autoria de textos. 2020. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2020.https://repositorio.ufpe.br/handle/123456789/38965Atribuição de autoria é o problema de identificar o autor de um ou mais textos com base no estilo de escrita do autor. Normalmente, a tarefa assume que o estilo de escrita dos autores conserva traços que são inacessíveis à manipulação consciente. Dessarte, tal poderia ser seguramente usado para identificar o autor de um texto. Os pesquisadores têm investigado um grande número de características textuais com o objetivo de validar a habilidade destas de revelar mecanismos subconscientes de variação de linguagem, os quais podem, consequentemente, refletir autoria. Muitos marcadores de estilo autorial já foram propostos na literatura. Não obstante, permanece a falta de consenso sobre qual é o melhor para representar as escolhas dos autores. Esta dissertação assume um ponto de vista neutro na disputa pelo melhor conjunto de características de texto capaz de representar estilos de escrita. No lugar disso, é investigado como diferentes fontes de informação podem relevar diferentes aspectos do estilo de um autor, complementando-se, assim, para aprimorar o processo geral de atribuição de autoria. Com esse propósito, o problema de atribuição de autoria é modelado nesse estudo como uma tarefa de aprendizado de máquina multivisão. A eficácia da abordagem proposta é avaliada em quatro conjuntos de dados com número variado de autores e obras. A performance do método é comparada ao estado da arte em abordagens de aprendizado de máquina para atribuição de autoria. No decorrer do estudo, foi analisado como o método multivisão aprimora as abordagens tradicionais que usam uma única fonte de informação para atribuir autoria, os quais foram chamados de métodos univisão. Os resultados confirmam a relevância de algumas características individuais de texto para a tarefa, mas também mostram como essas características se complementam com outros tipos de recursos linguísticos para melhorar a consistência e a precisão da atribuição de autoria. Ademais, foi verificado que os classificadores treinados com dados multivisão consistentemente concordam sobre os rótulos verdadeiros dos textos. O estudo ainda discute como essas melhorias, tanto na acurácia quanto na concordância de classificação, são benéficas para linguistas e outros especialistas.CAPESAuthorship attribution is the problem of identifying the author of texts based on the author’s writing style. Usually, in this task it is assumed that the authors’ writing style contains traits inaccessible to conscious manipulation and can thus be safely used to identify the author of a text. Researchers have investigated a large number of text characteristics to assess their ability to reveal subconscious mechanisms of language variation, which may consequently reflect authorship. Several author style markers have been proposed in the literature, nevertheless, there is still no consensus on which best represent the choices of authors. This work assume an agnostic viewpoint on the dispute for the best set of features that represent an author’s writing style. Rather is investigated how these different sources of information may unveil different aspects of an author’s style, thus complementing each other to improve the overall process of authorship attribution. For this purpose, the problem of authorship attribution is modeled as a multi-view/multimodal supervised machine learning task. The effectiveness of the proposal is assessed in four corpora with different number of authors. The performance of the proposal is compared to the state-of-the-art supervised machine learning approaches for authorship attribution. In the study is thoroughly analyzed how the multi-view approach improves on traditional methods that use a single source of data (single-view) for assigning authorship. The results confirms the relevance of some features for the task, but also show how they are complemented with other types of features to improve both on consistency and accuracy. Moreover, it was verified that classifiers trained with multi-view data consistently agree on the labels of texts. The study discusses how these improvements in both accuracy and agreement are beneficial for linguists and domain specialists.porUniversidade Federal de PernambucoPrograma de Pos Graduacao em Ciencia da ComputacaoUFPEBrasilAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/embargoedAccessInteligência computacionalAprendizagem de máquinaUso de aprendizado supervisionado multivisão para atribuição automática de autoria de textosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesismestradoreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPEORIGINALDISSERTAÇÃO Luís Fred Gonçalves de Sousa.pdfDISSERTAÇÃO Luís Fred Gonçalves de Sousa.pdfapplication/pdf2421607https://repositorio.ufpe.br/bitstream/123456789/38965/1/DISSERTA%c3%87%c3%83O%20Lu%c3%ads%20Fred%20Gon%c3%a7alves%20de%20Sousa.pdfea5ac67e2e09b130fa8d309a4da1d95aMD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufpe.br/bitstream/123456789/38965/2/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82310https://repositorio.ufpe.br/bitstream/123456789/38965/3/license.txtbd573a5ca8288eb7272482765f819534MD53TEXTDISSERTAÇÃO Luís Fred Gonçalves de Sousa.pdf.txtDISSERTAÇÃO Luís Fred Gonçalves de Sousa.pdf.txtExtracted texttext/plain151029https://repositorio.ufpe.br/bitstream/123456789/38965/4/DISSERTA%c3%87%c3%83O%20Lu%c3%ads%20Fred%20Gon%c3%a7alves%20de%20Sousa.pdf.txt13b868747c02fa2aeccb5545ed00e382MD54THUMBNAILDISSERTAÇÃO Luís Fred Gonçalves de Sousa.pdf.jpgDISSERTAÇÃO Luís Fred Gonçalves de Sousa.pdf.jpgGenerated Thumbnailimage/jpeg1248https://repositorio.ufpe.br/bitstream/123456789/38965/5/DISSERTA%c3%87%c3%83O%20Lu%c3%ads%20Fred%20Gon%c3%a7alves%20de%20Sousa.pdf.jpg52a50594a0b33752938e6d6c3641ea11MD55123456789/389652021-01-07 02:12:35.008oai:repositorio.ufpe.br:123456789/38965TGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKClRvZG8gZGVwb3NpdGFudGUgZGUgbWF0ZXJpYWwgbm8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgKFJJKSBkZXZlIGNvbmNlZGVyLCDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBQZXJuYW1idWNvIChVRlBFKSwgdW1hIExpY2Vuw6dhIGRlIERpc3RyaWJ1acOnw6NvIE7Do28gRXhjbHVzaXZhIHBhcmEgbWFudGVyIGUgdG9ybmFyIGFjZXNzw612ZWlzIG9zIHNldXMgZG9jdW1lbnRvcywgZW0gZm9ybWF0byBkaWdpdGFsLCBuZXN0ZSByZXBvc2l0w7NyaW8uCgpDb20gYSBjb25jZXNzw6NvIGRlc3RhIGxpY2Vuw6dhIG7Do28gZXhjbHVzaXZhLCBvIGRlcG9zaXRhbnRlIG1hbnTDqW0gdG9kb3Mgb3MgZGlyZWl0b3MgZGUgYXV0b3IuCl9fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fXwoKTGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKCkFvIGNvbmNvcmRhciBjb20gZXN0YSBsaWNlbsOnYSBlIGFjZWl0w6EtbGEsIHZvY8OqIChhdXRvciBvdSBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMpOgoKYSkgRGVjbGFyYSBxdWUgY29uaGVjZSBhIHBvbMOtdGljYSBkZSBjb3B5cmlnaHQgZGEgZWRpdG9yYSBkbyBzZXUgZG9jdW1lbnRvOwpiKSBEZWNsYXJhIHF1ZSBjb25oZWNlIGUgYWNlaXRhIGFzIERpcmV0cml6ZXMgcGFyYSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGUEU7CmMpIENvbmNlZGUgw6AgVUZQRSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZGUgYXJxdWl2YXIsIHJlcHJvZHV6aXIsIGNvbnZlcnRlciAoY29tbyBkZWZpbmlkbyBhIHNlZ3VpciksIGNvbXVuaWNhciBlL291IGRpc3RyaWJ1aXIsIG5vIFJJLCBvIGRvY3VtZW50byBlbnRyZWd1ZSAoaW5jbHVpbmRvIG8gcmVzdW1vL2Fic3RyYWN0KSBlbSBmb3JtYXRvIGRpZ2l0YWwgb3UgcG9yIG91dHJvIG1laW87CmQpIERlY2xhcmEgcXVlIGF1dG9yaXphIGEgVUZQRSBhIGFycXVpdmFyIG1haXMgZGUgdW1hIGPDs3BpYSBkZXN0ZSBkb2N1bWVudG8gZSBjb252ZXJ0w6otbG8sIHNlbSBhbHRlcmFyIG8gc2V1IGNvbnRlw7pkbywgcGFyYSBxdWFscXVlciBmb3JtYXRvIGRlIGZpY2hlaXJvLCBtZWlvIG91IHN1cG9ydGUsIHBhcmEgZWZlaXRvcyBkZSBzZWd1cmFuw6dhLCBwcmVzZXJ2YcOnw6NvIChiYWNrdXApIGUgYWNlc3NvOwplKSBEZWNsYXJhIHF1ZSBvIGRvY3VtZW50byBzdWJtZXRpZG8gw6kgbyBzZXUgdHJhYmFsaG8gb3JpZ2luYWwgZSBxdWUgZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBhIHRlcmNlaXJvcyBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2Ugb3MgZGlyZWl0b3MgZGUgb3V0cmEgcGVzc29hIG91IGVudGlkYWRlOwpmKSBEZWNsYXJhIHF1ZSwgbm8gY2FzbyBkbyBkb2N1bWVudG8gc3VibWV0aWRvIGNvbnRlciBtYXRlcmlhbCBkbyBxdWFsIG7Do28gZGV0w6ltIG9zIGRpcmVpdG9zIGRlCmF1dG9yLCBvYnRldmUgYSBhdXRvcml6YcOnw6NvIGlycmVzdHJpdGEgZG8gcmVzcGVjdGl2byBkZXRlbnRvciBkZXNzZXMgZGlyZWl0b3MgcGFyYSBjZWRlciDDoApVRlBFIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgTGljZW7Dp2EgZSBhdXRvcml6YXIgYSB1bml2ZXJzaWRhZGUgYSB1dGlsaXrDoS1sb3MgbGVnYWxtZW50ZS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBlc3NlIG1hdGVyaWFsIGN1am9zIGRpcmVpdG9zIHPDo28gZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3UgY29udGXDumRvIGRvIGRvY3VtZW50byBlbnRyZWd1ZTsKZykgU2UgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgYmFzZWFkbyBlbSB0cmFiYWxobyBmaW5hbmNpYWRvIG91IGFwb2lhZG8gcG9yIG91dHJhIGluc3RpdHVpw6fDo28gcXVlIG7Do28gYSBVRlBFLCBkZWNsYXJhIHF1ZSBjdW1wcml1IHF1YWlzcXVlciBvYnJpZ2HDp8O1ZXMgZXhpZ2lkYXMgcGVsbyByZXNwZWN0aXZvIGNvbnRyYXRvIG91IGFjb3Jkby4KCkEgVUZQRSBpZGVudGlmaWNhcsOhIGNsYXJhbWVudGUgbyhzKSBub21lKHMpIGRvKHMpIGF1dG9yIChlcykgZG9zIGRpcmVpdG9zIGRvIGRvY3VtZW50byBlbnRyZWd1ZSBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIHBhcmEgYWzDqW0gZG8gcHJldmlzdG8gbmEgYWzDrW5lYSBjKS4KRepositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212021-01-07T05:12:35Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false
dc.title.pt_BR.fl_str_mv Uso de aprendizado supervisionado multivisão para atribuição automática de autoria de textos
title Uso de aprendizado supervisionado multivisão para atribuição automática de autoria de textos
spellingShingle Uso de aprendizado supervisionado multivisão para atribuição automática de autoria de textos
SOUSA, Luís Fred Gonçalves de
Inteligência computacional
Aprendizagem de máquina
title_short Uso de aprendizado supervisionado multivisão para atribuição automática de autoria de textos
title_full Uso de aprendizado supervisionado multivisão para atribuição automática de autoria de textos
title_fullStr Uso de aprendizado supervisionado multivisão para atribuição automática de autoria de textos
title_full_unstemmed Uso de aprendizado supervisionado multivisão para atribuição automática de autoria de textos
title_sort Uso de aprendizado supervisionado multivisão para atribuição automática de autoria de textos
author SOUSA, Luís Fred Gonçalves de
author_facet SOUSA, Luís Fred Gonçalves de
author_role author
dc.contributor.authorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/2004244088757573
dc.contributor.advisorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/5736183954752317
dc.contributor.author.fl_str_mv SOUSA, Luís Fred Gonçalves de
dc.contributor.advisor1.fl_str_mv VIMIEIRO, Renato
contributor_str_mv VIMIEIRO, Renato
dc.subject.por.fl_str_mv Inteligência computacional
Aprendizagem de máquina
topic Inteligência computacional
Aprendizagem de máquina
description Atribuição de autoria é o problema de identificar o autor de um ou mais textos com base no estilo de escrita do autor. Normalmente, a tarefa assume que o estilo de escrita dos autores conserva traços que são inacessíveis à manipulação consciente. Dessarte, tal poderia ser seguramente usado para identificar o autor de um texto. Os pesquisadores têm investigado um grande número de características textuais com o objetivo de validar a habilidade destas de revelar mecanismos subconscientes de variação de linguagem, os quais podem, consequentemente, refletir autoria. Muitos marcadores de estilo autorial já foram propostos na literatura. Não obstante, permanece a falta de consenso sobre qual é o melhor para representar as escolhas dos autores. Esta dissertação assume um ponto de vista neutro na disputa pelo melhor conjunto de características de texto capaz de representar estilos de escrita. No lugar disso, é investigado como diferentes fontes de informação podem relevar diferentes aspectos do estilo de um autor, complementando-se, assim, para aprimorar o processo geral de atribuição de autoria. Com esse propósito, o problema de atribuição de autoria é modelado nesse estudo como uma tarefa de aprendizado de máquina multivisão. A eficácia da abordagem proposta é avaliada em quatro conjuntos de dados com número variado de autores e obras. A performance do método é comparada ao estado da arte em abordagens de aprendizado de máquina para atribuição de autoria. No decorrer do estudo, foi analisado como o método multivisão aprimora as abordagens tradicionais que usam uma única fonte de informação para atribuir autoria, os quais foram chamados de métodos univisão. Os resultados confirmam a relevância de algumas características individuais de texto para a tarefa, mas também mostram como essas características se complementam com outros tipos de recursos linguísticos para melhorar a consistência e a precisão da atribuição de autoria. Ademais, foi verificado que os classificadores treinados com dados multivisão consistentemente concordam sobre os rótulos verdadeiros dos textos. O estudo ainda discute como essas melhorias, tanto na acurácia quanto na concordância de classificação, são benéficas para linguistas e outros especialistas.
publishDate 2020
dc.date.issued.fl_str_mv 2020-08-20
dc.date.accessioned.fl_str_mv 2021-01-06T18:29:39Z
dc.date.available.fl_str_mv 2021-01-06T18:29:39Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv SOUSA, Luís Fred Gonçalves de. Uso de aprendizado supervisionado multivisão para atribuição automática de autoria de textos. 2020. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2020.
dc.identifier.uri.fl_str_mv https://repositorio.ufpe.br/handle/123456789/38965
identifier_str_mv SOUSA, Luís Fred Gonçalves de. Uso de aprendizado supervisionado multivisão para atribuição automática de autoria de textos. 2020. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2020.
url https://repositorio.ufpe.br/handle/123456789/38965
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/embargoedAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv embargoedAccess
dc.publisher.none.fl_str_mv Universidade Federal de Pernambuco
dc.publisher.program.fl_str_mv Programa de Pos Graduacao em Ciencia da Computacao
dc.publisher.initials.fl_str_mv UFPE
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Universidade Federal de Pernambuco
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPE
instname:Universidade Federal de Pernambuco (UFPE)
instacron:UFPE
instname_str Universidade Federal de Pernambuco (UFPE)
instacron_str UFPE
institution UFPE
reponame_str Repositório Institucional da UFPE
collection Repositório Institucional da UFPE
bitstream.url.fl_str_mv https://repositorio.ufpe.br/bitstream/123456789/38965/1/DISSERTA%c3%87%c3%83O%20Lu%c3%ads%20Fred%20Gon%c3%a7alves%20de%20Sousa.pdf
https://repositorio.ufpe.br/bitstream/123456789/38965/2/license_rdf
https://repositorio.ufpe.br/bitstream/123456789/38965/3/license.txt
https://repositorio.ufpe.br/bitstream/123456789/38965/4/DISSERTA%c3%87%c3%83O%20Lu%c3%ads%20Fred%20Gon%c3%a7alves%20de%20Sousa.pdf.txt
https://repositorio.ufpe.br/bitstream/123456789/38965/5/DISSERTA%c3%87%c3%83O%20Lu%c3%ads%20Fred%20Gon%c3%a7alves%20de%20Sousa.pdf.jpg
bitstream.checksum.fl_str_mv ea5ac67e2e09b130fa8d309a4da1d95a
e39d27027a6cc9cb039ad269a5db8e34
bd573a5ca8288eb7272482765f819534
13b868747c02fa2aeccb5545ed00e382
52a50594a0b33752938e6d6c3641ea11
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)
repository.mail.fl_str_mv attena@ufpe.br
_version_ 1862741663839944704