Combinação de classificadores para sistema de automated fact checking

Detalhes bibliográficos
Ano de defesa: 2020
Autor(a) principal: SOUSA, Thiago Fernandes de
Orientador(a): CAVALCANTI, George Darmiton da Cunha
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Pernambuco
Programa de Pós-Graduação: Programa de Pos Graduacao em Ciencia da Computacao
Departamento: Não Informado pela instituição
País: Brasil
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpe.br/handle/123456789/38601
Resumo: A propagação de notícias falsas se tornou um problema de proporções globais, afetando a economia, saúde pública, convívio social, relações internacionais e o processo eleitoral de diversos países. Estudos indicam que fake news são compartilhadas mais vezes, e de maneira mais rápida que notícias verdadeiras. Isso ocorre porque estas declarações são fabricadas para enganar o leitor, indo de encontro com as suas convicções pessoais e diminuindo o seu senso crítico. Diversas técnicas de machine learning vêm sendo empregadas na tentativa de identificar padrões existentes em fake news, criando assim os sistemas de Automated Fact Checking. Uma alternativa a se considerar na melhoria de qualquer problema de classificação, é a combinação de um grupo de classificadores para uma classificação em conjunto, abrindo a possibilidade de se combinar os acertos individuais de cada integrante do grupo, obtendo assim, um resultado na classificação em conjunto que supere os resultados individuais de cada membro do conjunto. No entanto, combinar um grupo de classificadores, de forma a conseguir com que estas técnicas se complementem, não é uma tarefa trivial. Tendo em vista que para se conseguir uma melhoria no desempenho, os classificadores participantes do conjunto devem apresentar variações no seus padrões de acertos e erros. Este trabalho propõe uma abordagem que, dado um pool de classificadores, seja possível analisar o comportamento de cada integrante do conjunto em relação a todos os outros, tornando viável a construção de subgrupos de classificadores que apresente uma boa diversidade entre seus membros. Para testar a abordagem proposta, foi construído um pool composto por 80 classificadores, que tiveram seus desempenhos individuais verificados na classificação de um conjunto de dados de fake news. Em seguida, foi aplicado a metodologia proposta, e selecionados para uma classificação conjunta, subgrupos que apresentaram melhor diversidade entre seus membros. Este processo foi realizado duas vezes, a primeira vez considerando uma classificação binária do problema, e na segunda, foram consideradas seis classes diferentes, cada uma relacionada ao nível de veracidade contido na declaração analisada. Em todos os casos analisados, a aplicação da proposta se mostrou eficiente, possibilitando encontrar subgrupos que apresentaram melhora de desempenho na classificação em conjunto quando comparados com o desempenho individual dos classificadores do pool, superando também, experimentos publicados em outros trabalhos que se dedicavam a classificar o mesmo conjunto de dados.
id UFPE_9320fca4a6ff74a9d1f13164be01d5e8
oai_identifier_str oai:repositorio.ufpe.br:123456789/38601
network_acronym_str UFPE
network_name_str Repositório Institucional da UFPE
repository_id_str
spelling SOUSA, Thiago Fernandes dehttp://lattes.cnpq.br/4005667915077966http://lattes.cnpq.br/8577312109146354CAVALCANTI, George Darmiton da Cunha2020-11-10T21:10:47Z2020-11-10T21:10:47Z2020-05-26SOUSA, Thiago Fernandes de. Combinação de classificadores para sistema de automated fact checking. 2020. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2020.https://repositorio.ufpe.br/handle/123456789/38601A propagação de notícias falsas se tornou um problema de proporções globais, afetando a economia, saúde pública, convívio social, relações internacionais e o processo eleitoral de diversos países. Estudos indicam que fake news são compartilhadas mais vezes, e de maneira mais rápida que notícias verdadeiras. Isso ocorre porque estas declarações são fabricadas para enganar o leitor, indo de encontro com as suas convicções pessoais e diminuindo o seu senso crítico. Diversas técnicas de machine learning vêm sendo empregadas na tentativa de identificar padrões existentes em fake news, criando assim os sistemas de Automated Fact Checking. Uma alternativa a se considerar na melhoria de qualquer problema de classificação, é a combinação de um grupo de classificadores para uma classificação em conjunto, abrindo a possibilidade de se combinar os acertos individuais de cada integrante do grupo, obtendo assim, um resultado na classificação em conjunto que supere os resultados individuais de cada membro do conjunto. No entanto, combinar um grupo de classificadores, de forma a conseguir com que estas técnicas se complementem, não é uma tarefa trivial. Tendo em vista que para se conseguir uma melhoria no desempenho, os classificadores participantes do conjunto devem apresentar variações no seus padrões de acertos e erros. Este trabalho propõe uma abordagem que, dado um pool de classificadores, seja possível analisar o comportamento de cada integrante do conjunto em relação a todos os outros, tornando viável a construção de subgrupos de classificadores que apresente uma boa diversidade entre seus membros. Para testar a abordagem proposta, foi construído um pool composto por 80 classificadores, que tiveram seus desempenhos individuais verificados na classificação de um conjunto de dados de fake news. Em seguida, foi aplicado a metodologia proposta, e selecionados para uma classificação conjunta, subgrupos que apresentaram melhor diversidade entre seus membros. Este processo foi realizado duas vezes, a primeira vez considerando uma classificação binária do problema, e na segunda, foram consideradas seis classes diferentes, cada uma relacionada ao nível de veracidade contido na declaração analisada. Em todos os casos analisados, a aplicação da proposta se mostrou eficiente, possibilitando encontrar subgrupos que apresentaram melhora de desempenho na classificação em conjunto quando comparados com o desempenho individual dos classificadores do pool, superando também, experimentos publicados em outros trabalhos que se dedicavam a classificar o mesmo conjunto de dados.The spread of false news has become a problem of global proportions, affecting the economy, public health service, social life, international relations and the electoral process of several countries. Studies indicate that fake news is shared more often, and faster than real news. This is because these statements are designed to deceive the reader, meeting their personal beliefs and diminishing their critical sense. Several machine learning techniques have been used in an attempt to identify existing patterns in fake news, thus creating Automated Fact Checking systems. An alternative to consider in the improvement of any classification problem, is the combination of a group of classifiers for a classification together, opening the possibility of combining the individual hits of each member of the group, thus obtaining a result in the classification in set that exceeds the individual results of each member of the set. However, combining a group of classifiers in order to make these techniques complement each other is not a trivial task. Bearing in mind that to achieve an improvement in performance, the classifiers participating in the set must present variations in their patterns of successes and errors. This work proposes an approach that, given a pool of classifiers, it is possible to analyze the behavior of each member of the set in relation to all the others, making it possible to construct subgroups of classifiers that present a good diversity among its members. To test the proposed approach, a pool composed of 80 classifiers was built, which had their individual performances verified in the classification of a fake news data set. Then, the proposed methodology was applied, and subgroups that showed the best diversity among their members were selected for a joint classification. This process was carried out twice, the first time considering a binary classification of the problem, and the second time, six different classes were considered, each related to the level of veracity contained in the analyzed statement. In all the cases analyzed, the application of the proposal proved to be efficient, making it possible to find subgroups that showed improved performance in the classification as a whole when compared to the individual performance of the classifiers in the pool, also surpassing experiments published in other works that were dedicated to classifying the same data set.porUniversidade Federal de PernambucoPrograma de Pos Graduacao em Ciencia da ComputacaoUFPEBrasilAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessInteligência computacionalCombinação de classificadoresCombinação de classificadores para sistema de automated fact checkinginfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesismestradoreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPECC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufpe.br/bitstream/123456789/38601/2/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82310https://repositorio.ufpe.br/bitstream/123456789/38601/3/license.txtbd573a5ca8288eb7272482765f819534MD53TEXTDISSERTAÇÃO Thiago Fernandes de Sousa.pdf.txtDISSERTAÇÃO Thiago Fernandes de Sousa.pdf.txtExtracted texttext/plain151128https://repositorio.ufpe.br/bitstream/123456789/38601/4/DISSERTA%c3%87%c3%83O%20Thiago%20Fernandes%20de%20Sousa.pdf.txte3990167a5ee1490136b1950019cddd4MD54THUMBNAILDISSERTAÇÃO Thiago Fernandes de Sousa.pdf.jpgDISSERTAÇÃO Thiago Fernandes de Sousa.pdf.jpgGenerated Thumbnailimage/jpeg1286https://repositorio.ufpe.br/bitstream/123456789/38601/5/DISSERTA%c3%87%c3%83O%20Thiago%20Fernandes%20de%20Sousa.pdf.jpgd69c3bb85336fcd135c0833c453092c6MD55ORIGINALDISSERTAÇÃO Thiago Fernandes de Sousa.pdfDISSERTAÇÃO Thiago Fernandes de Sousa.pdfapplication/pdf1723903https://repositorio.ufpe.br/bitstream/123456789/38601/1/DISSERTA%c3%87%c3%83O%20Thiago%20Fernandes%20de%20Sousa.pdf5d7cbb8eb7002c7e6bf06bce88f4d4dbMD51123456789/386012020-11-11 02:18:26.965oai:repositorio.ufpe.br:123456789/38601TGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKClRvZG8gZGVwb3NpdGFudGUgZGUgbWF0ZXJpYWwgbm8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgKFJJKSBkZXZlIGNvbmNlZGVyLCDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBQZXJuYW1idWNvIChVRlBFKSwgdW1hIExpY2Vuw6dhIGRlIERpc3RyaWJ1acOnw6NvIE7Do28gRXhjbHVzaXZhIHBhcmEgbWFudGVyIGUgdG9ybmFyIGFjZXNzw612ZWlzIG9zIHNldXMgZG9jdW1lbnRvcywgZW0gZm9ybWF0byBkaWdpdGFsLCBuZXN0ZSByZXBvc2l0w7NyaW8uCgpDb20gYSBjb25jZXNzw6NvIGRlc3RhIGxpY2Vuw6dhIG7Do28gZXhjbHVzaXZhLCBvIGRlcG9zaXRhbnRlIG1hbnTDqW0gdG9kb3Mgb3MgZGlyZWl0b3MgZGUgYXV0b3IuCl9fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fXwoKTGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKCkFvIGNvbmNvcmRhciBjb20gZXN0YSBsaWNlbsOnYSBlIGFjZWl0w6EtbGEsIHZvY8OqIChhdXRvciBvdSBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMpOgoKYSkgRGVjbGFyYSBxdWUgY29uaGVjZSBhIHBvbMOtdGljYSBkZSBjb3B5cmlnaHQgZGEgZWRpdG9yYSBkbyBzZXUgZG9jdW1lbnRvOwpiKSBEZWNsYXJhIHF1ZSBjb25oZWNlIGUgYWNlaXRhIGFzIERpcmV0cml6ZXMgcGFyYSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGUEU7CmMpIENvbmNlZGUgw6AgVUZQRSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZGUgYXJxdWl2YXIsIHJlcHJvZHV6aXIsIGNvbnZlcnRlciAoY29tbyBkZWZpbmlkbyBhIHNlZ3VpciksIGNvbXVuaWNhciBlL291IGRpc3RyaWJ1aXIsIG5vIFJJLCBvIGRvY3VtZW50byBlbnRyZWd1ZSAoaW5jbHVpbmRvIG8gcmVzdW1vL2Fic3RyYWN0KSBlbSBmb3JtYXRvIGRpZ2l0YWwgb3UgcG9yIG91dHJvIG1laW87CmQpIERlY2xhcmEgcXVlIGF1dG9yaXphIGEgVUZQRSBhIGFycXVpdmFyIG1haXMgZGUgdW1hIGPDs3BpYSBkZXN0ZSBkb2N1bWVudG8gZSBjb252ZXJ0w6otbG8sIHNlbSBhbHRlcmFyIG8gc2V1IGNvbnRlw7pkbywgcGFyYSBxdWFscXVlciBmb3JtYXRvIGRlIGZpY2hlaXJvLCBtZWlvIG91IHN1cG9ydGUsIHBhcmEgZWZlaXRvcyBkZSBzZWd1cmFuw6dhLCBwcmVzZXJ2YcOnw6NvIChiYWNrdXApIGUgYWNlc3NvOwplKSBEZWNsYXJhIHF1ZSBvIGRvY3VtZW50byBzdWJtZXRpZG8gw6kgbyBzZXUgdHJhYmFsaG8gb3JpZ2luYWwgZSBxdWUgZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBhIHRlcmNlaXJvcyBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2Ugb3MgZGlyZWl0b3MgZGUgb3V0cmEgcGVzc29hIG91IGVudGlkYWRlOwpmKSBEZWNsYXJhIHF1ZSwgbm8gY2FzbyBkbyBkb2N1bWVudG8gc3VibWV0aWRvIGNvbnRlciBtYXRlcmlhbCBkbyBxdWFsIG7Do28gZGV0w6ltIG9zIGRpcmVpdG9zIGRlCmF1dG9yLCBvYnRldmUgYSBhdXRvcml6YcOnw6NvIGlycmVzdHJpdGEgZG8gcmVzcGVjdGl2byBkZXRlbnRvciBkZXNzZXMgZGlyZWl0b3MgcGFyYSBjZWRlciDDoApVRlBFIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgTGljZW7Dp2EgZSBhdXRvcml6YXIgYSB1bml2ZXJzaWRhZGUgYSB1dGlsaXrDoS1sb3MgbGVnYWxtZW50ZS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBlc3NlIG1hdGVyaWFsIGN1am9zIGRpcmVpdG9zIHPDo28gZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3UgY29udGXDumRvIGRvIGRvY3VtZW50byBlbnRyZWd1ZTsKZykgU2UgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgYmFzZWFkbyBlbSB0cmFiYWxobyBmaW5hbmNpYWRvIG91IGFwb2lhZG8gcG9yIG91dHJhIGluc3RpdHVpw6fDo28gcXVlIG7Do28gYSBVRlBFLCBkZWNsYXJhIHF1ZSBjdW1wcml1IHF1YWlzcXVlciBvYnJpZ2HDp8O1ZXMgZXhpZ2lkYXMgcGVsbyByZXNwZWN0aXZvIGNvbnRyYXRvIG91IGFjb3Jkby4KCkEgVUZQRSBpZGVudGlmaWNhcsOhIGNsYXJhbWVudGUgbyhzKSBub21lKHMpIGRvKHMpIGF1dG9yIChlcykgZG9zIGRpcmVpdG9zIGRvIGRvY3VtZW50byBlbnRyZWd1ZSBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIHBhcmEgYWzDqW0gZG8gcHJldmlzdG8gbmEgYWzDrW5lYSBjKS4KRepositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212020-11-11T05:18:26Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false
dc.title.pt_BR.fl_str_mv Combinação de classificadores para sistema de automated fact checking
title Combinação de classificadores para sistema de automated fact checking
spellingShingle Combinação de classificadores para sistema de automated fact checking
SOUSA, Thiago Fernandes de
Inteligência computacional
Combinação de classificadores
title_short Combinação de classificadores para sistema de automated fact checking
title_full Combinação de classificadores para sistema de automated fact checking
title_fullStr Combinação de classificadores para sistema de automated fact checking
title_full_unstemmed Combinação de classificadores para sistema de automated fact checking
title_sort Combinação de classificadores para sistema de automated fact checking
author SOUSA, Thiago Fernandes de
author_facet SOUSA, Thiago Fernandes de
author_role author
dc.contributor.authorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/4005667915077966
dc.contributor.advisorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/8577312109146354
dc.contributor.author.fl_str_mv SOUSA, Thiago Fernandes de
dc.contributor.advisor1.fl_str_mv CAVALCANTI, George Darmiton da Cunha
contributor_str_mv CAVALCANTI, George Darmiton da Cunha
dc.subject.por.fl_str_mv Inteligência computacional
Combinação de classificadores
topic Inteligência computacional
Combinação de classificadores
description A propagação de notícias falsas se tornou um problema de proporções globais, afetando a economia, saúde pública, convívio social, relações internacionais e o processo eleitoral de diversos países. Estudos indicam que fake news são compartilhadas mais vezes, e de maneira mais rápida que notícias verdadeiras. Isso ocorre porque estas declarações são fabricadas para enganar o leitor, indo de encontro com as suas convicções pessoais e diminuindo o seu senso crítico. Diversas técnicas de machine learning vêm sendo empregadas na tentativa de identificar padrões existentes em fake news, criando assim os sistemas de Automated Fact Checking. Uma alternativa a se considerar na melhoria de qualquer problema de classificação, é a combinação de um grupo de classificadores para uma classificação em conjunto, abrindo a possibilidade de se combinar os acertos individuais de cada integrante do grupo, obtendo assim, um resultado na classificação em conjunto que supere os resultados individuais de cada membro do conjunto. No entanto, combinar um grupo de classificadores, de forma a conseguir com que estas técnicas se complementem, não é uma tarefa trivial. Tendo em vista que para se conseguir uma melhoria no desempenho, os classificadores participantes do conjunto devem apresentar variações no seus padrões de acertos e erros. Este trabalho propõe uma abordagem que, dado um pool de classificadores, seja possível analisar o comportamento de cada integrante do conjunto em relação a todos os outros, tornando viável a construção de subgrupos de classificadores que apresente uma boa diversidade entre seus membros. Para testar a abordagem proposta, foi construído um pool composto por 80 classificadores, que tiveram seus desempenhos individuais verificados na classificação de um conjunto de dados de fake news. Em seguida, foi aplicado a metodologia proposta, e selecionados para uma classificação conjunta, subgrupos que apresentaram melhor diversidade entre seus membros. Este processo foi realizado duas vezes, a primeira vez considerando uma classificação binária do problema, e na segunda, foram consideradas seis classes diferentes, cada uma relacionada ao nível de veracidade contido na declaração analisada. Em todos os casos analisados, a aplicação da proposta se mostrou eficiente, possibilitando encontrar subgrupos que apresentaram melhora de desempenho na classificação em conjunto quando comparados com o desempenho individual dos classificadores do pool, superando também, experimentos publicados em outros trabalhos que se dedicavam a classificar o mesmo conjunto de dados.
publishDate 2020
dc.date.accessioned.fl_str_mv 2020-11-10T21:10:47Z
dc.date.available.fl_str_mv 2020-11-10T21:10:47Z
dc.date.issued.fl_str_mv 2020-05-26
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv SOUSA, Thiago Fernandes de. Combinação de classificadores para sistema de automated fact checking. 2020. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2020.
dc.identifier.uri.fl_str_mv https://repositorio.ufpe.br/handle/123456789/38601
identifier_str_mv SOUSA, Thiago Fernandes de. Combinação de classificadores para sistema de automated fact checking. 2020. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2020.
url https://repositorio.ufpe.br/handle/123456789/38601
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Pernambuco
dc.publisher.program.fl_str_mv Programa de Pos Graduacao em Ciencia da Computacao
dc.publisher.initials.fl_str_mv UFPE
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Universidade Federal de Pernambuco
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPE
instname:Universidade Federal de Pernambuco (UFPE)
instacron:UFPE
instname_str Universidade Federal de Pernambuco (UFPE)
instacron_str UFPE
institution UFPE
reponame_str Repositório Institucional da UFPE
collection Repositório Institucional da UFPE
bitstream.url.fl_str_mv https://repositorio.ufpe.br/bitstream/123456789/38601/2/license_rdf
https://repositorio.ufpe.br/bitstream/123456789/38601/3/license.txt
https://repositorio.ufpe.br/bitstream/123456789/38601/4/DISSERTA%c3%87%c3%83O%20Thiago%20Fernandes%20de%20Sousa.pdf.txt
https://repositorio.ufpe.br/bitstream/123456789/38601/5/DISSERTA%c3%87%c3%83O%20Thiago%20Fernandes%20de%20Sousa.pdf.jpg
https://repositorio.ufpe.br/bitstream/123456789/38601/1/DISSERTA%c3%87%c3%83O%20Thiago%20Fernandes%20de%20Sousa.pdf
bitstream.checksum.fl_str_mv e39d27027a6cc9cb039ad269a5db8e34
bd573a5ca8288eb7272482765f819534
e3990167a5ee1490136b1950019cddd4
d69c3bb85336fcd135c0833c453092c6
5d7cbb8eb7002c7e6bf06bce88f4d4db
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)
repository.mail.fl_str_mv attena@ufpe.br
_version_ 1797782452209451008