Avaliação de técnicas de reconhecimento óptico de caracteres (OCR) para análise de dados em português disseminados em plataformas de mídias sociais

Santos, Yago José Araújo dos

Avaliação de técnicas de reconhecimento óptico de caracteres (OCR) para análise de dados em português disseminados em plataformas de mídias sociais

Detalhes bibliográficos
Ano de defesa:	2024
Autor(a) principal:	Santos, Yago José Araújo dos
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade Federal de Viçosa Ciência da Computação
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Redes sociais on-line Desinformação Análise de conteúdo (Comunicação) Ciência da Computação
Link de acesso:	https://locus.ufv.br/handle/123456789/32586 https://doi.org/10.47328/ufvbbt.2024.310
Resumo:	Ao mesmo tempo em que as plataformas de mídias sociais facilitaram as interações e ajudaram a democratizar o acesso à informação, estas também são exploradas para disseminação de desinformação em diferentes contextos, como saúde, política, dentre outros. Fatores como: a velocidade de disseminação, a demora na veriﬁcação de fatos e a complexidade de análise de mídias como imagens e vídeos, fazem com que o combate a essa prática seja cada vez mais desaﬁador. Esforços anteriores revelaram que as imagens representam o tipo de mídia mais explorado nas plataformas sociais. Neste contexto, uma abordagem para combater a desinformação em imagens é extrair o conteúdo textual para processamento posterior. Assim, o objetivo deste trabalho é investigar o desempenho de ferramentas de OCR na recuperação de informações textuais em Português do Brasil, a ﬁm de contribuir para o desenvolvimento de sistemas de moderação e combate à desinformação cada vez mais eﬁcientes. Este estudo apresenta uma metodologia para avaliar ferramentas de OCR considerando variações em 7 aspectos de imagem que são comumente encontrados nos recursos de edição das plataformas de mídias sociais, a saber: o ângulo de rotação do texto, as dimensões da imagem, a cor e o estilo da fonte, o tamanho da fonte, a presença de sombras no texto e o plano de fundo. Nossos resultados revelam a inﬂuência dos aspectos da imagem analisada na precisão do OCR, destacando o plano de fundo, o ângulo de rotação do texto e o estilo da fonte como os aspectos que produzem o maior impacto. Além disso, relatamos uma variação considerável entre os sistemas de OCR avaliados em termos de desempenho. Nossos experimentos demonstram que, dentre as ferramentas avaliadas, o Microsoft OCR apresenta os melhores resultados de CER em todos os aspectos analisados com valores médios variando entre 0,14% e 0,71%. Já os piores resultados são do Easy OCR, com valores médios de CER variando entre 1,5% e 57,8%, e do PyTesseract, com valores variando entre 3,9% e 35,6%. Por ﬁm, além de realizarmos um experimento para avaliar como o desempenho das ferramentas de OCR impactam na detecção de desinformação, disponibilizamos um conjunto de imagens com desinformação em Português do Brasil que poderá ser utilizado pela comunidade acadêmica para diferentes ﬁns. Palavras-chave: Reconhecimento Óptico de Caracteres. Desinformação. Dados sintéticos.

Metadados do item

id	UFV_3d595df890bb730dc76efdecac0844e0
oai_identifier_str	oai:locus.ufv.br:123456789/32586
network_acronym_str	UFV
network_name_str	LOCUS Repositório Institucional da UFV
repository_id_str
spelling	Avaliação de técnicas de reconhecimento óptico de caracteres (OCR) para análise de dados em português disseminados em plataformas de mídias sociaisRedes sociais on-lineDesinformaçãoAnálise de conteúdo (Comunicação)Ciência da ComputaçãoAo mesmo tempo em que as plataformas de mídias sociais facilitaram as interações e ajudaram a democratizar o acesso à informação, estas também são exploradas para disseminação de desinformação em diferentes contextos, como saúde, política, dentre outros. Fatores como: a velocidade de disseminação, a demora na veriﬁcação de fatos e a complexidade de análise de mídias como imagens e vídeos, fazem com que o combate a essa prática seja cada vez mais desaﬁador. Esforços anteriores revelaram que as imagens representam o tipo de mídia mais explorado nas plataformas sociais. Neste contexto, uma abordagem para combater a desinformação em imagens é extrair o conteúdo textual para processamento posterior. Assim, o objetivo deste trabalho é investigar o desempenho de ferramentas de OCR na recuperação de informações textuais em Português do Brasil, a ﬁm de contribuir para o desenvolvimento de sistemas de moderação e combate à desinformação cada vez mais eﬁcientes. Este estudo apresenta uma metodologia para avaliar ferramentas de OCR considerando variações em 7 aspectos de imagem que são comumente encontrados nos recursos de edição das plataformas de mídias sociais, a saber: o ângulo de rotação do texto, as dimensões da imagem, a cor e o estilo da fonte, o tamanho da fonte, a presença de sombras no texto e o plano de fundo. Nossos resultados revelam a inﬂuência dos aspectos da imagem analisada na precisão do OCR, destacando o plano de fundo, o ângulo de rotação do texto e o estilo da fonte como os aspectos que produzem o maior impacto. Além disso, relatamos uma variação considerável entre os sistemas de OCR avaliados em termos de desempenho. Nossos experimentos demonstram que, dentre as ferramentas avaliadas, o Microsoft OCR apresenta os melhores resultados de CER em todos os aspectos analisados com valores médios variando entre 0,14% e 0,71%. Já os piores resultados são do Easy OCR, com valores médios de CER variando entre 1,5% e 57,8%, e do PyTesseract, com valores variando entre 3,9% e 35,6%. Por ﬁm, além de realizarmos um experimento para avaliar como o desempenho das ferramentas de OCR impactam na detecção de desinformação, disponibilizamos um conjunto de imagens com desinformação em Português do Brasil que poderá ser utilizado pela comunidade acadêmica para diferentes ﬁns. Palavras-chave: Reconhecimento Óptico de Caracteres. Desinformação. Dados sintéticos.At the same time that social media platforms facilitate interactions and help democratize access to information, they are also exploited to spread misinformation in diﬀerent contexts, such as health, politics, among others. Factors such as: the speed of dissemination, the delay in verifying facts and the complexity of analyzing media such as images and videos, make combating this practice increasingly challenging. Previous eﬀorts have revealed that images represent the most explored type of media on social platforms. In this context, one approach to combating misinformation in images is to extract the textual content for further processing. Therefore, the objective of this work is to investigate the performance of OCR tools in retrieving textual information in Brazilian Portuguese, in order to contribute to the development of increasingly eﬃcient moderation and combating disinformation systems. This study presents a methodology to evaluate OCR tools considering variations in 7 image aspects that are commonly found in the editing features of social media platforms, namely: text rotation angle, image dimensions, color and font style, font size, the presence of shadows in the text and the background. Our results reveal the inﬂuence of aspects of the analyzed image on OCR accuracy, highlighting the background, text rotation angle and font style as the aspects that produce the greatest impact. Furthermore, we report considerable variation between the OCR systems evaluated in terms of performance. Our experiments demonstrate that, among the tools evaluated, Microsoft OCR presents the best CER results in all aspects analyzed with average values varying between 0.14% and 0.71%. The worst results are from Easy OCR, with average CER values varying between 1.5% and 57.8%, and from PyTesseract, with values varying between 3.9% and 35.6%. Finally, in addition to carrying out an experiment to evaluate how the performance of OCR tools impacts the detection of misinformation, we provide a set of images with misinformation in Brazilian Portuguese that can be used by the academic community for diﬀerent purposes. Keywords: Optical Character Recognition (OCR). Misinformation. Synthetic Data.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)Universidade Federal de ViçosaCiência da ComputaçãoReis, Julio Cesar Soares doshttp://lattes.cnpq.br/9560391199290724Silva, Michel Melo daSantos, Yago José Araújo dos2024-08-13T17:26:28Z2024-05-03info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfSANTOS, Yago José Araújo dos. Avaliação de técnicas de reconhecimento óptico de caracteres (OCR) para análise de dados em português disseminados em plataformas de mídias sociais. 2024. 86 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2024.https://locus.ufv.br/handle/123456789/32586https://doi.org/10.47328/ufvbbt.2024.310porinfo:eu-repo/semantics/openAccessreponame:LOCUS Repositório Institucional da UFVinstname:Universidade Federal de Viçosa (UFV)instacron:UFV2024-08-14T06:00:53Zoai:locus.ufv.br:123456789/32586Repositório InstitucionalPUBhttps://www.locus.ufv.br/oai/requestfabiojreis@ufv.bropendoar:21452024-08-14T06:00:53LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)false
dc.title.none.fl_str_mv	Avaliação de técnicas de reconhecimento óptico de caracteres (OCR) para análise de dados em português disseminados em plataformas de mídias sociais
title	Avaliação de técnicas de reconhecimento óptico de caracteres (OCR) para análise de dados em português disseminados em plataformas de mídias sociais
spellingShingle	Avaliação de técnicas de reconhecimento óptico de caracteres (OCR) para análise de dados em português disseminados em plataformas de mídias sociais Santos, Yago José Araújo dos Redes sociais on-line Desinformação Análise de conteúdo (Comunicação) Ciência da Computação
title_short	Avaliação de técnicas de reconhecimento óptico de caracteres (OCR) para análise de dados em português disseminados em plataformas de mídias sociais
title_full	Avaliação de técnicas de reconhecimento óptico de caracteres (OCR) para análise de dados em português disseminados em plataformas de mídias sociais
title_fullStr	Avaliação de técnicas de reconhecimento óptico de caracteres (OCR) para análise de dados em português disseminados em plataformas de mídias sociais
title_full_unstemmed	Avaliação de técnicas de reconhecimento óptico de caracteres (OCR) para análise de dados em português disseminados em plataformas de mídias sociais
title_sort	Avaliação de técnicas de reconhecimento óptico de caracteres (OCR) para análise de dados em português disseminados em plataformas de mídias sociais
author	Santos, Yago José Araújo dos
author_facet	Santos, Yago José Araújo dos
author_role	author
dc.contributor.none.fl_str_mv	Reis, Julio Cesar Soares dos http://lattes.cnpq.br/9560391199290724 Silva, Michel Melo da
dc.contributor.author.fl_str_mv	Santos, Yago José Araújo dos
dc.subject.por.fl_str_mv	Redes sociais on-line Desinformação Análise de conteúdo (Comunicação) Ciência da Computação
topic	Redes sociais on-line Desinformação Análise de conteúdo (Comunicação) Ciência da Computação
description	Ao mesmo tempo em que as plataformas de mídias sociais facilitaram as interações e ajudaram a democratizar o acesso à informação, estas também são exploradas para disseminação de desinformação em diferentes contextos, como saúde, política, dentre outros. Fatores como: a velocidade de disseminação, a demora na veriﬁcação de fatos e a complexidade de análise de mídias como imagens e vídeos, fazem com que o combate a essa prática seja cada vez mais desaﬁador. Esforços anteriores revelaram que as imagens representam o tipo de mídia mais explorado nas plataformas sociais. Neste contexto, uma abordagem para combater a desinformação em imagens é extrair o conteúdo textual para processamento posterior. Assim, o objetivo deste trabalho é investigar o desempenho de ferramentas de OCR na recuperação de informações textuais em Português do Brasil, a ﬁm de contribuir para o desenvolvimento de sistemas de moderação e combate à desinformação cada vez mais eﬁcientes. Este estudo apresenta uma metodologia para avaliar ferramentas de OCR considerando variações em 7 aspectos de imagem que são comumente encontrados nos recursos de edição das plataformas de mídias sociais, a saber: o ângulo de rotação do texto, as dimensões da imagem, a cor e o estilo da fonte, o tamanho da fonte, a presença de sombras no texto e o plano de fundo. Nossos resultados revelam a inﬂuência dos aspectos da imagem analisada na precisão do OCR, destacando o plano de fundo, o ângulo de rotação do texto e o estilo da fonte como os aspectos que produzem o maior impacto. Além disso, relatamos uma variação considerável entre os sistemas de OCR avaliados em termos de desempenho. Nossos experimentos demonstram que, dentre as ferramentas avaliadas, o Microsoft OCR apresenta os melhores resultados de CER em todos os aspectos analisados com valores médios variando entre 0,14% e 0,71%. Já os piores resultados são do Easy OCR, com valores médios de CER variando entre 1,5% e 57,8%, e do PyTesseract, com valores variando entre 3,9% e 35,6%. Por ﬁm, além de realizarmos um experimento para avaliar como o desempenho das ferramentas de OCR impactam na detecção de desinformação, disponibilizamos um conjunto de imagens com desinformação em Português do Brasil que poderá ser utilizado pela comunidade acadêmica para diferentes ﬁns. Palavras-chave: Reconhecimento Óptico de Caracteres. Desinformação. Dados sintéticos.
publishDate	2024
dc.date.none.fl_str_mv	2024-08-13T17:26:28Z 2024-05-03
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	SANTOS, Yago José Araújo dos. Avaliação de técnicas de reconhecimento óptico de caracteres (OCR) para análise de dados em português disseminados em plataformas de mídias sociais. 2024. 86 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2024. https://locus.ufv.br/handle/123456789/32586 https://doi.org/10.47328/ufvbbt.2024.310
identifier_str_mv	SANTOS, Yago José Araújo dos. Avaliação de técnicas de reconhecimento óptico de caracteres (OCR) para análise de dados em português disseminados em plataformas de mídias sociais. 2024. 86 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2024.
url	https://locus.ufv.br/handle/123456789/32586 https://doi.org/10.47328/ufvbbt.2024.310
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidade Federal de Viçosa Ciência da Computação
publisher.none.fl_str_mv	Universidade Federal de Viçosa Ciência da Computação
dc.source.none.fl_str_mv	reponame:LOCUS Repositório Institucional da UFV instname:Universidade Federal de Viçosa (UFV) instacron:UFV
instname_str	Universidade Federal de Viçosa (UFV)
instacron_str	UFV
institution	UFV
reponame_str	LOCUS Repositório Institucional da UFV
collection	LOCUS Repositório Institucional da UFV
repository.name.fl_str_mv	LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)
repository.mail.fl_str_mv	fabiojreis@ufv.br
_version_	1855045590479536128

Avaliação de técnicas de reconhecimento óptico de caracteres (OCR) para análise de dados em português disseminados em plataformas de mídias sociais

Registros relacionados