Análise e Classificação de imagens para aplicação de OCR em cupons fiscais

Detalhes bibliográficos
Ano de defesa: 2017
Autor(a) principal: Feijó, José Victor Feijó de Araujo
Orientador(a): Santos, Elder Rizzon Santos
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Florianópolis, SC.
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.ufsc.br/xmlui/handle/123456789/182212
Resumo: TCC(graduação) - Universidade Federal de Santa Catarina. Centro Tecnológico. Ciências da Computação.
id UFSC_cd53cba9c65d29e61081a4870f6caf49
oai_identifier_str oai:repositorio.ufsc.br:123456789/182212
network_acronym_str UFSC
network_name_str Repositório Institucional da UFSC
repository_id_str
spelling Universidade Federal de Santa CatarinaFeijó, José Victor Feijó de AraujoSantos, Elder Rizzon SantosSilva, Alexandre Gonçalves Silva2017-12-13T21:10:36Z2017-12-13T21:10:36Z2017-12-13https://repositorio.ufsc.br/xmlui/handle/123456789/182212TCC(graduação) - Universidade Federal de Santa Catarina. Centro Tecnológico. Ciências da Computação.A proposta sugerida por este trabalho foi de analisar o impacto de um modelo de classificação, seguido de técnicas de PDI e OCR para extração de texto em cupons fiscais, classificando-os em subgrupos. Técnicas selecionadas de PDI foram aplicadas para cada grupo com suas devidas características, por fim extraindo texto dessas imagens através de um algoritmo de OCR. Foi realizado um estudo sobre os algoritmos clássicos de classificação na área de aprendizado de máquinas, com foco nos algoritmos de “clusterização” e sua correlação com a classificação de imagens em um modelo de aprendizado não supervisionado. Também foi feita uma análise sobre as características das imagens de cupons fiscais e das possíveis técnicas de PDI que podem ser aplicadas. Em relação ao OCR, também foi realizado um estudo para verificar possíveis soluções na extração de texto e entender seu comportamento, possibilitando desta maneira implementar a arquitetura proposta. Sendo assim, foram desenvolvidos métodos para classificar as imagens em clusters utilizando algoritmos de “clusterização”. Também foram propostas três técnicas de PDI, a primeira aplicando uma série de realces, a segunda uma binarização adaptativa e a terceira técnica utilizando a compressão de dados JPEG. Essas imagens foram enviadas para o serviço de OCR do Google Vision, onde foi possível extrair o texto das imagens em formato de blocos. Os resultados do modelo desenvolvido foram avaliados comparando a taxa de acerto do OCR com os valores de texto reais presentes nos cupons fiscais, onde foi possível analisar a precisão de cada técnica proposta e da arquitetura como um todo. Foram obtidos resultados positivos utilizando o modelo desenvolvido, melhorando a extração do valor total da compra em aproximadamente 6%. Além disso, os resultados da compressão JPEG melhoraram também a extração de outros dados do cupom fiscal, como por exemplo o CNPJ e a data da compra.123porFlorianópolis, SC.Classificação de Imagens, Técnicas de PDI, OCR, Cupons Fiscais.Análise e Classificação de imagens para aplicação de OCR em cupons fiscaisinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSCinfo:eu-repo/semantics/openAccessORIGINALTCC_JOSE_VICTOR_FEIJÓ.pdfTCC_JOSE_VICTOR_FEIJÓ.pdfDissertação em PDFapplication/pdf18256303https://repositorio.ufsc.br/bitstream/123456789/182212/1/TCC_JOSE_VICTOR_FEIJO%cc%81.pdf6f566a4daec3603fa7cc31bf1d8da5c8MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81383https://repositorio.ufsc.br/bitstream/123456789/182212/2/license.txt11ee89cd31d893362820eab7c4d46734MD52123456789/1822122017-12-13 19:10:36.087oai:repositorio.ufsc.br:123456789/182212Vm9jw6ogdGVtIGEgbGliZXJkYWRlIGRlOiBDb21wYXJ0aWxoYXIg4oCUIGNvcGlhciwgZGlzdHJpYnVpciBlIHRyYW5zbWl0aXIgYSBvYnJhLiBSZW1peGFyIOKAlCBjcmlhciBvYnJhcyBkZXJpdmFkYXMuClNvYiBhcyBzZWd1aW50ZXMgY29uZGnDp8O1ZXM6IEF0cmlidWnDp8OjbyDigJQgVm9jw6ogZGV2ZSBjcmVkaXRhciBhIG9icmEgZGEgZm9ybWEgZXNwZWNpZmljYWRhIHBlbG8gYXV0b3Igb3UgbGljZW5jaWFudGUgKG1hcyBuw6NvIGRlIG1hbmVpcmEgcXVlIHN1Z2lyYSBxdWUgZXN0ZXMgY29uY2VkZW0gcXVhbHF1ZXIgYXZhbCBhIHZvY8OqIG91IGFvIHNldSB1c28gZGEgb2JyYSkuIFVzbyBuw6NvLWNvbWVyY2lhbCDigJQgVm9jw6ogbsOjbyBwb2RlIHVzYXIgZXN0YSBvYnJhIHBhcmEgZmlucyBjb21lcmNpYWlzLgpGaWNhbmRvIGNsYXJvIHF1ZTogUmVuw7puY2lhIOKAlCBRdWFscXVlciBkYXMgY29uZGnDp8O1ZXMgYWNpbWEgcG9kZSBzZXIgcmVudW5jaWFkYSBzZSB2b2PDqiBvYnRpdmVyIHBlcm1pc3PDo28gZG8gdGl0dWxhciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMuIERvbcOtbmlvIFDDumJsaWNvIOKAlCBPbmRlIGEgb2JyYSBvdSBxdWFscXVlciBkZSBzZXVzIGVsZW1lbnRvcyBlc3RpdmVyIGVtIGRvbcOtbmlvIHDDumJsaWNvIHNvYiBvIGRpcmVpdG8gYXBsaWPDoXZlbCwgZXN0YSBjb25kacOnw6NvIG7Do28gw6ksIGRlIG1hbmVpcmEgYWxndW1hLCBhZmV0YWRhIHBlbGEgbGljZW7Dp2EuIE91dHJvcyBEaXJlaXRvcyDigJQgT3Mgc2VndWludGVzIGRpcmVpdG9zIG7Do28gc8OjbywgZGUgbWFuZWlyYSBhbGd1bWEsIGFmZXRhZG9zIHBlbGEgbGljZW7Dp2E6IExpbWl0YcOnw7VlcyBlIGV4Y2XDp8O1ZXMgYW9zIGRpcmVpdG9zIGF1dG9yYWlzIG91IHF1YWlzcXVlciB1c29zIGxpdnJlcyBhcGxpY8OhdmVpczsgT3MgZGlyZWl0b3MgbW9yYWlzIGRvIGF1dG9yOyBEaXJlaXRvcyBxdWUgb3V0cmFzIHBlc3NvYXMgcG9kZW0gdGVyIHNvYnJlIGEgb2JyYSBvdSBzb2JyZSBhIHV0aWxpemHDp8OjbyBkYSBvYnJhLCB0YWlzIGNvbW8gZGlyZWl0b3MgZGUgaW1hZ2VtIG91IHByaXZhY2lkYWRlLiBBdmlzbyDigJQgUGFyYSBxdWFscXVlciByZXV0aWxpemHDp8OjbyBvdSBkaXN0cmlidWnDp8Ojbywgdm9jw6ogZGV2ZSBkZWl4YXIgY2xhcm8gYSB0ZXJjZWlyb3Mgb3MgdGVybW9zIGRhIGxpY2Vuw6dhIGEgcXVlIHNlIGVuY29udHJhIHN1Ym1ldGlkYSBlc3RhIG9icmEuIEEgbWVsaG9yIG1hbmVpcmEgZGUgZmF6ZXIgaXNzbyDDqSBjb20gdW0gbGluayBwYXJhIGVzdGEgcMOhZ2luYS4KTGljZW7Dp2EgQ3JlYXRpdmUgQ29tbW9ucyAtIGh0dHA6Ly9jcmVhdGl2ZWNvbW1vbnMub3JnL2xpY2Vuc2VzL2J5LW5jLzMuMC9ici8KRepositório InstitucionalPUBhttp://150.162.242.35/oai/requestsandra.sobrera@ufsc.bropendoar:23732017-12-13T21:10:36Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false
dc.title.pt_BR.fl_str_mv Análise e Classificação de imagens para aplicação de OCR em cupons fiscais
title Análise e Classificação de imagens para aplicação de OCR em cupons fiscais
spellingShingle Análise e Classificação de imagens para aplicação de OCR em cupons fiscais
Feijó, José Victor Feijó de Araujo
Classificação de Imagens, Técnicas de PDI, OCR, Cupons Fiscais.
title_short Análise e Classificação de imagens para aplicação de OCR em cupons fiscais
title_full Análise e Classificação de imagens para aplicação de OCR em cupons fiscais
title_fullStr Análise e Classificação de imagens para aplicação de OCR em cupons fiscais
title_full_unstemmed Análise e Classificação de imagens para aplicação de OCR em cupons fiscais
title_sort Análise e Classificação de imagens para aplicação de OCR em cupons fiscais
author Feijó, José Victor Feijó de Araujo
author_facet Feijó, José Victor Feijó de Araujo
author_role author
dc.contributor.pt_BR.fl_str_mv Universidade Federal de Santa Catarina
dc.contributor.author.fl_str_mv Feijó, José Victor Feijó de Araujo
dc.contributor.advisor1.fl_str_mv Santos, Elder Rizzon Santos
dc.contributor.advisor-co1.fl_str_mv Silva, Alexandre Gonçalves Silva
contributor_str_mv Santos, Elder Rizzon Santos
Silva, Alexandre Gonçalves Silva
dc.subject.por.fl_str_mv Classificação de Imagens, Técnicas de PDI, OCR, Cupons Fiscais.
topic Classificação de Imagens, Técnicas de PDI, OCR, Cupons Fiscais.
description TCC(graduação) - Universidade Federal de Santa Catarina. Centro Tecnológico. Ciências da Computação.
publishDate 2017
dc.date.accessioned.fl_str_mv 2017-12-13T21:10:36Z
dc.date.available.fl_str_mv 2017-12-13T21:10:36Z
dc.date.issued.fl_str_mv 2017-12-13
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufsc.br/xmlui/handle/123456789/182212
url https://repositorio.ufsc.br/xmlui/handle/123456789/182212
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 123
dc.publisher.none.fl_str_mv Florianópolis, SC.
publisher.none.fl_str_mv Florianópolis, SC.
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSC
instname:Universidade Federal de Santa Catarina (UFSC)
instacron:UFSC
instname_str Universidade Federal de Santa Catarina (UFSC)
instacron_str UFSC
institution UFSC
reponame_str Repositório Institucional da UFSC
collection Repositório Institucional da UFSC
bitstream.url.fl_str_mv https://repositorio.ufsc.br/bitstream/123456789/182212/1/TCC_JOSE_VICTOR_FEIJO%cc%81.pdf
https://repositorio.ufsc.br/bitstream/123456789/182212/2/license.txt
bitstream.checksum.fl_str_mv 6f566a4daec3603fa7cc31bf1d8da5c8
11ee89cd31d893362820eab7c4d46734
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)
repository.mail.fl_str_mv sandra.sobrera@ufsc.br
_version_ 1851758921671245824