Segmentação de texto em imagens de mapas e plantas baixas antigos

Detalhes bibliográficos
Ano de defesa: 2014
Autor(a) principal: MACHADO, Saulo Cadete Santos
Orientador(a): MELLO, Carlos Alexandre Barros de
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Pernambuco
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpe.br/handle/123456789/11838
Resumo: Documentos antigos podem conter informações importantes para o desenvolvimento de trabalhos atuais. Mapas e plantas baixas históricos podem representar a cultura artística e tecnológica do momento em que foram criados. A qualidade e quantidade de suas informações justificam esforços para mantê-los e garantir a disponibilidade desses documentos. O primeiro passo para alcançar isso é a digitalização. Mas é necessário um processamento automático para que o documento seja pesquisável sem a custosa indexação manual. Ferramentas comuns de reconhecimento automático de caracteres têm dificuldade em reconhecer o texto de imagens de mapas e plantas baixas. Além do desgaste do papel provocado pelo tempo e manuseio, esses documentos possuem muitos elementos gráficos, como desenhos de rios e paredes, que ocupam a maior parte da imagem e podem até colidir com componentes textuais. Esse texto pode ser de diferentes estilos, tamanhos e orientações. Para facilitar a o reconhecimento de texto pelas ferramentas de reconhecimento automático, é importante remover os componentes gráficos da imagem antes de submetê-la ao processo de reconhecimento. Trabalhos recentes sobre segmentação de texto em imagens de mapas e plantas baixas usam regras definidas especialmente para as características das imagens que esperam. Esta dissertação apresenta uma nova abordagem para segmentar texto em imagens de mapas e plantas baixas. O método é divido em três etapas. A primeira é o pré-processamento em que o plano de fundo e alguns componentes gráficos são removidos. A segunda etapa é a de classificação em que são utilizados classificadores baseados em Máquinas de Vetores de Suporte treinados para identificar caracteres e sequências de caracteres. Por fim, é realizado um pós-processamento para evitar erros de classificação e recuperar componentes a partir de sua similaridade com os que foram classificados como texto. Os resultados comprovaram a eficácia do método proposto que alcançou taxas de erro inferiores a 10% para a segmentação de texto em imagens de mapas e plantas baixas.
id UFPE_ad5186c6f67d82c4a87ff4fac4bbf39d
oai_identifier_str oai:repositorio.ufpe.br:123456789/11838
network_acronym_str UFPE
network_name_str Repositório Institucional da UFPE
repository_id_str
spelling MACHADO, Saulo Cadete SantosMELLO, Carlos Alexandre Barros de2015-03-10T19:42:50Z2015-03-10T19:42:50Z2014-08-28https://repositorio.ufpe.br/handle/123456789/11838Documentos antigos podem conter informações importantes para o desenvolvimento de trabalhos atuais. Mapas e plantas baixas históricos podem representar a cultura artística e tecnológica do momento em que foram criados. A qualidade e quantidade de suas informações justificam esforços para mantê-los e garantir a disponibilidade desses documentos. O primeiro passo para alcançar isso é a digitalização. Mas é necessário um processamento automático para que o documento seja pesquisável sem a custosa indexação manual. Ferramentas comuns de reconhecimento automático de caracteres têm dificuldade em reconhecer o texto de imagens de mapas e plantas baixas. Além do desgaste do papel provocado pelo tempo e manuseio, esses documentos possuem muitos elementos gráficos, como desenhos de rios e paredes, que ocupam a maior parte da imagem e podem até colidir com componentes textuais. Esse texto pode ser de diferentes estilos, tamanhos e orientações. Para facilitar a o reconhecimento de texto pelas ferramentas de reconhecimento automático, é importante remover os componentes gráficos da imagem antes de submetê-la ao processo de reconhecimento. Trabalhos recentes sobre segmentação de texto em imagens de mapas e plantas baixas usam regras definidas especialmente para as características das imagens que esperam. Esta dissertação apresenta uma nova abordagem para segmentar texto em imagens de mapas e plantas baixas. O método é divido em três etapas. A primeira é o pré-processamento em que o plano de fundo e alguns componentes gráficos são removidos. A segunda etapa é a de classificação em que são utilizados classificadores baseados em Máquinas de Vetores de Suporte treinados para identificar caracteres e sequências de caracteres. Por fim, é realizado um pós-processamento para evitar erros de classificação e recuperar componentes a partir de sua similaridade com os que foram classificados como texto. Os resultados comprovaram a eficácia do método proposto que alcançou taxas de erro inferiores a 10% para a segmentação de texto em imagens de mapas e plantas baixas.porUniversidade Federal de PernambucoAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessProcessamento de imagensSegmentaçãoDetecção de textoMáquinas de vetor de suporteSegmentação de texto em imagens de mapas e plantas baixas antigosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPETHUMBNAILDISSERTAÇÃO SAulo Cadete Santos Machado.pdf.jpgDISSERTAÇÃO SAulo Cadete Santos Machado.pdf.jpgGenerated Thumbnailimage/jpeg1250https://repositorio.ufpe.br/bitstream/123456789/11838/5/DISSERTA%c3%87%c3%83O%20SAulo%20Cadete%20Santos%20Machado.pdf.jpgf9d5617f63a3b246f7ba64ae799db0caMD55ORIGINALDISSERTAÇÃO SAulo Cadete Santos Machado.pdfDISSERTAÇÃO SAulo Cadete Santos Machado.pdfDissertação de mestradoapplication/pdf5366333https://repositorio.ufpe.br/bitstream/123456789/11838/1/DISSERTA%c3%87%c3%83O%20SAulo%20Cadete%20Santos%20Machado.pdf2167718436186519ad8d2ab04a7f8b66MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81232https://repositorio.ufpe.br/bitstream/123456789/11838/2/license_rdf66e71c371cc565284e70f40736c94386MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82311https://repositorio.ufpe.br/bitstream/123456789/11838/3/license.txt4b8a02c7f2818eaf00dcf2260dd5eb08MD53TEXTDISSERTAÇÃO SAulo Cadete Santos Machado.pdf.txtDISSERTAÇÃO SAulo Cadete Santos Machado.pdf.txtExtracted texttext/plain180820https://repositorio.ufpe.br/bitstream/123456789/11838/4/DISSERTA%c3%87%c3%83O%20SAulo%20Cadete%20Santos%20Machado.pdf.txt69ef6a36398a6dc25462778c60ea310bMD54123456789/118382019-10-25 04:48:38.017oai:repositorio.ufpe.br:123456789/11838TGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKClRvZG8gZGVwb3NpdGFudGUgZGUgbWF0ZXJpYWwgbm8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgKFJJKSBkZXZlIGNvbmNlZGVyLCDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBQZXJuYW1idWNvIChVRlBFKSwgdW1hIExpY2Vuw6dhIGRlIERpc3RyaWJ1acOnw6NvIE7Do28gRXhjbHVzaXZhIHBhcmEgbWFudGVyIGUgdG9ybmFyIGFjZXNzw612ZWlzIG9zIHNldXMgZG9jdW1lbnRvcywgZW0gZm9ybWF0byBkaWdpdGFsLCBuZXN0ZSByZXBvc2l0w7NyaW8uCgpDb20gYSBjb25jZXNzw6NvIGRlc3RhIGxpY2Vuw6dhIG7Do28gZXhjbHVzaXZhLCBvIGRlcG9zaXRhbnRlIG1hbnTDqW0gdG9kb3Mgb3MgZGlyZWl0b3MgZGUgYXV0b3IuCl9fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fXwoKTGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKCkFvIGNvbmNvcmRhciBjb20gZXN0YSBsaWNlbsOnYSBlIGFjZWl0w6EtbGEsIHZvY8OqIChhdXRvciBvdSBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMpOgoKYSkgRGVjbGFyYSBxdWUgY29uaGVjZSBhIHBvbMOtdGljYSBkZSBjb3B5cmlnaHQgZGEgZWRpdG9yYSBkbyBzZXUgZG9jdW1lbnRvOwpiKSBEZWNsYXJhIHF1ZSBjb25oZWNlIGUgYWNlaXRhIGFzIERpcmV0cml6ZXMgcGFyYSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGUEU7CmMpIENvbmNlZGUgw6AgVUZQRSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZGUgYXJxdWl2YXIsIHJlcHJvZHV6aXIsIGNvbnZlcnRlciAoY29tbyBkZWZpbmlkbyBhIHNlZ3VpciksIGNvbXVuaWNhciBlL291IGRpc3RyaWJ1aXIsIG5vIFJJLCBvIGRvY3VtZW50byBlbnRyZWd1ZSAoaW5jbHVpbmRvIG8gcmVzdW1vL2Fic3RyYWN0KSBlbSBmb3JtYXRvIGRpZ2l0YWwgb3UgcG9yIG91dHJvIG1laW87CmQpIERlY2xhcmEgcXVlIGF1dG9yaXphIGEgVUZQRSBhIGFycXVpdmFyIG1haXMgZGUgdW1hIGPDs3BpYSBkZXN0ZSBkb2N1bWVudG8gZSBjb252ZXJ0w6otbG8sIHNlbSBhbHRlcmFyIG8gc2V1IGNvbnRlw7pkbywgcGFyYSBxdWFscXVlciBmb3JtYXRvIGRlIGZpY2hlaXJvLCBtZWlvIG91IHN1cG9ydGUsIHBhcmEgZWZlaXRvcyBkZSBzZWd1cmFuw6dhLCBwcmVzZXJ2YcOnw6NvIChiYWNrdXApIGUgYWNlc3NvOwplKSBEZWNsYXJhIHF1ZSBvIGRvY3VtZW50byBzdWJtZXRpZG8gw6kgbyBzZXUgdHJhYmFsaG8gb3JpZ2luYWwgZSBxdWUgZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBhIHRlcmNlaXJvcyBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2Ugb3MgZGlyZWl0b3MgZGUgb3V0cmEgcGVzc29hIG91IGVudGlkYWRlOwpmKSBEZWNsYXJhIHF1ZSwgbm8gY2FzbyBkbyBkb2N1bWVudG8gc3VibWV0aWRvIGNvbnRlciBtYXRlcmlhbCBkbyBxdWFsIG7Do28gZGV0w6ltIG9zIGRpcmVpdG9zIGRlCmF1dG9yLCBvYnRldmUgYSBhdXRvcml6YcOnw6NvIGlycmVzdHJpdGEgZG8gcmVzcGVjdGl2byBkZXRlbnRvciBkZXNzZXMgZGlyZWl0b3MgcGFyYSBjZWRlciDDoApVRlBFIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgTGljZW7Dp2EgZSBhdXRvcml6YXIgYSB1bml2ZXJzaWRhZGUgYSB1dGlsaXrDoS1sb3MgbGVnYWxtZW50ZS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBlc3NlIG1hdGVyaWFsIGN1am9zIGRpcmVpdG9zIHPDo28gZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3UgY29udGXDumRvIGRvIGRvY3VtZW50byBlbnRyZWd1ZTsKZykgU2UgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgYmFzZWFkbyBlbSB0cmFiYWxobyBmaW5hbmNpYWRvIG91IGFwb2lhZG8gcG9yIG91dHJhIGluc3RpdHVpw6fDo28gcXVlIG7Do28gYSBVRlBFLMKgZGVjbGFyYSBxdWUgY3VtcHJpdSBxdWFpc3F1ZXIgb2JyaWdhw6fDtWVzIGV4aWdpZGFzIHBlbG8gcmVzcGVjdGl2byBjb250cmF0byBvdSBhY29yZG8uCgpBIFVGUEUgaWRlbnRpZmljYXLDoSBjbGFyYW1lbnRlIG8ocykgbm9tZShzKSBkbyhzKSBhdXRvciAoZXMpIGRvcyBkaXJlaXRvcyBkbyBkb2N1bWVudG8gZW50cmVndWUgZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvLCBwYXJhIGFsw6ltIGRvIHByZXZpc3RvIG5hIGFsw61uZWEgYykuCg==Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212019-10-25T07:48:38Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false
dc.title.pt_BR.fl_str_mv Segmentação de texto em imagens de mapas e plantas baixas antigos
title Segmentação de texto em imagens de mapas e plantas baixas antigos
spellingShingle Segmentação de texto em imagens de mapas e plantas baixas antigos
MACHADO, Saulo Cadete Santos
Processamento de imagens
Segmentação
Detecção de texto
Máquinas de vetor de suporte
title_short Segmentação de texto em imagens de mapas e plantas baixas antigos
title_full Segmentação de texto em imagens de mapas e plantas baixas antigos
title_fullStr Segmentação de texto em imagens de mapas e plantas baixas antigos
title_full_unstemmed Segmentação de texto em imagens de mapas e plantas baixas antigos
title_sort Segmentação de texto em imagens de mapas e plantas baixas antigos
author MACHADO, Saulo Cadete Santos
author_facet MACHADO, Saulo Cadete Santos
author_role author
dc.contributor.author.fl_str_mv MACHADO, Saulo Cadete Santos
dc.contributor.advisor1.fl_str_mv MELLO, Carlos Alexandre Barros de
contributor_str_mv MELLO, Carlos Alexandre Barros de
dc.subject.por.fl_str_mv Processamento de imagens
Segmentação
Detecção de texto
Máquinas de vetor de suporte
topic Processamento de imagens
Segmentação
Detecção de texto
Máquinas de vetor de suporte
description Documentos antigos podem conter informações importantes para o desenvolvimento de trabalhos atuais. Mapas e plantas baixas históricos podem representar a cultura artística e tecnológica do momento em que foram criados. A qualidade e quantidade de suas informações justificam esforços para mantê-los e garantir a disponibilidade desses documentos. O primeiro passo para alcançar isso é a digitalização. Mas é necessário um processamento automático para que o documento seja pesquisável sem a custosa indexação manual. Ferramentas comuns de reconhecimento automático de caracteres têm dificuldade em reconhecer o texto de imagens de mapas e plantas baixas. Além do desgaste do papel provocado pelo tempo e manuseio, esses documentos possuem muitos elementos gráficos, como desenhos de rios e paredes, que ocupam a maior parte da imagem e podem até colidir com componentes textuais. Esse texto pode ser de diferentes estilos, tamanhos e orientações. Para facilitar a o reconhecimento de texto pelas ferramentas de reconhecimento automático, é importante remover os componentes gráficos da imagem antes de submetê-la ao processo de reconhecimento. Trabalhos recentes sobre segmentação de texto em imagens de mapas e plantas baixas usam regras definidas especialmente para as características das imagens que esperam. Esta dissertação apresenta uma nova abordagem para segmentar texto em imagens de mapas e plantas baixas. O método é divido em três etapas. A primeira é o pré-processamento em que o plano de fundo e alguns componentes gráficos são removidos. A segunda etapa é a de classificação em que são utilizados classificadores baseados em Máquinas de Vetores de Suporte treinados para identificar caracteres e sequências de caracteres. Por fim, é realizado um pós-processamento para evitar erros de classificação e recuperar componentes a partir de sua similaridade com os que foram classificados como texto. Os resultados comprovaram a eficácia do método proposto que alcançou taxas de erro inferiores a 10% para a segmentação de texto em imagens de mapas e plantas baixas.
publishDate 2014
dc.date.issued.fl_str_mv 2014-08-28
dc.date.accessioned.fl_str_mv 2015-03-10T19:42:50Z
dc.date.available.fl_str_mv 2015-03-10T19:42:50Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufpe.br/handle/123456789/11838
url https://repositorio.ufpe.br/handle/123456789/11838
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Pernambuco
publisher.none.fl_str_mv Universidade Federal de Pernambuco
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPE
instname:Universidade Federal de Pernambuco (UFPE)
instacron:UFPE
instname_str Universidade Federal de Pernambuco (UFPE)
instacron_str UFPE
institution UFPE
reponame_str Repositório Institucional da UFPE
collection Repositório Institucional da UFPE
bitstream.url.fl_str_mv https://repositorio.ufpe.br/bitstream/123456789/11838/5/DISSERTA%c3%87%c3%83O%20SAulo%20Cadete%20Santos%20Machado.pdf.jpg
https://repositorio.ufpe.br/bitstream/123456789/11838/1/DISSERTA%c3%87%c3%83O%20SAulo%20Cadete%20Santos%20Machado.pdf
https://repositorio.ufpe.br/bitstream/123456789/11838/2/license_rdf
https://repositorio.ufpe.br/bitstream/123456789/11838/3/license.txt
https://repositorio.ufpe.br/bitstream/123456789/11838/4/DISSERTA%c3%87%c3%83O%20SAulo%20Cadete%20Santos%20Machado.pdf.txt
bitstream.checksum.fl_str_mv f9d5617f63a3b246f7ba64ae799db0ca
2167718436186519ad8d2ab04a7f8b66
66e71c371cc565284e70f40736c94386
4b8a02c7f2818eaf00dcf2260dd5eb08
69ef6a36398a6dc25462778c60ea310b
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)
repository.mail.fl_str_mv attena@ufpe.br
_version_ 1802311115189780480