Segmentação de texto em imagens de mapas e plantas baixas antigos
Ano de defesa: | 2014 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Universidade Federal de Pernambuco
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | https://repositorio.ufpe.br/handle/123456789/11838 |
Resumo: | Documentos antigos podem conter informações importantes para o desenvolvimento de trabalhos atuais. Mapas e plantas baixas históricos podem representar a cultura artística e tecnológica do momento em que foram criados. A qualidade e quantidade de suas informações justificam esforços para mantê-los e garantir a disponibilidade desses documentos. O primeiro passo para alcançar isso é a digitalização. Mas é necessário um processamento automático para que o documento seja pesquisável sem a custosa indexação manual. Ferramentas comuns de reconhecimento automático de caracteres têm dificuldade em reconhecer o texto de imagens de mapas e plantas baixas. Além do desgaste do papel provocado pelo tempo e manuseio, esses documentos possuem muitos elementos gráficos, como desenhos de rios e paredes, que ocupam a maior parte da imagem e podem até colidir com componentes textuais. Esse texto pode ser de diferentes estilos, tamanhos e orientações. Para facilitar a o reconhecimento de texto pelas ferramentas de reconhecimento automático, é importante remover os componentes gráficos da imagem antes de submetê-la ao processo de reconhecimento. Trabalhos recentes sobre segmentação de texto em imagens de mapas e plantas baixas usam regras definidas especialmente para as características das imagens que esperam. Esta dissertação apresenta uma nova abordagem para segmentar texto em imagens de mapas e plantas baixas. O método é divido em três etapas. A primeira é o pré-processamento em que o plano de fundo e alguns componentes gráficos são removidos. A segunda etapa é a de classificação em que são utilizados classificadores baseados em Máquinas de Vetores de Suporte treinados para identificar caracteres e sequências de caracteres. Por fim, é realizado um pós-processamento para evitar erros de classificação e recuperar componentes a partir de sua similaridade com os que foram classificados como texto. Os resultados comprovaram a eficácia do método proposto que alcançou taxas de erro inferiores a 10% para a segmentação de texto em imagens de mapas e plantas baixas. |
id |
UFPE_ad5186c6f67d82c4a87ff4fac4bbf39d |
---|---|
oai_identifier_str |
oai:repositorio.ufpe.br:123456789/11838 |
network_acronym_str |
UFPE |
network_name_str |
Repositório Institucional da UFPE |
repository_id_str |
|
spelling |
MACHADO, Saulo Cadete SantosMELLO, Carlos Alexandre Barros de2015-03-10T19:42:50Z2015-03-10T19:42:50Z2014-08-28https://repositorio.ufpe.br/handle/123456789/11838Documentos antigos podem conter informações importantes para o desenvolvimento de trabalhos atuais. Mapas e plantas baixas históricos podem representar a cultura artística e tecnológica do momento em que foram criados. A qualidade e quantidade de suas informações justificam esforços para mantê-los e garantir a disponibilidade desses documentos. O primeiro passo para alcançar isso é a digitalização. Mas é necessário um processamento automático para que o documento seja pesquisável sem a custosa indexação manual. Ferramentas comuns de reconhecimento automático de caracteres têm dificuldade em reconhecer o texto de imagens de mapas e plantas baixas. Além do desgaste do papel provocado pelo tempo e manuseio, esses documentos possuem muitos elementos gráficos, como desenhos de rios e paredes, que ocupam a maior parte da imagem e podem até colidir com componentes textuais. Esse texto pode ser de diferentes estilos, tamanhos e orientações. Para facilitar a o reconhecimento de texto pelas ferramentas de reconhecimento automático, é importante remover os componentes gráficos da imagem antes de submetê-la ao processo de reconhecimento. Trabalhos recentes sobre segmentação de texto em imagens de mapas e plantas baixas usam regras definidas especialmente para as características das imagens que esperam. Esta dissertação apresenta uma nova abordagem para segmentar texto em imagens de mapas e plantas baixas. O método é divido em três etapas. A primeira é o pré-processamento em que o plano de fundo e alguns componentes gráficos são removidos. A segunda etapa é a de classificação em que são utilizados classificadores baseados em Máquinas de Vetores de Suporte treinados para identificar caracteres e sequências de caracteres. Por fim, é realizado um pós-processamento para evitar erros de classificação e recuperar componentes a partir de sua similaridade com os que foram classificados como texto. Os resultados comprovaram a eficácia do método proposto que alcançou taxas de erro inferiores a 10% para a segmentação de texto em imagens de mapas e plantas baixas.porUniversidade Federal de PernambucoAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessProcessamento de imagensSegmentaçãoDetecção de textoMáquinas de vetor de suporteSegmentação de texto em imagens de mapas e plantas baixas antigosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPETHUMBNAILDISSERTAÇÃO SAulo Cadete Santos Machado.pdf.jpgDISSERTAÇÃO SAulo Cadete Santos Machado.pdf.jpgGenerated Thumbnailimage/jpeg1250https://repositorio.ufpe.br/bitstream/123456789/11838/5/DISSERTA%c3%87%c3%83O%20SAulo%20Cadete%20Santos%20Machado.pdf.jpgf9d5617f63a3b246f7ba64ae799db0caMD55ORIGINALDISSERTAÇÃO SAulo Cadete Santos Machado.pdfDISSERTAÇÃO SAulo Cadete Santos Machado.pdfDissertação de mestradoapplication/pdf5366333https://repositorio.ufpe.br/bitstream/123456789/11838/1/DISSERTA%c3%87%c3%83O%20SAulo%20Cadete%20Santos%20Machado.pdf2167718436186519ad8d2ab04a7f8b66MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81232https://repositorio.ufpe.br/bitstream/123456789/11838/2/license_rdf66e71c371cc565284e70f40736c94386MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82311https://repositorio.ufpe.br/bitstream/123456789/11838/3/license.txt4b8a02c7f2818eaf00dcf2260dd5eb08MD53TEXTDISSERTAÇÃO SAulo Cadete Santos Machado.pdf.txtDISSERTAÇÃO SAulo Cadete Santos Machado.pdf.txtExtracted texttext/plain180820https://repositorio.ufpe.br/bitstream/123456789/11838/4/DISSERTA%c3%87%c3%83O%20SAulo%20Cadete%20Santos%20Machado.pdf.txt69ef6a36398a6dc25462778c60ea310bMD54123456789/118382019-10-25 04:48:38.017oai:repositorio.ufpe.br:123456789/11838TGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKClRvZG8gZGVwb3NpdGFudGUgZGUgbWF0ZXJpYWwgbm8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgKFJJKSBkZXZlIGNvbmNlZGVyLCDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBQZXJuYW1idWNvIChVRlBFKSwgdW1hIExpY2Vuw6dhIGRlIERpc3RyaWJ1acOnw6NvIE7Do28gRXhjbHVzaXZhIHBhcmEgbWFudGVyIGUgdG9ybmFyIGFjZXNzw612ZWlzIG9zIHNldXMgZG9jdW1lbnRvcywgZW0gZm9ybWF0byBkaWdpdGFsLCBuZXN0ZSByZXBvc2l0w7NyaW8uCgpDb20gYSBjb25jZXNzw6NvIGRlc3RhIGxpY2Vuw6dhIG7Do28gZXhjbHVzaXZhLCBvIGRlcG9zaXRhbnRlIG1hbnTDqW0gdG9kb3Mgb3MgZGlyZWl0b3MgZGUgYXV0b3IuCl9fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fXwoKTGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKCkFvIGNvbmNvcmRhciBjb20gZXN0YSBsaWNlbsOnYSBlIGFjZWl0w6EtbGEsIHZvY8OqIChhdXRvciBvdSBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMpOgoKYSkgRGVjbGFyYSBxdWUgY29uaGVjZSBhIHBvbMOtdGljYSBkZSBjb3B5cmlnaHQgZGEgZWRpdG9yYSBkbyBzZXUgZG9jdW1lbnRvOwpiKSBEZWNsYXJhIHF1ZSBjb25oZWNlIGUgYWNlaXRhIGFzIERpcmV0cml6ZXMgcGFyYSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGUEU7CmMpIENvbmNlZGUgw6AgVUZQRSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZGUgYXJxdWl2YXIsIHJlcHJvZHV6aXIsIGNvbnZlcnRlciAoY29tbyBkZWZpbmlkbyBhIHNlZ3VpciksIGNvbXVuaWNhciBlL291IGRpc3RyaWJ1aXIsIG5vIFJJLCBvIGRvY3VtZW50byBlbnRyZWd1ZSAoaW5jbHVpbmRvIG8gcmVzdW1vL2Fic3RyYWN0KSBlbSBmb3JtYXRvIGRpZ2l0YWwgb3UgcG9yIG91dHJvIG1laW87CmQpIERlY2xhcmEgcXVlIGF1dG9yaXphIGEgVUZQRSBhIGFycXVpdmFyIG1haXMgZGUgdW1hIGPDs3BpYSBkZXN0ZSBkb2N1bWVudG8gZSBjb252ZXJ0w6otbG8sIHNlbSBhbHRlcmFyIG8gc2V1IGNvbnRlw7pkbywgcGFyYSBxdWFscXVlciBmb3JtYXRvIGRlIGZpY2hlaXJvLCBtZWlvIG91IHN1cG9ydGUsIHBhcmEgZWZlaXRvcyBkZSBzZWd1cmFuw6dhLCBwcmVzZXJ2YcOnw6NvIChiYWNrdXApIGUgYWNlc3NvOwplKSBEZWNsYXJhIHF1ZSBvIGRvY3VtZW50byBzdWJtZXRpZG8gw6kgbyBzZXUgdHJhYmFsaG8gb3JpZ2luYWwgZSBxdWUgZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBhIHRlcmNlaXJvcyBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2Ugb3MgZGlyZWl0b3MgZGUgb3V0cmEgcGVzc29hIG91IGVudGlkYWRlOwpmKSBEZWNsYXJhIHF1ZSwgbm8gY2FzbyBkbyBkb2N1bWVudG8gc3VibWV0aWRvIGNvbnRlciBtYXRlcmlhbCBkbyBxdWFsIG7Do28gZGV0w6ltIG9zIGRpcmVpdG9zIGRlCmF1dG9yLCBvYnRldmUgYSBhdXRvcml6YcOnw6NvIGlycmVzdHJpdGEgZG8gcmVzcGVjdGl2byBkZXRlbnRvciBkZXNzZXMgZGlyZWl0b3MgcGFyYSBjZWRlciDDoApVRlBFIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgTGljZW7Dp2EgZSBhdXRvcml6YXIgYSB1bml2ZXJzaWRhZGUgYSB1dGlsaXrDoS1sb3MgbGVnYWxtZW50ZS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBlc3NlIG1hdGVyaWFsIGN1am9zIGRpcmVpdG9zIHPDo28gZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3UgY29udGXDumRvIGRvIGRvY3VtZW50byBlbnRyZWd1ZTsKZykgU2UgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgYmFzZWFkbyBlbSB0cmFiYWxobyBmaW5hbmNpYWRvIG91IGFwb2lhZG8gcG9yIG91dHJhIGluc3RpdHVpw6fDo28gcXVlIG7Do28gYSBVRlBFLMKgZGVjbGFyYSBxdWUgY3VtcHJpdSBxdWFpc3F1ZXIgb2JyaWdhw6fDtWVzIGV4aWdpZGFzIHBlbG8gcmVzcGVjdGl2byBjb250cmF0byBvdSBhY29yZG8uCgpBIFVGUEUgaWRlbnRpZmljYXLDoSBjbGFyYW1lbnRlIG8ocykgbm9tZShzKSBkbyhzKSBhdXRvciAoZXMpIGRvcyBkaXJlaXRvcyBkbyBkb2N1bWVudG8gZW50cmVndWUgZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvLCBwYXJhIGFsw6ltIGRvIHByZXZpc3RvIG5hIGFsw61uZWEgYykuCg==Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212019-10-25T07:48:38Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false |
dc.title.pt_BR.fl_str_mv |
Segmentação de texto em imagens de mapas e plantas baixas antigos |
title |
Segmentação de texto em imagens de mapas e plantas baixas antigos |
spellingShingle |
Segmentação de texto em imagens de mapas e plantas baixas antigos MACHADO, Saulo Cadete Santos Processamento de imagens Segmentação Detecção de texto Máquinas de vetor de suporte |
title_short |
Segmentação de texto em imagens de mapas e plantas baixas antigos |
title_full |
Segmentação de texto em imagens de mapas e plantas baixas antigos |
title_fullStr |
Segmentação de texto em imagens de mapas e plantas baixas antigos |
title_full_unstemmed |
Segmentação de texto em imagens de mapas e plantas baixas antigos |
title_sort |
Segmentação de texto em imagens de mapas e plantas baixas antigos |
author |
MACHADO, Saulo Cadete Santos |
author_facet |
MACHADO, Saulo Cadete Santos |
author_role |
author |
dc.contributor.author.fl_str_mv |
MACHADO, Saulo Cadete Santos |
dc.contributor.advisor1.fl_str_mv |
MELLO, Carlos Alexandre Barros de |
contributor_str_mv |
MELLO, Carlos Alexandre Barros de |
dc.subject.por.fl_str_mv |
Processamento de imagens Segmentação Detecção de texto Máquinas de vetor de suporte |
topic |
Processamento de imagens Segmentação Detecção de texto Máquinas de vetor de suporte |
description |
Documentos antigos podem conter informações importantes para o desenvolvimento de trabalhos atuais. Mapas e plantas baixas históricos podem representar a cultura artística e tecnológica do momento em que foram criados. A qualidade e quantidade de suas informações justificam esforços para mantê-los e garantir a disponibilidade desses documentos. O primeiro passo para alcançar isso é a digitalização. Mas é necessário um processamento automático para que o documento seja pesquisável sem a custosa indexação manual. Ferramentas comuns de reconhecimento automático de caracteres têm dificuldade em reconhecer o texto de imagens de mapas e plantas baixas. Além do desgaste do papel provocado pelo tempo e manuseio, esses documentos possuem muitos elementos gráficos, como desenhos de rios e paredes, que ocupam a maior parte da imagem e podem até colidir com componentes textuais. Esse texto pode ser de diferentes estilos, tamanhos e orientações. Para facilitar a o reconhecimento de texto pelas ferramentas de reconhecimento automático, é importante remover os componentes gráficos da imagem antes de submetê-la ao processo de reconhecimento. Trabalhos recentes sobre segmentação de texto em imagens de mapas e plantas baixas usam regras definidas especialmente para as características das imagens que esperam. Esta dissertação apresenta uma nova abordagem para segmentar texto em imagens de mapas e plantas baixas. O método é divido em três etapas. A primeira é o pré-processamento em que o plano de fundo e alguns componentes gráficos são removidos. A segunda etapa é a de classificação em que são utilizados classificadores baseados em Máquinas de Vetores de Suporte treinados para identificar caracteres e sequências de caracteres. Por fim, é realizado um pós-processamento para evitar erros de classificação e recuperar componentes a partir de sua similaridade com os que foram classificados como texto. Os resultados comprovaram a eficácia do método proposto que alcançou taxas de erro inferiores a 10% para a segmentação de texto em imagens de mapas e plantas baixas. |
publishDate |
2014 |
dc.date.issued.fl_str_mv |
2014-08-28 |
dc.date.accessioned.fl_str_mv |
2015-03-10T19:42:50Z |
dc.date.available.fl_str_mv |
2015-03-10T19:42:50Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufpe.br/handle/123456789/11838 |
url |
https://repositorio.ufpe.br/handle/123456789/11838 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Pernambuco |
publisher.none.fl_str_mv |
Universidade Federal de Pernambuco |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFPE instname:Universidade Federal de Pernambuco (UFPE) instacron:UFPE |
instname_str |
Universidade Federal de Pernambuco (UFPE) |
instacron_str |
UFPE |
institution |
UFPE |
reponame_str |
Repositório Institucional da UFPE |
collection |
Repositório Institucional da UFPE |
bitstream.url.fl_str_mv |
https://repositorio.ufpe.br/bitstream/123456789/11838/5/DISSERTA%c3%87%c3%83O%20SAulo%20Cadete%20Santos%20Machado.pdf.jpg https://repositorio.ufpe.br/bitstream/123456789/11838/1/DISSERTA%c3%87%c3%83O%20SAulo%20Cadete%20Santos%20Machado.pdf https://repositorio.ufpe.br/bitstream/123456789/11838/2/license_rdf https://repositorio.ufpe.br/bitstream/123456789/11838/3/license.txt https://repositorio.ufpe.br/bitstream/123456789/11838/4/DISSERTA%c3%87%c3%83O%20SAulo%20Cadete%20Santos%20Machado.pdf.txt |
bitstream.checksum.fl_str_mv |
f9d5617f63a3b246f7ba64ae799db0ca 2167718436186519ad8d2ab04a7f8b66 66e71c371cc565284e70f40736c94386 4b8a02c7f2818eaf00dcf2260dd5eb08 69ef6a36398a6dc25462778c60ea310b |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE) |
repository.mail.fl_str_mv |
attena@ufpe.br |
_version_ |
1802311115189780480 |