Análise de abordagens automáticas de anotação semântica para textos ruidosos e seus impactos na similaridade entre vídeos

Detalhes bibliográficos
Ano de defesa: 2017
Autor(a) principal: Dias, Laura Lima lattes
Orientador(a): Barrére, Eduardo lattes
Banca de defesa: Moreno, Marcelo Ferreira lattes, Santos, Celso Alberto Saibel lattes
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Juiz de Fora (UFJF)
Programa de Pós-Graduação: Programa de Pós-graduação em Ciência da Computação
Departamento: ICE – Instituto de Ciências Exatas
País: Brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: https://repositorio.ufjf.br/jspui/handle/ufjf/6473
Resumo: Com o acúmulo de informações digitais armazenadas ao longo do tempo, alguns esforços precisam ser aplicados para facilitar a busca e indexação de conteúdos. Recursos como vídeos e áudios, por sua vez, são mais difíceis de serem tratados por mecanismos de busca. A anotação de vídeos é uma forma considerável de resumo do vídeo, busca e classificação. A parcela de vídeos que possui anotações atribuídas pelo próprio autor na maioria das vezes é muito pequena e pouco significativa, e anotar vídeos manualmente é bastante trabalhoso quando trata-se de bases legadas. Por esse motivo, automatizar esse processo tem sido desejado no campo da Recuperação de Informação. Em repositórios de videoaulas, onde a maior parte da informação se concentra na fala do professor, esse processo pode ser realizado através de anotações automáticas de transcritos gerados por sistemas de Reconhecimento Automático de Fala. Contudo, essa técnica produz textos ruidosos, dificultando a tarefa de anotação semântica automática. Entre muitas técnicas de Processamento de Linguagem de Natural utilizadas para anotação, não é trivial a escolha da técnica mais adequada a um determinado cenário, principalmente quando trata-se de anotar textos com ruídos. Essa pesquisa propõe analisar um conjunto de diferentes técnicas utilizadas para anotação automática e verificar o seu impacto em um mesmo cenário, o cenário de similaridade entre vídeos.
id UFJF_63a641fd35bed2871aade2917b8bdccd
oai_identifier_str oai:hermes.cpd.ufjf.br:ufjf/6473
network_acronym_str UFJF
network_name_str Repositório Institucional da UFJF
repository_id_str
spelling Barrére, Eduardohttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4792105U4Souza, Jairo Francisco dehttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4771297H6Moreno, Marcelo Ferreirahttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4760230A7Santos, Celso Alberto Saibelhttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4728974A8http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4833279H8Dias, Laura Lima2018-03-21T19:26:08Z2018-10-012018-03-21T19:26:08Z2017-08-31https://repositorio.ufjf.br/jspui/handle/ufjf/6473Com o acúmulo de informações digitais armazenadas ao longo do tempo, alguns esforços precisam ser aplicados para facilitar a busca e indexação de conteúdos. Recursos como vídeos e áudios, por sua vez, são mais difíceis de serem tratados por mecanismos de busca. A anotação de vídeos é uma forma considerável de resumo do vídeo, busca e classificação. A parcela de vídeos que possui anotações atribuídas pelo próprio autor na maioria das vezes é muito pequena e pouco significativa, e anotar vídeos manualmente é bastante trabalhoso quando trata-se de bases legadas. Por esse motivo, automatizar esse processo tem sido desejado no campo da Recuperação de Informação. Em repositórios de videoaulas, onde a maior parte da informação se concentra na fala do professor, esse processo pode ser realizado através de anotações automáticas de transcritos gerados por sistemas de Reconhecimento Automático de Fala. Contudo, essa técnica produz textos ruidosos, dificultando a tarefa de anotação semântica automática. Entre muitas técnicas de Processamento de Linguagem de Natural utilizadas para anotação, não é trivial a escolha da técnica mais adequada a um determinado cenário, principalmente quando trata-se de anotar textos com ruídos. Essa pesquisa propõe analisar um conjunto de diferentes técnicas utilizadas para anotação automática e verificar o seu impacto em um mesmo cenário, o cenário de similaridade entre vídeos.With the accumulation of digital information stored over time, some efforts need to be applied to facilitate search and indexing of content. Resources such as videos and audios, in turn, are more difficult to handle with by search engines. Video annotation is a considerable form of video summary, search and classification. The share of videos that have annotations attributed by the author most often is very small and not very significant, and annotating videos manually is very laborious when dealing with legacy bases. For this reason, automating this process has been desired in the field of Information Retrieval. In video lecture repositories, where most of the information is focused on the teacher’s speech, this process can be performed through automatic annotations of transcripts gene-rated by Automatic Speech Recognition systems. However, this technique produces noisy texts, making the task of automatic semantic annotation difficult. Among many Natural Language Processing techniques used for annotation, it is not trivial to choose the most appropriate technique for a given scenario, especially when writing annotated texts. This research proposes to analyze a set of different techniques used for automatic annotation and verify their impact in the same scenario, the scenario of similarity between videos.CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorporUniversidade Federal de Juiz de Fora (UFJF)Programa de Pós-graduação em Ciência da ComputaçãoUFJFBrasilICE – Instituto de Ciências ExatasCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAORecuperação de informaçãoRepositório de videosCategorização de texto ruidosoProcessamento de linguagem naturalInformation retrievalVideo repositoryNoisy text categorizationNatural language processingAnálise de abordagens automáticas de anotação semântica para textos ruidosos e seus impactos na similaridade entre vídeosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFJFinstname:Universidade Federal de Juiz de Fora (UFJF)instacron:UFJFTHUMBNAILlauralimadias.pdf.jpglauralimadias.pdf.jpgGenerated Thumbnailimage/jpeg1262https://repositorio.ufjf.br/jspui/bitstream/ufjf/6473/4/lauralimadias.pdf.jpg18a4c2f1f6a77f88d199dab9e6c30377MD54LICENSElicense.txtlicense.txttext/plain; charset=utf-82197https://repositorio.ufjf.br/jspui/bitstream/ufjf/6473/1/license.txt000e18a5aee6ca21bb5811ddf55fc37bMD51ORIGINALlauralimadias.pdflauralimadias.pdfapplication/pdf665383https://repositorio.ufjf.br/jspui/bitstream/ufjf/6473/2/lauralimadias.pdfb3e5ba056b9b605249afd68f92e98badMD52TEXTlauralimadias.pdf.txtlauralimadias.pdf.txtExtracted texttext/plain142402https://repositorio.ufjf.br/jspui/bitstream/ufjf/6473/3/lauralimadias.pdf.txt0659a495e7098d3d303496d5f8ee93eaMD53ufjf/64732019-06-16 09:11:29.53oai:hermes.cpd.ufjf.br:ufjf/6473TElDRU7vv71BIERFIERJU1RSSUJVSe+/ve+/vU8gTu+/vU8tRVhDTFVTSVZBCgpDb20gYSBhcHJlc2VudGHvv73vv71vIGRlc3RhIGxpY2Vu77+9YSwgdm9j77+9IChvIGF1dG9yIChlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvcikgY29uY2VkZSBhbyBSZXBvc2l077+9cmlvIApJbnN0aXR1Y2lvbmFsIGRhIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIEp1aXogZGUgRm9yYSBvIGRpcmVpdG8gbu+/vW8tZXhjbHVzaXZvIGRlIHJlcHJvZHV6aXIsIHRyYWR1emlyIChjb25mb3JtZSBkZWZpbmlkbyBhYmFpeG8pLCBlL291IGRpc3RyaWJ1aXIgYSBzdWEgcHVibGljYe+/ve+/vW8gKGluY2x1aW5kbyBvIHJlc3VtbykgcG9yIHRvZG8gbyBtdW5kbyBubyBmb3JtYXRvIGltcHJlc3NvIGUgZWxldHLvv71uaWNvIGUgZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIGZvcm1hdG9zIO+/vXVkaW8gb3Ugdu+/vWRlby4KClZvY++/vSBjb25jb3JkYSBxdWUgbyBSZXBvc2l077+9cmlvIEluc3RpdHVjaW9uYWwgZGEgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZGUgSnVpeiBkZSBGb3JhIHBvZGUsIHNlbSBhbHRlcmFyIG8gY29udGXvv71kbywgdHJhbnNwb3IgYSBzdWEgcHVibGljYe+/ve+/vW8gcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZh77+977+9by4gVm9j77+9IHRhbWLvv71tIGNvbmNvcmRhIHF1ZSBvIFJlcG9zaXTvv71yaW8gSW5zdGl0dWNpb25hbCBkYSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBKdWl6IGRlIEZvcmEgcG9kZSBtYW50ZXIgbWFpcyBkZSB1bWEgY++/vXBpYSBkZSBzdWEgcHVibGljYe+/ve+/vW8gcGFyYSBmaW5zIGRlIHNlZ3VyYW7vv71hLCBiYWNrLXVwIGUgcHJlc2VydmHvv73vv71vLiBWb2Pvv70gZGVjbGFyYSBxdWUgYSBzdWEgcHVibGljYe+/ve+/vW8g77+9IG9yaWdpbmFsIGUgcXVlIHZvY++/vSB0ZW0gbyBwb2RlciBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbu+/vWEuIFZvY++/vSB0YW1i77+9bSBkZWNsYXJhIHF1ZSBvIGRlcO+/vXNpdG8gZGEgc3VhIHB1YmxpY2Hvv73vv71vIG7vv71vLCBxdWUgc2VqYSBkZSBzZXUgY29uaGVjaW1lbnRvLCBpbmZyaW5nZSBkaXJlaXRvcyBhdXRvcmFpcyBkZSBuaW5nde+/vW0uCgpDYXNvIGEgc3VhIHB1YmxpY2Hvv73vv71vIGNvbnRlbmhhIG1hdGVyaWFsIHF1ZSB2b2Pvv70gbu+/vW8gcG9zc3VpIGEgdGl0dWxhcmlkYWRlIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgdm9j77+9IGRlY2xhcmEgcXVlIG9idGV2ZSBhIHBlcm1pc3Pvv71vIGlycmVzdHJpdGEgZG8gZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIHBhcmEgY29uY2VkZXIgYW8gUmVwb3NpdO+/vXJpbyBJbnN0aXR1Y2lvbmFsIGRhIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIEp1aXogZGUgRm9yYSBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7vv71hLCBlIHF1ZSBlc3NlIG1hdGVyaWFsIGRlIHByb3ByaWVkYWRlIGRlIHRlcmNlaXJvcyBlc3Tvv70gY2xhcmFtZW50ZSBpZGVudGlmaWNhZG8gZSByZWNvbmhlY2lkbyBubyB0ZXh0byBvdSBubyBjb250Ze+/vWRvIGRhIHB1YmxpY2Hvv73vv71vIG9yYSBkZXBvc2l0YWRhLgoKQ0FTTyBBIFBVQkxJQ0Hvv73vv71PIE9SQSBERVBPU0lUQURBIFRFTkhBIFNJRE8gUkVTVUxUQURPIERFIFVNIFBBVFJPQ++/vU5JTyBPVSBBUE9JTyBERSBVTUEgQUfvv71OQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PLCBWT0Pvv70gREVDTEFSQSBRVUUgUkVTUEVJVE9VIFRPRE9TIEUgUVVBSVNRVUVSIERJUkVJVE9TIERFIFJFVklT77+9TyBDT01PIFRBTULvv71NIEFTIERFTUFJUyBPQlJJR0Hvv73vv71FUyBFWElHSURBUyBQT1IgQ09OVFJBVE8gT1UgQUNPUkRPLgoKTyBSZXBvc2l077+9cmlvIEluc3RpdHVjaW9uYWwgZGEgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZGUgSnVpeiBkZSBGb3JhIHNlIGNvbXByb21ldGUgYSBpZGVudGlmaWNhciBjbGFyYW1lbnRlIG8gc2V1IG5vbWUgKHMpIG91IG8ocykgbm9tZShzKSBkbyhzKSBkZXRlbnRvcihlcykgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIGRhIHB1YmxpY2Hvv73vv71vLCBlIG7vv71vIGZhcu+/vSBxdWFscXVlciBhbHRlcmHvv73vv71vLCBhbO+/vW0gZGFxdWVsYXMgY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbu+/vWEuCg==Repositório InstitucionalPUBhttps://repositorio.ufjf.br/oai/requestopendoar:2019-06-16T12:11:29Repositório Institucional da UFJF - Universidade Federal de Juiz de Fora (UFJF)false
dc.title.pt_BR.fl_str_mv Análise de abordagens automáticas de anotação semântica para textos ruidosos e seus impactos na similaridade entre vídeos
title Análise de abordagens automáticas de anotação semântica para textos ruidosos e seus impactos na similaridade entre vídeos
spellingShingle Análise de abordagens automáticas de anotação semântica para textos ruidosos e seus impactos na similaridade entre vídeos
Dias, Laura Lima
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Recuperação de informação
Repositório de videos
Categorização de texto ruidoso
Processamento de linguagem natural
Information retrieval
Video repository
Noisy text categorization
Natural language processing
title_short Análise de abordagens automáticas de anotação semântica para textos ruidosos e seus impactos na similaridade entre vídeos
title_full Análise de abordagens automáticas de anotação semântica para textos ruidosos e seus impactos na similaridade entre vídeos
title_fullStr Análise de abordagens automáticas de anotação semântica para textos ruidosos e seus impactos na similaridade entre vídeos
title_full_unstemmed Análise de abordagens automáticas de anotação semântica para textos ruidosos e seus impactos na similaridade entre vídeos
title_sort Análise de abordagens automáticas de anotação semântica para textos ruidosos e seus impactos na similaridade entre vídeos
author Dias, Laura Lima
author_facet Dias, Laura Lima
author_role author
dc.contributor.advisor1.fl_str_mv Barrére, Eduardo
dc.contributor.advisor1Lattes.fl_str_mv http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4792105U4
dc.contributor.advisor-co1.fl_str_mv Souza, Jairo Francisco de
dc.contributor.advisor-co1Lattes.fl_str_mv http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4771297H6
dc.contributor.referee1.fl_str_mv Moreno, Marcelo Ferreira
dc.contributor.referee1Lattes.fl_str_mv http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4760230A7
dc.contributor.referee2.fl_str_mv Santos, Celso Alberto Saibel
dc.contributor.referee2Lattes.fl_str_mv http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4728974A8
dc.contributor.authorLattes.fl_str_mv http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4833279H8
dc.contributor.author.fl_str_mv Dias, Laura Lima
contributor_str_mv Barrére, Eduardo
Souza, Jairo Francisco de
Moreno, Marcelo Ferreira
Santos, Celso Alberto Saibel
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Recuperação de informação
Repositório de videos
Categorização de texto ruidoso
Processamento de linguagem natural
Information retrieval
Video repository
Noisy text categorization
Natural language processing
dc.subject.por.fl_str_mv Recuperação de informação
Repositório de videos
Categorização de texto ruidoso
Processamento de linguagem natural
Information retrieval
Video repository
Noisy text categorization
Natural language processing
description Com o acúmulo de informações digitais armazenadas ao longo do tempo, alguns esforços precisam ser aplicados para facilitar a busca e indexação de conteúdos. Recursos como vídeos e áudios, por sua vez, são mais difíceis de serem tratados por mecanismos de busca. A anotação de vídeos é uma forma considerável de resumo do vídeo, busca e classificação. A parcela de vídeos que possui anotações atribuídas pelo próprio autor na maioria das vezes é muito pequena e pouco significativa, e anotar vídeos manualmente é bastante trabalhoso quando trata-se de bases legadas. Por esse motivo, automatizar esse processo tem sido desejado no campo da Recuperação de Informação. Em repositórios de videoaulas, onde a maior parte da informação se concentra na fala do professor, esse processo pode ser realizado através de anotações automáticas de transcritos gerados por sistemas de Reconhecimento Automático de Fala. Contudo, essa técnica produz textos ruidosos, dificultando a tarefa de anotação semântica automática. Entre muitas técnicas de Processamento de Linguagem de Natural utilizadas para anotação, não é trivial a escolha da técnica mais adequada a um determinado cenário, principalmente quando trata-se de anotar textos com ruídos. Essa pesquisa propõe analisar um conjunto de diferentes técnicas utilizadas para anotação automática e verificar o seu impacto em um mesmo cenário, o cenário de similaridade entre vídeos.
publishDate 2017
dc.date.issued.fl_str_mv 2017-08-31
dc.date.accessioned.fl_str_mv 2018-03-21T19:26:08Z
dc.date.available.fl_str_mv 2018-10-01
2018-03-21T19:26:08Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufjf.br/jspui/handle/ufjf/6473
url https://repositorio.ufjf.br/jspui/handle/ufjf/6473
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Juiz de Fora (UFJF)
dc.publisher.program.fl_str_mv Programa de Pós-graduação em Ciência da Computação
dc.publisher.initials.fl_str_mv UFJF
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv ICE – Instituto de Ciências Exatas
publisher.none.fl_str_mv Universidade Federal de Juiz de Fora (UFJF)
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFJF
instname:Universidade Federal de Juiz de Fora (UFJF)
instacron:UFJF
instname_str Universidade Federal de Juiz de Fora (UFJF)
instacron_str UFJF
institution UFJF
reponame_str Repositório Institucional da UFJF
collection Repositório Institucional da UFJF
bitstream.url.fl_str_mv https://repositorio.ufjf.br/jspui/bitstream/ufjf/6473/4/lauralimadias.pdf.jpg
https://repositorio.ufjf.br/jspui/bitstream/ufjf/6473/1/license.txt
https://repositorio.ufjf.br/jspui/bitstream/ufjf/6473/2/lauralimadias.pdf
https://repositorio.ufjf.br/jspui/bitstream/ufjf/6473/3/lauralimadias.pdf.txt
bitstream.checksum.fl_str_mv 18a4c2f1f6a77f88d199dab9e6c30377
000e18a5aee6ca21bb5811ddf55fc37b
b3e5ba056b9b605249afd68f92e98bad
0659a495e7098d3d303496d5f8ee93ea
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFJF - Universidade Federal de Juiz de Fora (UFJF)
repository.mail.fl_str_mv
_version_ 1833922384056287232