Alinhamento léxico utilizando técnicas híbridas discriminativas e de pós-processamento

Detalhes bibliográficos
Ano de defesa: 2010
Autor(a) principal: Schreiner, Paulo
Orientador(a): Villavicencio, Aline
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Link de acesso: http://hdl.handle.net/10183/27658
Resumo: O alinhamento léxico automático é uma tarefa essencial para as técnicas de tradução de máquina empíricas modernas. A abordagem gerativa não-supervisionado têm sido substituída recentemente por uma abordagem discriminativa supervisionada que facilite inclusão de conhecimento linguístico de uma diversidade de fontes. Dentro deste contexto, este trabalho descreve uma série alinhadores léxicos discriminativos que incorporam heurísticas de pós-processamento com o objetivo de melhorar o desempenho dos mesmos para expressões multi-palavra, que constituem um dos desafios da área de processamento de linguagens naturais atualmente. A avaliação é realizada utilizando um gold-standard obtido a partir da anotação de um corpus paralelo de legendas de filmes. Os alinhadores propostos apresentam um desempenho superior tanto ao obtido por uma baseline quanto ao obtido por um alinhador gerativo do estado-da-arte (Giza++), tanto no caso geral quanto para as expressões foco do trabalho.
id URGS_009b0b0dbe989c71e479243031516213
oai_identifier_str oai:www.lume.ufrgs.br:10183/27658
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str
spelling Schreiner, PauloVillavicencio, AlineCaseli, Helena de Medeiros2011-02-02T05:59:18Z2010http://hdl.handle.net/10183/27658000764635O alinhamento léxico automático é uma tarefa essencial para as técnicas de tradução de máquina empíricas modernas. A abordagem gerativa não-supervisionado têm sido substituída recentemente por uma abordagem discriminativa supervisionada que facilite inclusão de conhecimento linguístico de uma diversidade de fontes. Dentro deste contexto, este trabalho descreve uma série alinhadores léxicos discriminativos que incorporam heurísticas de pós-processamento com o objetivo de melhorar o desempenho dos mesmos para expressões multi-palavra, que constituem um dos desafios da área de processamento de linguagens naturais atualmente. A avaliação é realizada utilizando um gold-standard obtido a partir da anotação de um corpus paralelo de legendas de filmes. Os alinhadores propostos apresentam um desempenho superior tanto ao obtido por uma baseline quanto ao obtido por um alinhador gerativo do estado-da-arte (Giza++), tanto no caso geral quanto para as expressões foco do trabalho.Lexical alignment is an essential task for modern empirical machine translation techniques. The unsupervised generative approach is being replaced by a supervised, discriminative one that considerably facilitates the inclusion of linguistic knowledge from several sources. Given this context, the present work describes a series of discriminative lexical aligners that incorporate post-processing heuristics with the goal of improving the quality of the alignments of multiword expressions, which is one of the major challanges in natural language processing today. The evaluation is conducted using a gold-standard obtained from a movie subtitle parallel corpus. The aligners proposed show an alignment quality that is superior both to our baseline and to a state-of-the-art generative aligner (Giza++), for the general case as well as for the expressions that are the focus of this work.application/pdfporLinguística computacionalProcessamento : Linguagem naturalNatural language processingLexical alignmentMachine learningParallel corporaMultiword expressionsUFRGSAlinhamento léxico utilizando técnicas híbridas discriminativas e de pós-processamentoText alignment info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2010mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000764635.pdf000764635.pdfTexto completoapplication/pdf498616http://www.lume.ufrgs.br/bitstream/10183/27658/1/000764635.pdf4ab4b3bd3b629f5eb5ba9d51ed1dec36MD51TEXT000764635.pdf.txt000764635.pdf.txtExtracted Texttext/plain163443http://www.lume.ufrgs.br/bitstream/10183/27658/2/000764635.pdf.txt64e52f66323eadc53e8ca05c84586374MD52THUMBNAIL000764635.pdf.jpg000764635.pdf.jpgGenerated Thumbnailimage/jpeg1069http://www.lume.ufrgs.br/bitstream/10183/27658/3/000764635.pdf.jpg633f5f20ee594040a7d3ce13957f1bf8MD5310183/276582018-10-11 08:49:04.798oai:www.lume.ufrgs.br:10183/27658Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532018-10-11T11:49:04Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Alinhamento léxico utilizando técnicas híbridas discriminativas e de pós-processamento
dc.title.alternative.en.fl_str_mv Text alignment
title Alinhamento léxico utilizando técnicas híbridas discriminativas e de pós-processamento
spellingShingle Alinhamento léxico utilizando técnicas híbridas discriminativas e de pós-processamento
Schreiner, Paulo
Linguística computacional
Processamento : Linguagem natural
Natural language processing
Lexical alignment
Machine learning
Parallel corpora
Multiword expressions
UFRGS
title_short Alinhamento léxico utilizando técnicas híbridas discriminativas e de pós-processamento
title_full Alinhamento léxico utilizando técnicas híbridas discriminativas e de pós-processamento
title_fullStr Alinhamento léxico utilizando técnicas híbridas discriminativas e de pós-processamento
title_full_unstemmed Alinhamento léxico utilizando técnicas híbridas discriminativas e de pós-processamento
title_sort Alinhamento léxico utilizando técnicas híbridas discriminativas e de pós-processamento
author Schreiner, Paulo
author_facet Schreiner, Paulo
author_role author
dc.contributor.author.fl_str_mv Schreiner, Paulo
dc.contributor.advisor1.fl_str_mv Villavicencio, Aline
dc.contributor.advisor-co1.fl_str_mv Caseli, Helena de Medeiros
contributor_str_mv Villavicencio, Aline
Caseli, Helena de Medeiros
dc.subject.por.fl_str_mv Linguística computacional
Processamento : Linguagem natural
topic Linguística computacional
Processamento : Linguagem natural
Natural language processing
Lexical alignment
Machine learning
Parallel corpora
Multiword expressions
UFRGS
dc.subject.eng.fl_str_mv Natural language processing
Lexical alignment
Machine learning
Parallel corpora
Multiword expressions
UFRGS
description O alinhamento léxico automático é uma tarefa essencial para as técnicas de tradução de máquina empíricas modernas. A abordagem gerativa não-supervisionado têm sido substituída recentemente por uma abordagem discriminativa supervisionada que facilite inclusão de conhecimento linguístico de uma diversidade de fontes. Dentro deste contexto, este trabalho descreve uma série alinhadores léxicos discriminativos que incorporam heurísticas de pós-processamento com o objetivo de melhorar o desempenho dos mesmos para expressões multi-palavra, que constituem um dos desafios da área de processamento de linguagens naturais atualmente. A avaliação é realizada utilizando um gold-standard obtido a partir da anotação de um corpus paralelo de legendas de filmes. Os alinhadores propostos apresentam um desempenho superior tanto ao obtido por uma baseline quanto ao obtido por um alinhador gerativo do estado-da-arte (Giza++), tanto no caso geral quanto para as expressões foco do trabalho.
publishDate 2010
dc.date.issued.fl_str_mv 2010
dc.date.accessioned.fl_str_mv 2011-02-02T05:59:18Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/27658
dc.identifier.nrb.pt_BR.fl_str_mv 000764635
url http://hdl.handle.net/10183/27658
identifier_str_mv 000764635
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/27658/1/000764635.pdf
http://www.lume.ufrgs.br/bitstream/10183/27658/2/000764635.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/27658/3/000764635.pdf.jpg
bitstream.checksum.fl_str_mv 4ab4b3bd3b629f5eb5ba9d51ed1dec36
64e52f66323eadc53e8ca05c84586374
633f5f20ee594040a7d3ce13957f1bf8
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br||lume@ufrgs.br
_version_ 1831315887344320512