Alinhamento léxico utilizando técnicas híbridas discriminativas e de pós-processamento
| Ano de defesa: | 2010 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Não Informado pela instituição
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Palavras-chave em Inglês: | |
| Link de acesso: | http://hdl.handle.net/10183/27658 |
Resumo: | O alinhamento léxico automático é uma tarefa essencial para as técnicas de tradução de máquina empíricas modernas. A abordagem gerativa não-supervisionado têm sido substituída recentemente por uma abordagem discriminativa supervisionada que facilite inclusão de conhecimento linguístico de uma diversidade de fontes. Dentro deste contexto, este trabalho descreve uma série alinhadores léxicos discriminativos que incorporam heurísticas de pós-processamento com o objetivo de melhorar o desempenho dos mesmos para expressões multi-palavra, que constituem um dos desafios da área de processamento de linguagens naturais atualmente. A avaliação é realizada utilizando um gold-standard obtido a partir da anotação de um corpus paralelo de legendas de filmes. Os alinhadores propostos apresentam um desempenho superior tanto ao obtido por uma baseline quanto ao obtido por um alinhador gerativo do estado-da-arte (Giza++), tanto no caso geral quanto para as expressões foco do trabalho. |
| id |
URGS_009b0b0dbe989c71e479243031516213 |
|---|---|
| oai_identifier_str |
oai:www.lume.ufrgs.br:10183/27658 |
| network_acronym_str |
URGS |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
| repository_id_str |
|
| spelling |
Schreiner, PauloVillavicencio, AlineCaseli, Helena de Medeiros2011-02-02T05:59:18Z2010http://hdl.handle.net/10183/27658000764635O alinhamento léxico automático é uma tarefa essencial para as técnicas de tradução de máquina empíricas modernas. A abordagem gerativa não-supervisionado têm sido substituída recentemente por uma abordagem discriminativa supervisionada que facilite inclusão de conhecimento linguístico de uma diversidade de fontes. Dentro deste contexto, este trabalho descreve uma série alinhadores léxicos discriminativos que incorporam heurísticas de pós-processamento com o objetivo de melhorar o desempenho dos mesmos para expressões multi-palavra, que constituem um dos desafios da área de processamento de linguagens naturais atualmente. A avaliação é realizada utilizando um gold-standard obtido a partir da anotação de um corpus paralelo de legendas de filmes. Os alinhadores propostos apresentam um desempenho superior tanto ao obtido por uma baseline quanto ao obtido por um alinhador gerativo do estado-da-arte (Giza++), tanto no caso geral quanto para as expressões foco do trabalho.Lexical alignment is an essential task for modern empirical machine translation techniques. The unsupervised generative approach is being replaced by a supervised, discriminative one that considerably facilitates the inclusion of linguistic knowledge from several sources. Given this context, the present work describes a series of discriminative lexical aligners that incorporate post-processing heuristics with the goal of improving the quality of the alignments of multiword expressions, which is one of the major challanges in natural language processing today. The evaluation is conducted using a gold-standard obtained from a movie subtitle parallel corpus. The aligners proposed show an alignment quality that is superior both to our baseline and to a state-of-the-art generative aligner (Giza++), for the general case as well as for the expressions that are the focus of this work.application/pdfporLinguística computacionalProcessamento : Linguagem naturalNatural language processingLexical alignmentMachine learningParallel corporaMultiword expressionsUFRGSAlinhamento léxico utilizando técnicas híbridas discriminativas e de pós-processamentoText alignment info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2010mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000764635.pdf000764635.pdfTexto completoapplication/pdf498616http://www.lume.ufrgs.br/bitstream/10183/27658/1/000764635.pdf4ab4b3bd3b629f5eb5ba9d51ed1dec36MD51TEXT000764635.pdf.txt000764635.pdf.txtExtracted Texttext/plain163443http://www.lume.ufrgs.br/bitstream/10183/27658/2/000764635.pdf.txt64e52f66323eadc53e8ca05c84586374MD52THUMBNAIL000764635.pdf.jpg000764635.pdf.jpgGenerated Thumbnailimage/jpeg1069http://www.lume.ufrgs.br/bitstream/10183/27658/3/000764635.pdf.jpg633f5f20ee594040a7d3ce13957f1bf8MD5310183/276582018-10-11 08:49:04.798oai:www.lume.ufrgs.br:10183/27658Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532018-10-11T11:49:04Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
| dc.title.pt_BR.fl_str_mv |
Alinhamento léxico utilizando técnicas híbridas discriminativas e de pós-processamento |
| dc.title.alternative.en.fl_str_mv |
Text alignment |
| title |
Alinhamento léxico utilizando técnicas híbridas discriminativas e de pós-processamento |
| spellingShingle |
Alinhamento léxico utilizando técnicas híbridas discriminativas e de pós-processamento Schreiner, Paulo Linguística computacional Processamento : Linguagem natural Natural language processing Lexical alignment Machine learning Parallel corpora Multiword expressions UFRGS |
| title_short |
Alinhamento léxico utilizando técnicas híbridas discriminativas e de pós-processamento |
| title_full |
Alinhamento léxico utilizando técnicas híbridas discriminativas e de pós-processamento |
| title_fullStr |
Alinhamento léxico utilizando técnicas híbridas discriminativas e de pós-processamento |
| title_full_unstemmed |
Alinhamento léxico utilizando técnicas híbridas discriminativas e de pós-processamento |
| title_sort |
Alinhamento léxico utilizando técnicas híbridas discriminativas e de pós-processamento |
| author |
Schreiner, Paulo |
| author_facet |
Schreiner, Paulo |
| author_role |
author |
| dc.contributor.author.fl_str_mv |
Schreiner, Paulo |
| dc.contributor.advisor1.fl_str_mv |
Villavicencio, Aline |
| dc.contributor.advisor-co1.fl_str_mv |
Caseli, Helena de Medeiros |
| contributor_str_mv |
Villavicencio, Aline Caseli, Helena de Medeiros |
| dc.subject.por.fl_str_mv |
Linguística computacional Processamento : Linguagem natural |
| topic |
Linguística computacional Processamento : Linguagem natural Natural language processing Lexical alignment Machine learning Parallel corpora Multiword expressions UFRGS |
| dc.subject.eng.fl_str_mv |
Natural language processing Lexical alignment Machine learning Parallel corpora Multiword expressions UFRGS |
| description |
O alinhamento léxico automático é uma tarefa essencial para as técnicas de tradução de máquina empíricas modernas. A abordagem gerativa não-supervisionado têm sido substituída recentemente por uma abordagem discriminativa supervisionada que facilite inclusão de conhecimento linguístico de uma diversidade de fontes. Dentro deste contexto, este trabalho descreve uma série alinhadores léxicos discriminativos que incorporam heurísticas de pós-processamento com o objetivo de melhorar o desempenho dos mesmos para expressões multi-palavra, que constituem um dos desafios da área de processamento de linguagens naturais atualmente. A avaliação é realizada utilizando um gold-standard obtido a partir da anotação de um corpus paralelo de legendas de filmes. Os alinhadores propostos apresentam um desempenho superior tanto ao obtido por uma baseline quanto ao obtido por um alinhador gerativo do estado-da-arte (Giza++), tanto no caso geral quanto para as expressões foco do trabalho. |
| publishDate |
2010 |
| dc.date.issued.fl_str_mv |
2010 |
| dc.date.accessioned.fl_str_mv |
2011-02-02T05:59:18Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/27658 |
| dc.identifier.nrb.pt_BR.fl_str_mv |
000764635 |
| url |
http://hdl.handle.net/10183/27658 |
| identifier_str_mv |
000764635 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
| instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
| instacron_str |
UFRGS |
| institution |
UFRGS |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
| collection |
Biblioteca Digital de Teses e Dissertações da UFRGS |
| bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/27658/1/000764635.pdf http://www.lume.ufrgs.br/bitstream/10183/27658/2/000764635.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/27658/3/000764635.pdf.jpg |
| bitstream.checksum.fl_str_mv |
4ab4b3bd3b629f5eb5ba9d51ed1dec36 64e52f66323eadc53e8ca05c84586374 633f5f20ee594040a7d3ce13957f1bf8 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
| repository.mail.fl_str_mv |
lume@ufrgs.br||lume@ufrgs.br |
| _version_ |
1831315887344320512 |