Pós-edição automática de textos traduzidos automaticamente de inglês para português do Brasil

Detalhes bibliográficos
Ano de defesa: 2014
Autor(a) principal: Martins, Débora Beatriz de Jesus
Orientador(a): Caseli, Helena de Medeiros lattes
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de São Carlos
Programa de Pós-Graduação: Programa de Pós-Graduação em Ciência da Computação - PPGCC
Departamento: Não Informado pela instituição
País: BR
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: https://repositorio.ufscar.br/handle/20.500.14289/563
Resumo: The project described in this document focusses on the post-editing of automatically translated texts. Machine Translation (MT) is the task of translating texts in natural language performed by a computer and it is part of the Natural Language Processing (NLP) research field, linked to the Artificial Intelligence (AI) area. Researches in MT using different approaches, such as linguistics and statistics, have advanced greatly since its beginning in the 1950 s. Nonetheless, the automatically translated texts, except when used to provide a basic understanding of a text, still need to go through post-editing to become well written in the target language. At present, the most common form of post-editing is that executed by human translators, whether they are professional translators or the users of the MT system themselves. Manual post-editing is more accurate but it is cost and time demanding and can be prohibitive when too many changes have to be made. As an attempt to advance in the state-of-the-art in MT research, mainly regarding Brazilian Portuguese, this research has as its goal verifying the effectiveness of using an Automated Post-Editing (APE) system in translations from English to Portuguese. By using a training corpus containing reference translations (good translations produced by humans) and translations produced by a phrase-based statistical MT system, machine learning techniques were applied for the APE creation. The resulting APE system is able to: (i) automatically identify MT errors and (ii) automatically correct MT errors by using previous error identification or not. The evaluation of the APE effectiveness was made through the usage of the automatic evaluation metrics BLEU and NIST, calculated for post-edited and not post-edited sentences. There was also manual verification of the sentences. Despite the limited results that were achieved due to the small size of our training corpus, we can conclude that the resulting APE improves MT quality from English to Portuguese.
id SCAR_0fd9d142ffe2d5cd36b8103bda9b8c4b
oai_identifier_str oai:repositorio.ufscar.br:20.500.14289/563
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str
spelling Martins, Débora Beatriz de JesusCaseli, Helena de Medeiroshttp://lattes.cnpq.br/6608582057810385http://lattes.cnpq.br/5072255236230390b96443c9-dd75-4c68-b57f-6290506dacea2016-06-02T19:06:12Z2014-07-182016-06-02T19:06:12Z2014-04-10MARTINS, Débora Beatriz de Jesus. Pós-edição automática de textos traduzidos automaticamente de inglês para português do Brasil. 2014. 122 f. Dissertação (Mestrado em Ciências Exatas e da Terra) - Universidade Federal de São Carlos, São Carlos, 2014.https://repositorio.ufscar.br/handle/20.500.14289/563The project described in this document focusses on the post-editing of automatically translated texts. Machine Translation (MT) is the task of translating texts in natural language performed by a computer and it is part of the Natural Language Processing (NLP) research field, linked to the Artificial Intelligence (AI) area. Researches in MT using different approaches, such as linguistics and statistics, have advanced greatly since its beginning in the 1950 s. Nonetheless, the automatically translated texts, except when used to provide a basic understanding of a text, still need to go through post-editing to become well written in the target language. At present, the most common form of post-editing is that executed by human translators, whether they are professional translators or the users of the MT system themselves. Manual post-editing is more accurate but it is cost and time demanding and can be prohibitive when too many changes have to be made. As an attempt to advance in the state-of-the-art in MT research, mainly regarding Brazilian Portuguese, this research has as its goal verifying the effectiveness of using an Automated Post-Editing (APE) system in translations from English to Portuguese. By using a training corpus containing reference translations (good translations produced by humans) and translations produced by a phrase-based statistical MT system, machine learning techniques were applied for the APE creation. The resulting APE system is able to: (i) automatically identify MT errors and (ii) automatically correct MT errors by using previous error identification or not. The evaluation of the APE effectiveness was made through the usage of the automatic evaluation metrics BLEU and NIST, calculated for post-edited and not post-edited sentences. There was also manual verification of the sentences. Despite the limited results that were achieved due to the small size of our training corpus, we can conclude that the resulting APE improves MT quality from English to Portuguese.O projeto de mestrado descrito neste documento tem como foco a pós-edição de textos traduzidos automaticamente. Tradução Automática (TA) é a tarefa de traduzir textos em língua natural desempenhada por um computador e faz parte da linha de pesquisa de Processamento de Línguas Naturais (PLN), vinculada à área de Inteligência Artificial (IA). As pesquisas em TA, utilizando desde abordagens linguísticas até modelos estatísticos, têm avançado muito desde seu início na década de 1950. Entretanto, os textos traduzidos automaticamente, exceto quando utilizados apenas para um entendimento geral do assunto, ainda precisam passar por pós-edição para que se tornem bem escritos na língua alvo. Atualmente, a forma mais comum de pós-edição é a executada por tradutores humanos, sejam eles profissionais ou os próprios usuários dos sistemas de TA. A pós-edição manual é mais precisa, mas traz custo e demanda tempo, especialmente quando envolve muitas alterações. Como uma tentativa para avançar o estado da arte das pesquisas em TA, principalmente envolvendo o português do Brasil, esta pesquisa visa verificar a efetividade do uso de um sistema de pós-edição automática (Automated Post-Editing ou APE) na tradução do inglês para o português. Utilizando um corpus de treinamento contendo traduções de referência (boas traduções produzidas por humanos) e traduções geradas por um sistema de TA estatística baseada em frases, técnicas de aprendizado de máquina foram aplicadas para o desenvolvimento do APE. O sistema de APE desenvolvido: (i) identifica automaticamente os erros de TA e (ii) realiza a correção automática da tradução com ou sem a identificação prévia dos erros. A avaliação foi realizada usando tanto medidas automáticas BLEU e NIST, calculadas para as sentenças sem e com a pós-edição; como analise manual. Apesar de resultados limitados pelo pequeno tamanho do corpus de treinamento, foi possível concluir que o APE desenvolvido melhora a qualidade da TA de inglês para português.Universidade Federal de Minas Geraisapplication/pdfporUniversidade Federal de São CarlosPrograma de Pós-Graduação em Ciência da Computação - PPGCCUFSCarBRLinguagem - tradução automáticaAprendizado de computadorAprendizado de MáquinaIdentificação Automática de Erros de TraduçãoPós-edição automáticaMachine translationMachine learningAutomated translation error identificationAutomated Post-EditingCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOPós-edição automática de textos traduzidos automaticamente de inglês para português do Brasilinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis-1-1e36d4e63-960d-4f5c-9c93-f8b7f5f93d65info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINAL5932.pdfapplication/pdf1110060https://repositorio.ufscar.br/bitstreams/2c8d02d4-1c2c-4dfd-9991-49e48a4be9a0/downloadfe08b552e37f04451248c376cfc4454fMD51trueAnonymousREADTEXT5932.pdf.txt5932.pdf.txtExtracted texttext/plain0https://repositorio.ufscar.br/bitstreams/91ba881a-cb55-41c8-93d5-d8450c7447b0/downloadd41d8cd98f00b204e9800998ecf8427eMD54falseAnonymousREADTHUMBNAIL5932.pdf.jpg5932.pdf.jpgIM Thumbnailimage/jpeg8854https://repositorio.ufscar.br/bitstreams/5bc3c6e7-8fd7-4c39-91f4-d8a517c0451d/download126b3720f9e16d53d09bca0fe34f391cMD55falseAnonymousREAD20.500.14289/5632025-02-05 15:06:51.465open.accessoai:repositorio.ufscar.br:20.500.14289/563https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-02-05T18:06:51Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.por.fl_str_mv Pós-edição automática de textos traduzidos automaticamente de inglês para português do Brasil
title Pós-edição automática de textos traduzidos automaticamente de inglês para português do Brasil
spellingShingle Pós-edição automática de textos traduzidos automaticamente de inglês para português do Brasil
Martins, Débora Beatriz de Jesus
Linguagem - tradução automática
Aprendizado de computador
Aprendizado de Máquina
Identificação Automática de Erros de Tradução
Pós-edição automática
Machine translation
Machine learning
Automated translation error identification
Automated Post-Editing
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short Pós-edição automática de textos traduzidos automaticamente de inglês para português do Brasil
title_full Pós-edição automática de textos traduzidos automaticamente de inglês para português do Brasil
title_fullStr Pós-edição automática de textos traduzidos automaticamente de inglês para português do Brasil
title_full_unstemmed Pós-edição automática de textos traduzidos automaticamente de inglês para português do Brasil
title_sort Pós-edição automática de textos traduzidos automaticamente de inglês para português do Brasil
author Martins, Débora Beatriz de Jesus
author_facet Martins, Débora Beatriz de Jesus
author_role author
dc.contributor.authorlattes.por.fl_str_mv http://lattes.cnpq.br/5072255236230390
dc.contributor.author.fl_str_mv Martins, Débora Beatriz de Jesus
dc.contributor.advisor1.fl_str_mv Caseli, Helena de Medeiros
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/6608582057810385
dc.contributor.authorID.fl_str_mv b96443c9-dd75-4c68-b57f-6290506dacea
contributor_str_mv Caseli, Helena de Medeiros
dc.subject.por.fl_str_mv Linguagem - tradução automática
Aprendizado de computador
Aprendizado de Máquina
Identificação Automática de Erros de Tradução
Pós-edição automática
topic Linguagem - tradução automática
Aprendizado de computador
Aprendizado de Máquina
Identificação Automática de Erros de Tradução
Pós-edição automática
Machine translation
Machine learning
Automated translation error identification
Automated Post-Editing
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.subject.eng.fl_str_mv Machine translation
Machine learning
Automated translation error identification
Automated Post-Editing
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description The project described in this document focusses on the post-editing of automatically translated texts. Machine Translation (MT) is the task of translating texts in natural language performed by a computer and it is part of the Natural Language Processing (NLP) research field, linked to the Artificial Intelligence (AI) area. Researches in MT using different approaches, such as linguistics and statistics, have advanced greatly since its beginning in the 1950 s. Nonetheless, the automatically translated texts, except when used to provide a basic understanding of a text, still need to go through post-editing to become well written in the target language. At present, the most common form of post-editing is that executed by human translators, whether they are professional translators or the users of the MT system themselves. Manual post-editing is more accurate but it is cost and time demanding and can be prohibitive when too many changes have to be made. As an attempt to advance in the state-of-the-art in MT research, mainly regarding Brazilian Portuguese, this research has as its goal verifying the effectiveness of using an Automated Post-Editing (APE) system in translations from English to Portuguese. By using a training corpus containing reference translations (good translations produced by humans) and translations produced by a phrase-based statistical MT system, machine learning techniques were applied for the APE creation. The resulting APE system is able to: (i) automatically identify MT errors and (ii) automatically correct MT errors by using previous error identification or not. The evaluation of the APE effectiveness was made through the usage of the automatic evaluation metrics BLEU and NIST, calculated for post-edited and not post-edited sentences. There was also manual verification of the sentences. Despite the limited results that were achieved due to the small size of our training corpus, we can conclude that the resulting APE improves MT quality from English to Portuguese.
publishDate 2014
dc.date.available.fl_str_mv 2014-07-18
2016-06-02T19:06:12Z
dc.date.issued.fl_str_mv 2014-04-10
dc.date.accessioned.fl_str_mv 2016-06-02T19:06:12Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv MARTINS, Débora Beatriz de Jesus. Pós-edição automática de textos traduzidos automaticamente de inglês para português do Brasil. 2014. 122 f. Dissertação (Mestrado em Ciências Exatas e da Terra) - Universidade Federal de São Carlos, São Carlos, 2014.
dc.identifier.uri.fl_str_mv https://repositorio.ufscar.br/handle/20.500.14289/563
identifier_str_mv MARTINS, Débora Beatriz de Jesus. Pós-edição automática de textos traduzidos automaticamente de inglês para português do Brasil. 2014. 122 f. Dissertação (Mestrado em Ciências Exatas e da Terra) - Universidade Federal de São Carlos, São Carlos, 2014.
url https://repositorio.ufscar.br/handle/20.500.14289/563
dc.language.iso.fl_str_mv por
language por
dc.relation.confidence.fl_str_mv -1
-1
dc.relation.authority.fl_str_mv e36d4e63-960d-4f5c-9c93-f8b7f5f93d65
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Ciência da Computação - PPGCC
dc.publisher.initials.fl_str_mv UFSCar
dc.publisher.country.fl_str_mv BR
publisher.none.fl_str_mv Universidade Federal de São Carlos
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstreams/2c8d02d4-1c2c-4dfd-9991-49e48a4be9a0/download
https://repositorio.ufscar.br/bitstreams/91ba881a-cb55-41c8-93d5-d8450c7447b0/download
https://repositorio.ufscar.br/bitstreams/5bc3c6e7-8fd7-4c39-91f4-d8a517c0451d/download
bitstream.checksum.fl_str_mv fe08b552e37f04451248c376cfc4454f
d41d8cd98f00b204e9800998ecf8427e
126b3720f9e16d53d09bca0fe34f391c
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv repositorio.sibi@ufscar.br
_version_ 1851688903531036672