Pós-edição automática de textos traduzidos automaticamente de inglês para português do Brasil
| Ano de defesa: | 2014 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Universidade Federal de São Carlos
|
| Programa de Pós-Graduação: |
Programa de Pós-Graduação em Ciência da Computação - PPGCC
|
| Departamento: |
Não Informado pela instituição
|
| País: |
BR
|
| Palavras-chave em Português: | |
| Palavras-chave em Inglês: | |
| Área do conhecimento CNPq: | |
| Link de acesso: | https://repositorio.ufscar.br/handle/20.500.14289/563 |
Resumo: | The project described in this document focusses on the post-editing of automatically translated texts. Machine Translation (MT) is the task of translating texts in natural language performed by a computer and it is part of the Natural Language Processing (NLP) research field, linked to the Artificial Intelligence (AI) area. Researches in MT using different approaches, such as linguistics and statistics, have advanced greatly since its beginning in the 1950 s. Nonetheless, the automatically translated texts, except when used to provide a basic understanding of a text, still need to go through post-editing to become well written in the target language. At present, the most common form of post-editing is that executed by human translators, whether they are professional translators or the users of the MT system themselves. Manual post-editing is more accurate but it is cost and time demanding and can be prohibitive when too many changes have to be made. As an attempt to advance in the state-of-the-art in MT research, mainly regarding Brazilian Portuguese, this research has as its goal verifying the effectiveness of using an Automated Post-Editing (APE) system in translations from English to Portuguese. By using a training corpus containing reference translations (good translations produced by humans) and translations produced by a phrase-based statistical MT system, machine learning techniques were applied for the APE creation. The resulting APE system is able to: (i) automatically identify MT errors and (ii) automatically correct MT errors by using previous error identification or not. The evaluation of the APE effectiveness was made through the usage of the automatic evaluation metrics BLEU and NIST, calculated for post-edited and not post-edited sentences. There was also manual verification of the sentences. Despite the limited results that were achieved due to the small size of our training corpus, we can conclude that the resulting APE improves MT quality from English to Portuguese. |
| id |
SCAR_0fd9d142ffe2d5cd36b8103bda9b8c4b |
|---|---|
| oai_identifier_str |
oai:repositorio.ufscar.br:20.500.14289/563 |
| network_acronym_str |
SCAR |
| network_name_str |
Repositório Institucional da UFSCAR |
| repository_id_str |
|
| spelling |
Martins, Débora Beatriz de JesusCaseli, Helena de Medeiroshttp://lattes.cnpq.br/6608582057810385http://lattes.cnpq.br/5072255236230390b96443c9-dd75-4c68-b57f-6290506dacea2016-06-02T19:06:12Z2014-07-182016-06-02T19:06:12Z2014-04-10MARTINS, Débora Beatriz de Jesus. Pós-edição automática de textos traduzidos automaticamente de inglês para português do Brasil. 2014. 122 f. Dissertação (Mestrado em Ciências Exatas e da Terra) - Universidade Federal de São Carlos, São Carlos, 2014.https://repositorio.ufscar.br/handle/20.500.14289/563The project described in this document focusses on the post-editing of automatically translated texts. Machine Translation (MT) is the task of translating texts in natural language performed by a computer and it is part of the Natural Language Processing (NLP) research field, linked to the Artificial Intelligence (AI) area. Researches in MT using different approaches, such as linguistics and statistics, have advanced greatly since its beginning in the 1950 s. Nonetheless, the automatically translated texts, except when used to provide a basic understanding of a text, still need to go through post-editing to become well written in the target language. At present, the most common form of post-editing is that executed by human translators, whether they are professional translators or the users of the MT system themselves. Manual post-editing is more accurate but it is cost and time demanding and can be prohibitive when too many changes have to be made. As an attempt to advance in the state-of-the-art in MT research, mainly regarding Brazilian Portuguese, this research has as its goal verifying the effectiveness of using an Automated Post-Editing (APE) system in translations from English to Portuguese. By using a training corpus containing reference translations (good translations produced by humans) and translations produced by a phrase-based statistical MT system, machine learning techniques were applied for the APE creation. The resulting APE system is able to: (i) automatically identify MT errors and (ii) automatically correct MT errors by using previous error identification or not. The evaluation of the APE effectiveness was made through the usage of the automatic evaluation metrics BLEU and NIST, calculated for post-edited and not post-edited sentences. There was also manual verification of the sentences. Despite the limited results that were achieved due to the small size of our training corpus, we can conclude that the resulting APE improves MT quality from English to Portuguese.O projeto de mestrado descrito neste documento tem como foco a pós-edição de textos traduzidos automaticamente. Tradução Automática (TA) é a tarefa de traduzir textos em língua natural desempenhada por um computador e faz parte da linha de pesquisa de Processamento de Línguas Naturais (PLN), vinculada à área de Inteligência Artificial (IA). As pesquisas em TA, utilizando desde abordagens linguísticas até modelos estatísticos, têm avançado muito desde seu início na década de 1950. Entretanto, os textos traduzidos automaticamente, exceto quando utilizados apenas para um entendimento geral do assunto, ainda precisam passar por pós-edição para que se tornem bem escritos na língua alvo. Atualmente, a forma mais comum de pós-edição é a executada por tradutores humanos, sejam eles profissionais ou os próprios usuários dos sistemas de TA. A pós-edição manual é mais precisa, mas traz custo e demanda tempo, especialmente quando envolve muitas alterações. Como uma tentativa para avançar o estado da arte das pesquisas em TA, principalmente envolvendo o português do Brasil, esta pesquisa visa verificar a efetividade do uso de um sistema de pós-edição automática (Automated Post-Editing ou APE) na tradução do inglês para o português. Utilizando um corpus de treinamento contendo traduções de referência (boas traduções produzidas por humanos) e traduções geradas por um sistema de TA estatística baseada em frases, técnicas de aprendizado de máquina foram aplicadas para o desenvolvimento do APE. O sistema de APE desenvolvido: (i) identifica automaticamente os erros de TA e (ii) realiza a correção automática da tradução com ou sem a identificação prévia dos erros. A avaliação foi realizada usando tanto medidas automáticas BLEU e NIST, calculadas para as sentenças sem e com a pós-edição; como analise manual. Apesar de resultados limitados pelo pequeno tamanho do corpus de treinamento, foi possível concluir que o APE desenvolvido melhora a qualidade da TA de inglês para português.Universidade Federal de Minas Geraisapplication/pdfporUniversidade Federal de São CarlosPrograma de Pós-Graduação em Ciência da Computação - PPGCCUFSCarBRLinguagem - tradução automáticaAprendizado de computadorAprendizado de MáquinaIdentificação Automática de Erros de TraduçãoPós-edição automáticaMachine translationMachine learningAutomated translation error identificationAutomated Post-EditingCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOPós-edição automática de textos traduzidos automaticamente de inglês para português do Brasilinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis-1-1e36d4e63-960d-4f5c-9c93-f8b7f5f93d65info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINAL5932.pdfapplication/pdf1110060https://repositorio.ufscar.br/bitstreams/2c8d02d4-1c2c-4dfd-9991-49e48a4be9a0/downloadfe08b552e37f04451248c376cfc4454fMD51trueAnonymousREADTEXT5932.pdf.txt5932.pdf.txtExtracted texttext/plain0https://repositorio.ufscar.br/bitstreams/91ba881a-cb55-41c8-93d5-d8450c7447b0/downloadd41d8cd98f00b204e9800998ecf8427eMD54falseAnonymousREADTHUMBNAIL5932.pdf.jpg5932.pdf.jpgIM Thumbnailimage/jpeg8854https://repositorio.ufscar.br/bitstreams/5bc3c6e7-8fd7-4c39-91f4-d8a517c0451d/download126b3720f9e16d53d09bca0fe34f391cMD55falseAnonymousREAD20.500.14289/5632025-02-05 15:06:51.465open.accessoai:repositorio.ufscar.br:20.500.14289/563https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-02-05T18:06:51Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false |
| dc.title.por.fl_str_mv |
Pós-edição automática de textos traduzidos automaticamente de inglês para português do Brasil |
| title |
Pós-edição automática de textos traduzidos automaticamente de inglês para português do Brasil |
| spellingShingle |
Pós-edição automática de textos traduzidos automaticamente de inglês para português do Brasil Martins, Débora Beatriz de Jesus Linguagem - tradução automática Aprendizado de computador Aprendizado de Máquina Identificação Automática de Erros de Tradução Pós-edição automática Machine translation Machine learning Automated translation error identification Automated Post-Editing CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| title_short |
Pós-edição automática de textos traduzidos automaticamente de inglês para português do Brasil |
| title_full |
Pós-edição automática de textos traduzidos automaticamente de inglês para português do Brasil |
| title_fullStr |
Pós-edição automática de textos traduzidos automaticamente de inglês para português do Brasil |
| title_full_unstemmed |
Pós-edição automática de textos traduzidos automaticamente de inglês para português do Brasil |
| title_sort |
Pós-edição automática de textos traduzidos automaticamente de inglês para português do Brasil |
| author |
Martins, Débora Beatriz de Jesus |
| author_facet |
Martins, Débora Beatriz de Jesus |
| author_role |
author |
| dc.contributor.authorlattes.por.fl_str_mv |
http://lattes.cnpq.br/5072255236230390 |
| dc.contributor.author.fl_str_mv |
Martins, Débora Beatriz de Jesus |
| dc.contributor.advisor1.fl_str_mv |
Caseli, Helena de Medeiros |
| dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/6608582057810385 |
| dc.contributor.authorID.fl_str_mv |
b96443c9-dd75-4c68-b57f-6290506dacea |
| contributor_str_mv |
Caseli, Helena de Medeiros |
| dc.subject.por.fl_str_mv |
Linguagem - tradução automática Aprendizado de computador Aprendizado de Máquina Identificação Automática de Erros de Tradução Pós-edição automática |
| topic |
Linguagem - tradução automática Aprendizado de computador Aprendizado de Máquina Identificação Automática de Erros de Tradução Pós-edição automática Machine translation Machine learning Automated translation error identification Automated Post-Editing CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| dc.subject.eng.fl_str_mv |
Machine translation Machine learning Automated translation error identification Automated Post-Editing |
| dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| description |
The project described in this document focusses on the post-editing of automatically translated texts. Machine Translation (MT) is the task of translating texts in natural language performed by a computer and it is part of the Natural Language Processing (NLP) research field, linked to the Artificial Intelligence (AI) area. Researches in MT using different approaches, such as linguistics and statistics, have advanced greatly since its beginning in the 1950 s. Nonetheless, the automatically translated texts, except when used to provide a basic understanding of a text, still need to go through post-editing to become well written in the target language. At present, the most common form of post-editing is that executed by human translators, whether they are professional translators or the users of the MT system themselves. Manual post-editing is more accurate but it is cost and time demanding and can be prohibitive when too many changes have to be made. As an attempt to advance in the state-of-the-art in MT research, mainly regarding Brazilian Portuguese, this research has as its goal verifying the effectiveness of using an Automated Post-Editing (APE) system in translations from English to Portuguese. By using a training corpus containing reference translations (good translations produced by humans) and translations produced by a phrase-based statistical MT system, machine learning techniques were applied for the APE creation. The resulting APE system is able to: (i) automatically identify MT errors and (ii) automatically correct MT errors by using previous error identification or not. The evaluation of the APE effectiveness was made through the usage of the automatic evaluation metrics BLEU and NIST, calculated for post-edited and not post-edited sentences. There was also manual verification of the sentences. Despite the limited results that were achieved due to the small size of our training corpus, we can conclude that the resulting APE improves MT quality from English to Portuguese. |
| publishDate |
2014 |
| dc.date.available.fl_str_mv |
2014-07-18 2016-06-02T19:06:12Z |
| dc.date.issued.fl_str_mv |
2014-04-10 |
| dc.date.accessioned.fl_str_mv |
2016-06-02T19:06:12Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.citation.fl_str_mv |
MARTINS, Débora Beatriz de Jesus. Pós-edição automática de textos traduzidos automaticamente de inglês para português do Brasil. 2014. 122 f. Dissertação (Mestrado em Ciências Exatas e da Terra) - Universidade Federal de São Carlos, São Carlos, 2014. |
| dc.identifier.uri.fl_str_mv |
https://repositorio.ufscar.br/handle/20.500.14289/563 |
| identifier_str_mv |
MARTINS, Débora Beatriz de Jesus. Pós-edição automática de textos traduzidos automaticamente de inglês para português do Brasil. 2014. 122 f. Dissertação (Mestrado em Ciências Exatas e da Terra) - Universidade Federal de São Carlos, São Carlos, 2014. |
| url |
https://repositorio.ufscar.br/handle/20.500.14289/563 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.confidence.fl_str_mv |
-1 -1 |
| dc.relation.authority.fl_str_mv |
e36d4e63-960d-4f5c-9c93-f8b7f5f93d65 |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Universidade Federal de São Carlos |
| dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Ciência da Computação - PPGCC |
| dc.publisher.initials.fl_str_mv |
UFSCar |
| dc.publisher.country.fl_str_mv |
BR |
| publisher.none.fl_str_mv |
Universidade Federal de São Carlos |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos (UFSCAR) instacron:UFSCAR |
| instname_str |
Universidade Federal de São Carlos (UFSCAR) |
| instacron_str |
UFSCAR |
| institution |
UFSCAR |
| reponame_str |
Repositório Institucional da UFSCAR |
| collection |
Repositório Institucional da UFSCAR |
| bitstream.url.fl_str_mv |
https://repositorio.ufscar.br/bitstreams/2c8d02d4-1c2c-4dfd-9991-49e48a4be9a0/download https://repositorio.ufscar.br/bitstreams/91ba881a-cb55-41c8-93d5-d8450c7447b0/download https://repositorio.ufscar.br/bitstreams/5bc3c6e7-8fd7-4c39-91f4-d8a517c0451d/download |
| bitstream.checksum.fl_str_mv |
fe08b552e37f04451248c376cfc4454f d41d8cd98f00b204e9800998ecf8427e 126b3720f9e16d53d09bca0fe34f391c |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR) |
| repository.mail.fl_str_mv |
repositorio.sibi@ufscar.br |
| _version_ |
1851688903531036672 |