Machine Translation for the biomedical domain, corpora acquisition and translation experiments

Detalhes bibliográficos
Ano de defesa: 2019
Autor(a) principal: Soares, Felipe
Orientador(a): Becker, Karin
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Link de acesso: http://hdl.handle.net/10183/199624
Resumo: A disponibilidade de documentos biomédicos em mais de um idioma (por exemplo, não apenas em inglês) pode ampliar o acesso à informação e ajudar os pacientes e profissionais a se manterem atualizados sobre os recentes avanços na biomedicina. Neste trabalho, estamos interessados em usar a tradução automática para traduzir textos científicos biomédicos em espanhol e português para o inglês, e vice-versa. Também apresentamos o desenvolvimento de três corpora paralelos para textos científicos no domínio biomédico em inglês, português e espanhol. Nossos corpora desenvolvidos são maiores que os já disponíveis para este domínio e idiomas. Com relação aos experimentos de tradução, para criar nossos dados de treinamento, concatenamos vários corpora paralelos, tanto de fontes de domínio, quanto fora do domínio, bem como recursos terminológicos do UMLS. Nós validamos nossas abordagens participando da shared task de tradução biomédica da conferênciaWMT. Nossos sistemas são baseados em tradução automática estatística e tradução automática neural, e foram desenvolvidos usando os toolkits Moses e OpenNMT, respectivamente. Participamos de quatro direções de tradução para os pares de idiomas inglês/espanhol e inglês/português. Nossos sistemas alcançaram as melhores pontuações BLEU de acordo com a avaliação oficial da shared task.
id UFRGS-2_2f236e889607867d8a69d215d5a48a3d
oai_identifier_str oai:www.lume.ufrgs.br:10183/199624
network_acronym_str UFRGS-2
network_name_str Repositório Institucional da UFRGS
repository_id_str
spelling Soares, FelipeBecker, Karin2019-09-20T03:48:49Z2019http://hdl.handle.net/10183/199624001101262A disponibilidade de documentos biomédicos em mais de um idioma (por exemplo, não apenas em inglês) pode ampliar o acesso à informação e ajudar os pacientes e profissionais a se manterem atualizados sobre os recentes avanços na biomedicina. Neste trabalho, estamos interessados em usar a tradução automática para traduzir textos científicos biomédicos em espanhol e português para o inglês, e vice-versa. Também apresentamos o desenvolvimento de três corpora paralelos para textos científicos no domínio biomédico em inglês, português e espanhol. Nossos corpora desenvolvidos são maiores que os já disponíveis para este domínio e idiomas. Com relação aos experimentos de tradução, para criar nossos dados de treinamento, concatenamos vários corpora paralelos, tanto de fontes de domínio, quanto fora do domínio, bem como recursos terminológicos do UMLS. Nós validamos nossas abordagens participando da shared task de tradução biomédica da conferênciaWMT. Nossos sistemas são baseados em tradução automática estatística e tradução automática neural, e foram desenvolvidos usando os toolkits Moses e OpenNMT, respectivamente. Participamos de quatro direções de tradução para os pares de idiomas inglês/espanhol e inglês/português. Nossos sistemas alcançaram as melhores pontuações BLEU de acordo com a avaliação oficial da shared task.Availability of biomedical documents in more than one language (e.g. not just in English) can broader the access to information and help patients and practitioners to keep up to date with the recent advances in biomedicine. In this work, we are interested in using machine translation to translate Spanish and Portuguese biomedical scientific texts to English, and vice-versa. We also present the development of three parallel corpora for scientific texts in the biomedical domain in English, Portuguese and Spanish. Our developed corpora are larger than the already available ones for this domain and languages. Regarding translation experiments, to create our training data, we concatenated several parallel corpora, both from in-domain and out-of-domain sources, as well as terminological resources from UMLS.We validated our approaches by participating in the biomedical translation track of the shared task at WMT conference. Our systems are based on statistical machine translation and neural machine translation, using the Moses and OpenNMT toolkits, respectively. We carried out experiments in four translation directions for the English/Spanish and English/Portuguese language pairs. Our systems achieved the best BLEU scores according to the official shared task evaluation.application/pdfengInformatica : MedicinaAprendizado : máquinaScientific textsBiomedical domainCorpora acquisitionMachine Translation for the biomedical domain, corpora acquisition and translation experimentsTradução automática para o domínio biomédico: aquisição de corpora e experimentos de tradução info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2019mestradoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001101262.pdf.txt001101262.pdf.txtExtracted Texttext/plain122603http://www.lume.ufrgs.br/bitstream/10183/199624/2/001101262.pdf.txt9c78ae4087ae8361db8da1b07b9ec687MD52ORIGINAL001101262.pdfTexto completo (inglês)application/pdf769396http://www.lume.ufrgs.br/bitstream/10183/199624/1/001101262.pdf2d4175e509df6f4f9b7989512c0bdbfbMD5110183/1996242019-09-21 03:42:20.785263oai:www.lume.ufrgs.br:10183/199624Repositório InstitucionalPUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.bropendoar:2019-09-21T06:42:20Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Machine Translation for the biomedical domain, corpora acquisition and translation experiments
dc.title.alternative.en.fl_str_mv Tradução automática para o domínio biomédico: aquisição de corpora e experimentos de tradução
title Machine Translation for the biomedical domain, corpora acquisition and translation experiments
spellingShingle Machine Translation for the biomedical domain, corpora acquisition and translation experiments
Soares, Felipe
Informatica : Medicina
Aprendizado : máquina
Scientific texts
Biomedical domain
Corpora acquisition
title_short Machine Translation for the biomedical domain, corpora acquisition and translation experiments
title_full Machine Translation for the biomedical domain, corpora acquisition and translation experiments
title_fullStr Machine Translation for the biomedical domain, corpora acquisition and translation experiments
title_full_unstemmed Machine Translation for the biomedical domain, corpora acquisition and translation experiments
title_sort Machine Translation for the biomedical domain, corpora acquisition and translation experiments
author Soares, Felipe
author_facet Soares, Felipe
author_role author
dc.contributor.author.fl_str_mv Soares, Felipe
dc.contributor.advisor1.fl_str_mv Becker, Karin
contributor_str_mv Becker, Karin
dc.subject.por.fl_str_mv Informatica : Medicina
Aprendizado : máquina
topic Informatica : Medicina
Aprendizado : máquina
Scientific texts
Biomedical domain
Corpora acquisition
dc.subject.eng.fl_str_mv Scientific texts
Biomedical domain
Corpora acquisition
description A disponibilidade de documentos biomédicos em mais de um idioma (por exemplo, não apenas em inglês) pode ampliar o acesso à informação e ajudar os pacientes e profissionais a se manterem atualizados sobre os recentes avanços na biomedicina. Neste trabalho, estamos interessados em usar a tradução automática para traduzir textos científicos biomédicos em espanhol e português para o inglês, e vice-versa. Também apresentamos o desenvolvimento de três corpora paralelos para textos científicos no domínio biomédico em inglês, português e espanhol. Nossos corpora desenvolvidos são maiores que os já disponíveis para este domínio e idiomas. Com relação aos experimentos de tradução, para criar nossos dados de treinamento, concatenamos vários corpora paralelos, tanto de fontes de domínio, quanto fora do domínio, bem como recursos terminológicos do UMLS. Nós validamos nossas abordagens participando da shared task de tradução biomédica da conferênciaWMT. Nossos sistemas são baseados em tradução automática estatística e tradução automática neural, e foram desenvolvidos usando os toolkits Moses e OpenNMT, respectivamente. Participamos de quatro direções de tradução para os pares de idiomas inglês/espanhol e inglês/português. Nossos sistemas alcançaram as melhores pontuações BLEU de acordo com a avaliação oficial da shared task.
publishDate 2019
dc.date.accessioned.fl_str_mv 2019-09-20T03:48:49Z
dc.date.issued.fl_str_mv 2019
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/199624
dc.identifier.nrb.pt_BR.fl_str_mv 001101262
url http://hdl.handle.net/10183/199624
identifier_str_mv 001101262
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Repositório Institucional da UFRGS
collection Repositório Institucional da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/199624/2/001101262.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/199624/1/001101262.pdf
bitstream.checksum.fl_str_mv 9c78ae4087ae8361db8da1b07b9ec687
2d4175e509df6f4f9b7989512c0bdbfb
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br
_version_ 1864542650978271232