On the application of focused crawling for statistical machine translation domain adaptation

Detalhes bibliográficos
Ano de defesa: 2015
Autor(a) principal: Laranjeira, Bruno Rezende
Orientador(a): Moreira, Viviane Pereira
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Link de acesso: http://hdl.handle.net/10183/117259
Resumo: O treinamento de sistemas de Tradução de Máquina baseada em Estatística (TME) é bastante dependente da disponibilidade de corpora paralelos. Entretanto, este tipo de recurso costuma ser difícil de ser encontrado, especialmente quando lida com idiomas com poucos recursos ou com tópicos muito específicos, como, por exemplo, dermatologia. Para contornar esta situação, uma possibilidade é utilizar corpora comparáveis, que são recursos muito mais abundantes. Um modo de adquirir corpora comparáveis é a aplicação de algoritmos de Coleta Focada (CF). Neste trabalho, são propostas novas abordagens para CF, algumas baseadas em n-gramas e outras no poder expressivo das expressões multipalavra. Também são avaliadas a viabilidade do uso de CF para realização de adaptação de domínio para sistemas genéricos de TME e se há alguma correlação entre a qualidade dos algoritmos de CF e dos sistemas de TME que podem ser construídos a partir dos respectivos dados coletados. Os resultados indicam que algoritmos de CF podem ser bons meios para adquirir corpora comparáveis para realizar adaptação de domínio para TME e que há uma correlação entre a qualidade dos dois processos.
id UFRGS-2_8089d0bcebba90209b2b8355b7c61148
oai_identifier_str oai:www.lume.ufrgs.br:10183/117259
network_acronym_str UFRGS-2
network_name_str Repositório Institucional da UFRGS
repository_id_str
spelling Laranjeira, Bruno RezendeMoreira, Viviane PereiraVillavicencio, Aline2015-05-28T01:59:04Z2015http://hdl.handle.net/10183/117259000967675O treinamento de sistemas de Tradução de Máquina baseada em Estatística (TME) é bastante dependente da disponibilidade de corpora paralelos. Entretanto, este tipo de recurso costuma ser difícil de ser encontrado, especialmente quando lida com idiomas com poucos recursos ou com tópicos muito específicos, como, por exemplo, dermatologia. Para contornar esta situação, uma possibilidade é utilizar corpora comparáveis, que são recursos muito mais abundantes. Um modo de adquirir corpora comparáveis é a aplicação de algoritmos de Coleta Focada (CF). Neste trabalho, são propostas novas abordagens para CF, algumas baseadas em n-gramas e outras no poder expressivo das expressões multipalavra. Também são avaliadas a viabilidade do uso de CF para realização de adaptação de domínio para sistemas genéricos de TME e se há alguma correlação entre a qualidade dos algoritmos de CF e dos sistemas de TME que podem ser construídos a partir dos respectivos dados coletados. Os resultados indicam que algoritmos de CF podem ser bons meios para adquirir corpora comparáveis para realizar adaptação de domínio para TME e que há uma correlação entre a qualidade dos dois processos.Statistical Machine Translation (SMT) is highly dependent on the availability of parallel corpora for training. However, these kinds of resource may be hard to be found, especially when dealing with under-resourced languages or very specific domains, like the dermatology. For working this situation around, one possibility is the use of comparable corpora, which are much more abundant resources. One way of acquiring comparable corpora is to apply Focused Crawling (FC) algorithms. In this work we propose novel approach for FC algorithms, some based on n-grams and other on the expressive power of multiword expressions. We also assess the viability of using FC for performing domain adaptations for generic SMT systems and whether there is a correlation between the quality of the FC algorithms and of the SMT systems that can be built with its collected data. Results indicate that the use of FCs is, indeed, a good way for acquiring comparable corpora for SMT domain adaptation and that there is a correlation between the qualities of both processes.application/pdfengLinguística computacionalEstatística aplicadaFocused crawlingStatistical machine translationDomain adaptationComparable corporaOn the application of focused crawling for statistical machine translation domain adaptationinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2015mestradoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000967675.pdf000967675.pdfTexto completo (inglês)application/pdf1692820http://www.lume.ufrgs.br/bitstream/10183/117259/1/000967675.pdfa84b09ff6f8a3760f5a12962ff0a9359MD51TEXT000967675.pdf.txt000967675.pdf.txtExtracted Texttext/plain164684http://www.lume.ufrgs.br/bitstream/10183/117259/2/000967675.pdf.txt9944b463460905a10ae93f780cd44413MD52THUMBNAIL000967675.pdf.jpg000967675.pdf.jpgGenerated Thumbnailimage/jpeg1108http://www.lume.ufrgs.br/bitstream/10183/117259/3/000967675.pdf.jpg4adc8f4a43619ea51733c81f0cf89dafMD5310183/1172592021-05-26 04:42:13.553031oai:www.lume.ufrgs.br:10183/117259Repositório InstitucionalPUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.bropendoar:2021-05-26T07:42:13Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv On the application of focused crawling for statistical machine translation domain adaptation
title On the application of focused crawling for statistical machine translation domain adaptation
spellingShingle On the application of focused crawling for statistical machine translation domain adaptation
Laranjeira, Bruno Rezende
Linguística computacional
Estatística aplicada
Focused crawling
Statistical machine translation
Domain adaptation
Comparable corpora
title_short On the application of focused crawling for statistical machine translation domain adaptation
title_full On the application of focused crawling for statistical machine translation domain adaptation
title_fullStr On the application of focused crawling for statistical machine translation domain adaptation
title_full_unstemmed On the application of focused crawling for statistical machine translation domain adaptation
title_sort On the application of focused crawling for statistical machine translation domain adaptation
author Laranjeira, Bruno Rezende
author_facet Laranjeira, Bruno Rezende
author_role author
dc.contributor.author.fl_str_mv Laranjeira, Bruno Rezende
dc.contributor.advisor1.fl_str_mv Moreira, Viviane Pereira
dc.contributor.advisor-co1.fl_str_mv Villavicencio, Aline
contributor_str_mv Moreira, Viviane Pereira
Villavicencio, Aline
dc.subject.por.fl_str_mv Linguística computacional
Estatística aplicada
topic Linguística computacional
Estatística aplicada
Focused crawling
Statistical machine translation
Domain adaptation
Comparable corpora
dc.subject.eng.fl_str_mv Focused crawling
Statistical machine translation
Domain adaptation
Comparable corpora
description O treinamento de sistemas de Tradução de Máquina baseada em Estatística (TME) é bastante dependente da disponibilidade de corpora paralelos. Entretanto, este tipo de recurso costuma ser difícil de ser encontrado, especialmente quando lida com idiomas com poucos recursos ou com tópicos muito específicos, como, por exemplo, dermatologia. Para contornar esta situação, uma possibilidade é utilizar corpora comparáveis, que são recursos muito mais abundantes. Um modo de adquirir corpora comparáveis é a aplicação de algoritmos de Coleta Focada (CF). Neste trabalho, são propostas novas abordagens para CF, algumas baseadas em n-gramas e outras no poder expressivo das expressões multipalavra. Também são avaliadas a viabilidade do uso de CF para realização de adaptação de domínio para sistemas genéricos de TME e se há alguma correlação entre a qualidade dos algoritmos de CF e dos sistemas de TME que podem ser construídos a partir dos respectivos dados coletados. Os resultados indicam que algoritmos de CF podem ser bons meios para adquirir corpora comparáveis para realizar adaptação de domínio para TME e que há uma correlação entre a qualidade dos dois processos.
publishDate 2015
dc.date.accessioned.fl_str_mv 2015-05-28T01:59:04Z
dc.date.issued.fl_str_mv 2015
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/117259
dc.identifier.nrb.pt_BR.fl_str_mv 000967675
url http://hdl.handle.net/10183/117259
identifier_str_mv 000967675
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Repositório Institucional da UFRGS
collection Repositório Institucional da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/117259/1/000967675.pdf
http://www.lume.ufrgs.br/bitstream/10183/117259/2/000967675.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/117259/3/000967675.pdf.jpg
bitstream.checksum.fl_str_mv a84b09ff6f8a3760f5a12962ff0a9359
9944b463460905a10ae93f780cd44413
4adc8f4a43619ea51733c81f0cf89daf
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br
_version_ 1864542358472753152