On the application of focused crawling for statistical machine translation domain adaptation
| Ano de defesa: | 2015 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | eng |
| Instituição de defesa: |
Não Informado pela instituição
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Palavras-chave em Inglês: | |
| Link de acesso: | http://hdl.handle.net/10183/117259 |
Resumo: | O treinamento de sistemas de Tradução de Máquina baseada em Estatística (TME) é bastante dependente da disponibilidade de corpora paralelos. Entretanto, este tipo de recurso costuma ser difícil de ser encontrado, especialmente quando lida com idiomas com poucos recursos ou com tópicos muito específicos, como, por exemplo, dermatologia. Para contornar esta situação, uma possibilidade é utilizar corpora comparáveis, que são recursos muito mais abundantes. Um modo de adquirir corpora comparáveis é a aplicação de algoritmos de Coleta Focada (CF). Neste trabalho, são propostas novas abordagens para CF, algumas baseadas em n-gramas e outras no poder expressivo das expressões multipalavra. Também são avaliadas a viabilidade do uso de CF para realização de adaptação de domínio para sistemas genéricos de TME e se há alguma correlação entre a qualidade dos algoritmos de CF e dos sistemas de TME que podem ser construídos a partir dos respectivos dados coletados. Os resultados indicam que algoritmos de CF podem ser bons meios para adquirir corpora comparáveis para realizar adaptação de domínio para TME e que há uma correlação entre a qualidade dos dois processos. |
| id |
URGS_8089d0bcebba90209b2b8355b7c61148 |
|---|---|
| oai_identifier_str |
oai:www.lume.ufrgs.br:10183/117259 |
| network_acronym_str |
URGS |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
| repository_id_str |
|
| spelling |
Laranjeira, Bruno RezendeMoreira, Viviane PereiraVillavicencio, Aline2015-05-28T01:59:04Z2015http://hdl.handle.net/10183/117259000967675O treinamento de sistemas de Tradução de Máquina baseada em Estatística (TME) é bastante dependente da disponibilidade de corpora paralelos. Entretanto, este tipo de recurso costuma ser difícil de ser encontrado, especialmente quando lida com idiomas com poucos recursos ou com tópicos muito específicos, como, por exemplo, dermatologia. Para contornar esta situação, uma possibilidade é utilizar corpora comparáveis, que são recursos muito mais abundantes. Um modo de adquirir corpora comparáveis é a aplicação de algoritmos de Coleta Focada (CF). Neste trabalho, são propostas novas abordagens para CF, algumas baseadas em n-gramas e outras no poder expressivo das expressões multipalavra. Também são avaliadas a viabilidade do uso de CF para realização de adaptação de domínio para sistemas genéricos de TME e se há alguma correlação entre a qualidade dos algoritmos de CF e dos sistemas de TME que podem ser construídos a partir dos respectivos dados coletados. Os resultados indicam que algoritmos de CF podem ser bons meios para adquirir corpora comparáveis para realizar adaptação de domínio para TME e que há uma correlação entre a qualidade dos dois processos.Statistical Machine Translation (SMT) is highly dependent on the availability of parallel corpora for training. However, these kinds of resource may be hard to be found, especially when dealing with under-resourced languages or very specific domains, like the dermatology. For working this situation around, one possibility is the use of comparable corpora, which are much more abundant resources. One way of acquiring comparable corpora is to apply Focused Crawling (FC) algorithms. In this work we propose novel approach for FC algorithms, some based on n-grams and other on the expressive power of multiword expressions. We also assess the viability of using FC for performing domain adaptations for generic SMT systems and whether there is a correlation between the quality of the FC algorithms and of the SMT systems that can be built with its collected data. Results indicate that the use of FCs is, indeed, a good way for acquiring comparable corpora for SMT domain adaptation and that there is a correlation between the qualities of both processes.application/pdfengLinguística computacionalEstatística aplicadaFocused crawlingStatistical machine translationDomain adaptationComparable corporaOn the application of focused crawling for statistical machine translation domain adaptationinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2015mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000967675.pdf000967675.pdfTexto completo (inglês)application/pdf1692820http://www.lume.ufrgs.br/bitstream/10183/117259/1/000967675.pdfa84b09ff6f8a3760f5a12962ff0a9359MD51TEXT000967675.pdf.txt000967675.pdf.txtExtracted Texttext/plain164684http://www.lume.ufrgs.br/bitstream/10183/117259/2/000967675.pdf.txt9944b463460905a10ae93f780cd44413MD52THUMBNAIL000967675.pdf.jpg000967675.pdf.jpgGenerated Thumbnailimage/jpeg1108http://www.lume.ufrgs.br/bitstream/10183/117259/3/000967675.pdf.jpg4adc8f4a43619ea51733c81f0cf89dafMD5310183/1172592021-05-26 04:42:13.553031oai:www.lume.ufrgs.br:10183/117259Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532021-05-26T07:42:13Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
| dc.title.pt_BR.fl_str_mv |
On the application of focused crawling for statistical machine translation domain adaptation |
| title |
On the application of focused crawling for statistical machine translation domain adaptation |
| spellingShingle |
On the application of focused crawling for statistical machine translation domain adaptation Laranjeira, Bruno Rezende Linguística computacional Estatística aplicada Focused crawling Statistical machine translation Domain adaptation Comparable corpora |
| title_short |
On the application of focused crawling for statistical machine translation domain adaptation |
| title_full |
On the application of focused crawling for statistical machine translation domain adaptation |
| title_fullStr |
On the application of focused crawling for statistical machine translation domain adaptation |
| title_full_unstemmed |
On the application of focused crawling for statistical machine translation domain adaptation |
| title_sort |
On the application of focused crawling for statistical machine translation domain adaptation |
| author |
Laranjeira, Bruno Rezende |
| author_facet |
Laranjeira, Bruno Rezende |
| author_role |
author |
| dc.contributor.author.fl_str_mv |
Laranjeira, Bruno Rezende |
| dc.contributor.advisor1.fl_str_mv |
Moreira, Viviane Pereira |
| dc.contributor.advisor-co1.fl_str_mv |
Villavicencio, Aline |
| contributor_str_mv |
Moreira, Viviane Pereira Villavicencio, Aline |
| dc.subject.por.fl_str_mv |
Linguística computacional Estatística aplicada |
| topic |
Linguística computacional Estatística aplicada Focused crawling Statistical machine translation Domain adaptation Comparable corpora |
| dc.subject.eng.fl_str_mv |
Focused crawling Statistical machine translation Domain adaptation Comparable corpora |
| description |
O treinamento de sistemas de Tradução de Máquina baseada em Estatística (TME) é bastante dependente da disponibilidade de corpora paralelos. Entretanto, este tipo de recurso costuma ser difícil de ser encontrado, especialmente quando lida com idiomas com poucos recursos ou com tópicos muito específicos, como, por exemplo, dermatologia. Para contornar esta situação, uma possibilidade é utilizar corpora comparáveis, que são recursos muito mais abundantes. Um modo de adquirir corpora comparáveis é a aplicação de algoritmos de Coleta Focada (CF). Neste trabalho, são propostas novas abordagens para CF, algumas baseadas em n-gramas e outras no poder expressivo das expressões multipalavra. Também são avaliadas a viabilidade do uso de CF para realização de adaptação de domínio para sistemas genéricos de TME e se há alguma correlação entre a qualidade dos algoritmos de CF e dos sistemas de TME que podem ser construídos a partir dos respectivos dados coletados. Os resultados indicam que algoritmos de CF podem ser bons meios para adquirir corpora comparáveis para realizar adaptação de domínio para TME e que há uma correlação entre a qualidade dos dois processos. |
| publishDate |
2015 |
| dc.date.accessioned.fl_str_mv |
2015-05-28T01:59:04Z |
| dc.date.issued.fl_str_mv |
2015 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/117259 |
| dc.identifier.nrb.pt_BR.fl_str_mv |
000967675 |
| url |
http://hdl.handle.net/10183/117259 |
| identifier_str_mv |
000967675 |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
| instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
| instacron_str |
UFRGS |
| institution |
UFRGS |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
| collection |
Biblioteca Digital de Teses e Dissertações da UFRGS |
| bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/117259/1/000967675.pdf http://www.lume.ufrgs.br/bitstream/10183/117259/2/000967675.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/117259/3/000967675.pdf.jpg |
| bitstream.checksum.fl_str_mv |
a84b09ff6f8a3760f5a12962ff0a9359 9944b463460905a10ae93f780cd44413 4adc8f4a43619ea51733c81f0cf89daf |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
| repository.mail.fl_str_mv |
lume@ufrgs.br||lume@ufrgs.br |
| _version_ |
1831315966511808512 |