On the application of focused crawling for statistical machine translation domain adaptation

Laranjeira, Bruno Rezende

On the application of focused crawling for statistical machine translation domain adaptation

Detalhes bibliográficos
Ano de defesa:	2015
Autor(a) principal:	Laranjeira, Bruno Rezende
Orientador(a):	Moreira, Viviane Pereira
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	eng
Instituição de defesa:	Não Informado pela instituição
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Linguística computacional Estatística aplicada
Palavras-chave em Inglês:	Focused crawling Statistical machine translation Domain adaptation Comparable corpora
Link de acesso:	http://hdl.handle.net/10183/117259
Resumo:	O treinamento de sistemas de Tradução de Máquina baseada em Estatística (TME) é bastante dependente da disponibilidade de corpora paralelos. Entretanto, este tipo de recurso costuma ser difícil de ser encontrado, especialmente quando lida com idiomas com poucos recursos ou com tópicos muito específicos, como, por exemplo, dermatologia. Para contornar esta situação, uma possibilidade é utilizar corpora comparáveis, que são recursos muito mais abundantes. Um modo de adquirir corpora comparáveis é a aplicação de algoritmos de Coleta Focada (CF). Neste trabalho, são propostas novas abordagens para CF, algumas baseadas em n-gramas e outras no poder expressivo das expressões multipalavra. Também são avaliadas a viabilidade do uso de CF para realização de adaptação de domínio para sistemas genéricos de TME e se há alguma correlação entre a qualidade dos algoritmos de CF e dos sistemas de TME que podem ser construídos a partir dos respectivos dados coletados. Os resultados indicam que algoritmos de CF podem ser bons meios para adquirir corpora comparáveis para realizar adaptação de domínio para TME e que há uma correlação entre a qualidade dos dois processos.

Metadados do item

id	UFRGS-2_8089d0bcebba90209b2b8355b7c61148
oai_identifier_str	oai:www.lume.ufrgs.br:10183/117259
network_acronym_str	UFRGS-2
network_name_str	Repositório Institucional da UFRGS
repository_id_str
spelling	Laranjeira, Bruno RezendeMoreira, Viviane PereiraVillavicencio, Aline2015-05-28T01:59:04Z2015http://hdl.handle.net/10183/117259000967675O treinamento de sistemas de Tradução de Máquina baseada em Estatística (TME) é bastante dependente da disponibilidade de corpora paralelos. Entretanto, este tipo de recurso costuma ser difícil de ser encontrado, especialmente quando lida com idiomas com poucos recursos ou com tópicos muito específicos, como, por exemplo, dermatologia. Para contornar esta situação, uma possibilidade é utilizar corpora comparáveis, que são recursos muito mais abundantes. Um modo de adquirir corpora comparáveis é a aplicação de algoritmos de Coleta Focada (CF). Neste trabalho, são propostas novas abordagens para CF, algumas baseadas em n-gramas e outras no poder expressivo das expressões multipalavra. Também são avaliadas a viabilidade do uso de CF para realização de adaptação de domínio para sistemas genéricos de TME e se há alguma correlação entre a qualidade dos algoritmos de CF e dos sistemas de TME que podem ser construídos a partir dos respectivos dados coletados. Os resultados indicam que algoritmos de CF podem ser bons meios para adquirir corpora comparáveis para realizar adaptação de domínio para TME e que há uma correlação entre a qualidade dos dois processos.Statistical Machine Translation (SMT) is highly dependent on the availability of parallel corpora for training. However, these kinds of resource may be hard to be found, especially when dealing with under-resourced languages or very specific domains, like the dermatology. For working this situation around, one possibility is the use of comparable corpora, which are much more abundant resources. One way of acquiring comparable corpora is to apply Focused Crawling (FC) algorithms. In this work we propose novel approach for FC algorithms, some based on n-grams and other on the expressive power of multiword expressions. We also assess the viability of using FC for performing domain adaptations for generic SMT systems and whether there is a correlation between the quality of the FC algorithms and of the SMT systems that can be built with its collected data. Results indicate that the use of FCs is, indeed, a good way for acquiring comparable corpora for SMT domain adaptation and that there is a correlation between the qualities of both processes.application/pdfengLinguística computacionalEstatística aplicadaFocused crawlingStatistical machine translationDomain adaptationComparable corporaOn the application of focused crawling for statistical machine translation domain adaptationinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2015mestradoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000967675.pdf000967675.pdfTexto completo (inglês)application/pdf1692820http://www.lume.ufrgs.br/bitstream/10183/117259/1/000967675.pdfa84b09ff6f8a3760f5a12962ff0a9359MD51TEXT000967675.pdf.txt000967675.pdf.txtExtracted Texttext/plain164684http://www.lume.ufrgs.br/bitstream/10183/117259/2/000967675.pdf.txt9944b463460905a10ae93f780cd44413MD52THUMBNAIL000967675.pdf.jpg000967675.pdf.jpgGenerated Thumbnailimage/jpeg1108http://www.lume.ufrgs.br/bitstream/10183/117259/3/000967675.pdf.jpg4adc8f4a43619ea51733c81f0cf89dafMD5310183/1172592021-05-26 04:42:13.553031oai:www.lume.ufrgs.br:10183/117259Repositório InstitucionalPUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.bropendoar:2021-05-26T07:42:13Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	On the application of focused crawling for statistical machine translation domain adaptation
title	On the application of focused crawling for statistical machine translation domain adaptation
spellingShingle	On the application of focused crawling for statistical machine translation domain adaptation Laranjeira, Bruno Rezende Linguística computacional Estatística aplicada Focused crawling Statistical machine translation Domain adaptation Comparable corpora
title_short	On the application of focused crawling for statistical machine translation domain adaptation
title_full	On the application of focused crawling for statistical machine translation domain adaptation
title_fullStr	On the application of focused crawling for statistical machine translation domain adaptation
title_full_unstemmed	On the application of focused crawling for statistical machine translation domain adaptation
title_sort	On the application of focused crawling for statistical machine translation domain adaptation
author	Laranjeira, Bruno Rezende
author_facet	Laranjeira, Bruno Rezende
author_role	author
dc.contributor.author.fl_str_mv	Laranjeira, Bruno Rezende
dc.contributor.advisor1.fl_str_mv	Moreira, Viviane Pereira
dc.contributor.advisor-co1.fl_str_mv	Villavicencio, Aline
contributor_str_mv	Moreira, Viviane Pereira Villavicencio, Aline
dc.subject.por.fl_str_mv	Linguística computacional Estatística aplicada
topic	Linguística computacional Estatística aplicada Focused crawling Statistical machine translation Domain adaptation Comparable corpora
dc.subject.eng.fl_str_mv	Focused crawling Statistical machine translation Domain adaptation Comparable corpora
description	O treinamento de sistemas de Tradução de Máquina baseada em Estatística (TME) é bastante dependente da disponibilidade de corpora paralelos. Entretanto, este tipo de recurso costuma ser difícil de ser encontrado, especialmente quando lida com idiomas com poucos recursos ou com tópicos muito específicos, como, por exemplo, dermatologia. Para contornar esta situação, uma possibilidade é utilizar corpora comparáveis, que são recursos muito mais abundantes. Um modo de adquirir corpora comparáveis é a aplicação de algoritmos de Coleta Focada (CF). Neste trabalho, são propostas novas abordagens para CF, algumas baseadas em n-gramas e outras no poder expressivo das expressões multipalavra. Também são avaliadas a viabilidade do uso de CF para realização de adaptação de domínio para sistemas genéricos de TME e se há alguma correlação entre a qualidade dos algoritmos de CF e dos sistemas de TME que podem ser construídos a partir dos respectivos dados coletados. Os resultados indicam que algoritmos de CF podem ser bons meios para adquirir corpora comparáveis para realizar adaptação de domínio para TME e que há uma correlação entre a qualidade dos dois processos.
publishDate	2015
dc.date.accessioned.fl_str_mv	2015-05-28T01:59:04Z
dc.date.issued.fl_str_mv	2015
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/117259
dc.identifier.nrb.pt_BR.fl_str_mv	000967675
url	http://hdl.handle.net/10183/117259
identifier_str_mv	000967675
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Repositório Institucional da UFRGS
collection	Repositório Institucional da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/117259/1/000967675.pdf http://www.lume.ufrgs.br/bitstream/10183/117259/2/000967675.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/117259/3/000967675.pdf.jpg
bitstream.checksum.fl_str_mv	a84b09ff6f8a3760f5a12962ff0a9359 9944b463460905a10ae93f780cd44413 4adc8f4a43619ea51733c81f0cf89daf
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv	lume@ufrgs.br
_version_	1864542358472753152

On the application of focused crawling for statistical machine translation domain adaptation

Registros relacionados