Astrolábio: um corpus de redações escolares do Ceará anotado multidimensionalmente conforme a TEI P5

Detalhes bibliográficos
Ano de defesa: 2013
Autor(a) principal: Andrade, Katiuscia de Moraes
Orientador(a): Araripe, Leonel Figueiredo de Alencar
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: www.teses.ufc.br
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://www.repositorio.ufc.br/handle/riufc/8195
Resumo: ANDRADE, Katiuscia de Moraes. Astrolábio: um corpus de redações escolares do Ceará anotado multidimensionalmente conforme a TEI P5. 2013. 135f. – Dissertação (Mestrado) – Universidade Federal do Ceará, Departamento de Letras Vernáculas, Programa de Pós-graduação em Linguística, Fortaleza (CE), 2013.
id UFC-7_d8f0fa6cca4cff068d1e6f56cf915bc8
oai_identifier_str oai:repositorio.ufc.br:riufc/8195
network_acronym_str UFC-7
network_name_str Repositório Institucional da Universidade Federal do Ceará (UFC)
repository_id_str
spelling Andrade, Katiuscia de MoraesAraripe, Leonel Figueiredo de Alencar2014-06-04T18:32:21Z2014-06-04T18:32:21Z2013Andrade, K. M.; Araripe, L. F. A. (2013)http://www.repositorio.ufc.br/handle/riufc/8195ANDRADE, Katiuscia de Moraes. Astrolábio: um corpus de redações escolares do Ceará anotado multidimensionalmente conforme a TEI P5. 2013. 135f. – Dissertação (Mestrado) – Universidade Federal do Ceará, Departamento de Letras Vernáculas, Programa de Pós-graduação em Linguística, Fortaleza (CE), 2013.Astrolábio is a compiled corpus, with multidimensional annotation, and shared under Creative Commons Attribution-NonCommercial 3.0 Unported licence. It is a corpus, in Brazilian Portuguese, that uses advanced technologies to text processing and corpora annotation. Astrolábio has multidimensional annotation based on TEI P5 guidelines, that prescribes XML metalanguage. Through these guidelines, essential structures from the annotated documents were preserved, keeping the transcription as reliable as possible to the original. By using tag , it enabled keep, in the same archive, linguistic variation phenomena, orthographic and punctuation errors, as the respectives corrected and normalized forms, and also makes possible the visualization of added and deleted terms. To automatize the integration of many levels of annotation, Astro was used, it is a software that works with several Python modules to Natural Language Processing (NLP), including Aelius and Enchant. To POS tagging, Aelius, a package that uses Natural Language Toolkit (NLTK) libraries, was utilized. From Aelius, AeliusHunPosMacMorpho was chosen, it is a tagger based on HunPos and trained by MAC-Morpho, a corpus composed of journalistic texts. The 9spell checking was made by Enchant, a large library with API (Application Programming Interface) in C and C++ languages. The tagger chosen from inside training corpus MacMorpho,. Astrolábio's texts were produced during text production workshops from the second edition of Rota das Especiarias project, realized on first semester of 2012, with public school students from Camocim, Barroquinha e Jijoca de Jericoacoara, cities located in Ceará. Until this moment of Astrolábio's creation, concluded stages are texts selection, compilation and the first step of automatic annotation by Astro. Astrolábio corpus is already partially avaiable at Rota das Especiarias' website (www.rotadasespeciarias.art.br). Soon, the corpus will be submitted to University of Oxford Text Archive (OTA). As we observed from corpora scene of Portuguese, there's no corpus, in Brazilian Portuguese, with this level of annotation.Astrolábio é um corpus compilado, anotado multidimensionalmente e disponibilizado eletronicamente sob a licença Creative Commons Attribution-NonCommercial 3.0 Unported. Trata-se de um corpus, em Português brasileiro, que emprega avançadas tecnologias para o processamento de texto e anotação de corpora. Astrolábio possui anotação multidimensional baseada na codificação TEI P5, que prescreve o uso metalinguagem XML. Com o uso dessa codificação, preservaram-se características essenciais da estrutura e do conteúdo dos documentos anotados, tornando a transcrição o mais fiel possível ao original. Por meio do emprego da tag , foi possível reunir, em um mesmo arquivo, fenômenos de variação linguística, erros ortográficos e de pontuação, bem como as respectivas formas corrigidas e normalizadas, além de possibilitar a visualização de termos que foram acrescidos ou suprimidos. Para a integração automática dos vários níveis de anotação, utilizou-se o Astro, um software que utiliza diversos módulos em Python para o Processamento da Linguagem Natural (PLN), como o Aelius e o Enchant. Na etiquetagem morfossintática, utilizou-se o pacote Aelius, que, por sua vez, recorre à biblioteca Natural Language Toolkit (NLTK). O etiquetador escolhido, dentro do Aelius, foi o AeliusHunposMacMorpho, criado a partir do etiquetador Hunpos, treinado no corpus de textos jornalísticos MAC-Morpho. Efetivou-se a correção ortográfica com o Enchant, uma vasta biblioteca com API (Application Programming Interface) em linguagem C e C++. Os textos que compõem esse corpus foram produzidos durante as oficinas de produção textual da segunda edição do projeto Rota das Especiarias, realizadas no primeiro semestre de 2012, com alunos de escolas públicas das cidades cearenses de Camocim, Barroquinha e Jijoca de Jericoacoara. Até o presente momento da construção do Astrolábio, encontram-se concluídas as etapas de seleção, escanerização, compilação e a primeira fase de anotação automática dos textos por meio do Astro. O corpus Astrolábio já se encontra parcialmente disponível no sítio eletrônico Rota das Especiarias (www.rotadasespeciarias.art.br). Em breve, será submetido ao repositório eletrônico University of Oxford Text Archive (OTA). Pelo que se observou do panorama de corpora do Português, inexiste um corpus, em Português Brasileiro, com esse nível de anotação.www.teses.ufc.brComputacional linguisticsCorpus linguisticsLinguística de corpusLíngua portuguesa – Composição e exercíciosLíngua portuguesa – Correção de textosProsa escolar brasileira – CearáAstrolábio: um corpus de redações escolares do Ceará anotado multidimensionalmente conforme a TEI P5Astrolábio: a corpus of school writings of Ceará multi-dimensionally annotated according to TEI P5info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporreponame:Repositório Institucional da Universidade Federal do Ceará (UFC)instname:Universidade Federal do Ceará (UFC)instacron:UFCinfo:eu-repo/semantics/openAccessORIGINAL2013_dis_kmandrade.pdf2013_dis_kmandrade.pdfapplication/pdf3700205http://repositorio.ufc.br/bitstream/riufc/8195/1/2013_dis_kmandrade.pdf63ef4f0adb210b61d3433153f3b807f3MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81786http://repositorio.ufc.br/bitstream/riufc/8195/2/license.txt8c4401d3d14722a7ca2d07c782a1aab3MD52riufc/81952018-08-28 10:17:12.885oai:repositorio.ufc.br:riufc/8195w4kgbmVjZXNzw6FyaW8gY29uY29yZGFyIGNvbSBhIGxpY2Vuw6dhIGRlIGRpc3RyaWJ1acOnw6NvIG7Do28tZXhjbHVzaXZhLAphbnRlcyBxdWUgbyBkb2N1bWVudG8gcG9zc2EgYXBhcmVjZXIgbm8gUmVwb3NpdMOzcmlvLiBQb3IgZmF2b3IsIGxlaWEgYQpsaWNlbsOnYSBhdGVudGFtZW50ZS4gQ2FzbyBuZWNlc3NpdGUgZGUgYWxndW0gZXNjbGFyZWNpbWVudG8gZW50cmUgZW0KY29udGF0byBhdHJhdsOpcyBkZTogcmVwb3NpdG9yaW9AdWZjLmJyIG91ICg4NSkzMzY2LTk1MDguCgpMSUNFTsOHQSBERSBESVNUUklCVUnDh8ODTyBOw4NPLUVYQ0xVU0lWQQoKQW8gYXNzaW5hciBlIGVudHJlZ2FyIGVzdGEgbGljZW7Dp2EsIG8vYSBTci4vU3JhLiAoYXV0b3Igb3UgZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGRlIGF1dG9yKToKCmEpIENvbmNlZGUgw6AgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZG8gQ2VhcsOhIG8gZGlyZWl0byBuw6NvLWV4Y2x1c2l2byBkZQpyZXByb2R1emlyLCBjb252ZXJ0ZXIgKGNvbW8gZGVmaW5pZG8gYWJhaXhvKSwgY29tdW5pY2FyIGUvb3UKZGlzdHJpYnVpciBvIGRvY3VtZW50byBlbnRyZWd1ZSAoaW5jbHVpbmRvIG8gcmVzdW1vL2Fic3RyYWN0KSBlbQpmb3JtYXRvIGRpZ2l0YWwgb3UgaW1wcmVzc28gZSBlbSBxdWFscXVlciBtZWlvLgoKYikgRGVjbGFyYSBxdWUgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgc2V1IHRyYWJhbGhvIG9yaWdpbmFsLCBlIHF1ZQpkZXTDqW0gbyBkaXJlaXRvIGRlIGNvbmNlZGVyIG9zIGRpcmVpdG9zIGNvbnRpZG9zIG5lc3RhIGxpY2Vuw6dhLiBEZWNsYXJhIHRhbWLDqW0gcXVlIGEgZW50cmVnYSBkbyBkb2N1bWVudG8gbsOjbyBpbmZyaW5nZSwgdGFudG8gcXVhbnRvIGxoZSDDqSBwb3Nzw612ZWwgc2FiZXIsIG9zIGRpcmVpdG9zIGRlIHF1YWxxdWVyIG91dHJhIHBlc3NvYSBvdSBlbnRpZGFkZS4KCmMpIFNlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIGNvbnTDqW0gbWF0ZXJpYWwgZG8gcXVhbCBuw6NvIGRldMOpbSBvcwpkaXJlaXRvcyBkZSBhdXRvciwgZGVjbGFyYSBxdWUgb2J0ZXZlIGF1dG9yaXphw6fDo28gZG8gZGV0ZW50b3IgZG9zCmRpcmVpdG9zIGRlIGF1dG9yIHBhcmEgY29uY2VkZXIgw6AgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZG8gQ2VhcsOhIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgY3Vqb3MgZGlyZWl0b3Mgc8OjbyBkZSB0ZXJjZWlyb3MgZXN0w6EgY2xhcmFtZW50ZSBpZGVudGlmaWNhZG8gZSByZWNvbmhlY2lkbyBubyB0ZXh0byBvdSBjb250ZcO6ZG8gZG8gZG9jdW1lbnRvIGVudHJlZ3VlLgoKU2UgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgYmFzZWFkbyBlbSB0cmFiYWxobyBmaW5hbmNpYWRvIG91IGFwb2lhZG8KcG9yIG91dHJhIGluc3RpdHVpw6fDo28gcXVlIG7Do28gYSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkbyBDZWFyw6EsIGRlY2xhcmEgcXVlIGN1bXByaXUgcXVhaXNxdWVyIG9icmlnYcOnw7VlcyBleGlnaWRhcyBwZWxvIHJlc3BlY3Rpdm8gY29udHJhdG8gb3UKYWNvcmRvLgoKQSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkbyBDZWFyw6EgaWRlbnRpZmljYXLDoSBjbGFyYW1lbnRlIG8ocykgc2V1IChzKSBub21lIChzKSBjb21vIG8gKHMpIGF1dG9yIChlcykgb3UgZGV0ZW50b3IgKGVzKSBkb3MgZGlyZWl0b3MgZG8gZG9jdW1lbnRvIGVudHJlZ3VlLCBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIHBhcmEgYWzDqW0gZGFzIHBlcm1pdGlkYXMgcG9yIGVzdGEgbGljZW7Dp2EuCg==Repositório InstitucionalPUBhttp://www.repositorio.ufc.br/ri-oai/requestbu@ufc.br || repositorio@ufc.bropendoar:2018-08-28T13:17:12Repositório Institucional da Universidade Federal do Ceará (UFC) - Universidade Federal do Ceará (UFC)false
dc.title.pt_BR.fl_str_mv Astrolábio: um corpus de redações escolares do Ceará anotado multidimensionalmente conforme a TEI P5
dc.title.en.pt_BR.fl_str_mv Astrolábio: a corpus of school writings of Ceará multi-dimensionally annotated according to TEI P5
title Astrolábio: um corpus de redações escolares do Ceará anotado multidimensionalmente conforme a TEI P5
spellingShingle Astrolábio: um corpus de redações escolares do Ceará anotado multidimensionalmente conforme a TEI P5
Andrade, Katiuscia de Moraes
Computacional linguistics
Corpus linguistics
Linguística de corpus
Língua portuguesa – Composição e exercícios
Língua portuguesa – Correção de textos
Prosa escolar brasileira – Ceará
title_short Astrolábio: um corpus de redações escolares do Ceará anotado multidimensionalmente conforme a TEI P5
title_full Astrolábio: um corpus de redações escolares do Ceará anotado multidimensionalmente conforme a TEI P5
title_fullStr Astrolábio: um corpus de redações escolares do Ceará anotado multidimensionalmente conforme a TEI P5
title_full_unstemmed Astrolábio: um corpus de redações escolares do Ceará anotado multidimensionalmente conforme a TEI P5
title_sort Astrolábio: um corpus de redações escolares do Ceará anotado multidimensionalmente conforme a TEI P5
author Andrade, Katiuscia de Moraes
author_facet Andrade, Katiuscia de Moraes
author_role author
dc.contributor.author.fl_str_mv Andrade, Katiuscia de Moraes
dc.contributor.advisor1.fl_str_mv Araripe, Leonel Figueiredo de Alencar
contributor_str_mv Araripe, Leonel Figueiredo de Alencar
dc.subject.por.fl_str_mv Computacional linguistics
Corpus linguistics
Linguística de corpus
Língua portuguesa – Composição e exercícios
Língua portuguesa – Correção de textos
Prosa escolar brasileira – Ceará
topic Computacional linguistics
Corpus linguistics
Linguística de corpus
Língua portuguesa – Composição e exercícios
Língua portuguesa – Correção de textos
Prosa escolar brasileira – Ceará
description ANDRADE, Katiuscia de Moraes. Astrolábio: um corpus de redações escolares do Ceará anotado multidimensionalmente conforme a TEI P5. 2013. 135f. – Dissertação (Mestrado) – Universidade Federal do Ceará, Departamento de Letras Vernáculas, Programa de Pós-graduação em Linguística, Fortaleza (CE), 2013.
publishDate 2013
dc.date.issued.fl_str_mv 2013
dc.date.accessioned.fl_str_mv 2014-06-04T18:32:21Z
dc.date.available.fl_str_mv 2014-06-04T18:32:21Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv Andrade, K. M.; Araripe, L. F. A. (2013)
dc.identifier.uri.fl_str_mv http://www.repositorio.ufc.br/handle/riufc/8195
identifier_str_mv Andrade, K. M.; Araripe, L. F. A. (2013)
url http://www.repositorio.ufc.br/handle/riufc/8195
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv www.teses.ufc.br
publisher.none.fl_str_mv www.teses.ufc.br
dc.source.none.fl_str_mv reponame:Repositório Institucional da Universidade Federal do Ceará (UFC)
instname:Universidade Federal do Ceará (UFC)
instacron:UFC
instname_str Universidade Federal do Ceará (UFC)
instacron_str UFC
institution UFC
reponame_str Repositório Institucional da Universidade Federal do Ceará (UFC)
collection Repositório Institucional da Universidade Federal do Ceará (UFC)
bitstream.url.fl_str_mv http://repositorio.ufc.br/bitstream/riufc/8195/1/2013_dis_kmandrade.pdf
http://repositorio.ufc.br/bitstream/riufc/8195/2/license.txt
bitstream.checksum.fl_str_mv 63ef4f0adb210b61d3433153f3b807f3
8c4401d3d14722a7ca2d07c782a1aab3
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da Universidade Federal do Ceará (UFC) - Universidade Federal do Ceará (UFC)
repository.mail.fl_str_mv bu@ufc.br || repositorio@ufc.br
_version_ 1847793280946798592