Expanding the open Wordnets for english and portuguese to geology domain: inclusion of lythology and geological time concepts
| Ano de defesa: | 2020 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | eng |
| Instituição de defesa: |
Não Informado pela instituição
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Inglês: | |
| Link de acesso: | https://hdl.handle.net/10438/29846 |
Resumo: | O conhecimento humano tem sido armazenado, transferido e crescido através de meios escritos. A habilidade humana de acessar essa fonte de conhecimento é notadamente a principal razão pela qual conseguimos avançar o nosso entendimento coletivo ao longo de milênios. Há cerca de 25 anos as nossas tecnologias para coletar, armazenar e disseminar vastas quantidades de informação superaram as nossas tecnologias para agrupar e analisar tais dados. O Processamento de Linguagem Natural (NLP, na sigla em inglês) aborda esta questão. O dia a dia já é beneficiado pelo NLP, com aplicações que vão de filtros de spam a chatbots (ainda que limitados) e assistentes pessoais de inteligência artificial via comandos de voz. Todavia, no que tange à linguagem técnica, o NLP ainda possui deficiências. Isto é particularmente verdadeiro para o domínio de Óleo & Gás, no qual informação é o recurso mais precioso, base para decisões envolvendo bilhões de dólares. Ainda que existam inúmeros relatórios, artigos científicos, documentos e afins, tal conhecimento permanece inalcançável devido a limitações de NLP aplicado a domínio. É nossa hipótese que a expansão de um recurso léxico, a WordNet, terá efeito escalável particularmente em desambiguação de palavras (WSD, Word Sense Disambiguation) e para o NLP como um todo em documentos de Óleo e Gás. Para verificar esta hipótese, estendemos a WordNet com 377 novos conceitos (synsets), 558 novas formas lexicais (palavras) e 948 novas relações envolvendo tais synsets e palavras. Tal extensão foca em duas das referências mais comumente mencionadas em documentos de Óleo & Gás: Tempo Geológico e Litologia (ramo da geologia dedicado ao estudo de rochas). Nós fazemos tal extensão da WordNet tanto “verticalmente” a partir da Princeton WordNet original na Open WordNet for English (OWN-EN) como “horizontalmente” através da tradução e adaptação de tais esforços para a Open WordNet for Portuguese (OWN-PT). Por fim comparamos a saída do UKB (algoritimo de WSD) antes e depois de tal extensão. Ambas as WordNets (parta inglês e para português) estão disponíveis online como iniciativas open-source. |
| id |
FGV_4f38deeb9a07365fc8e220e42dc46184 |
|---|---|
| oai_identifier_str |
oai:repositorio.fgv.br:10438/29846 |
| network_acronym_str |
FGV |
| network_name_str |
Repositório Institucional do FGV (FGV Repositório Digital) |
| repository_id_str |
|
| spelling |
Tessarollo, AlexandreEscolas::EMApAbel, MaraBond, Francis CharlesRademaker, Alexandre2020-11-18T21:53:17Z2020-11-18T21:53:17Z2020-09-30https://hdl.handle.net/10438/29846O conhecimento humano tem sido armazenado, transferido e crescido através de meios escritos. A habilidade humana de acessar essa fonte de conhecimento é notadamente a principal razão pela qual conseguimos avançar o nosso entendimento coletivo ao longo de milênios. Há cerca de 25 anos as nossas tecnologias para coletar, armazenar e disseminar vastas quantidades de informação superaram as nossas tecnologias para agrupar e analisar tais dados. O Processamento de Linguagem Natural (NLP, na sigla em inglês) aborda esta questão. O dia a dia já é beneficiado pelo NLP, com aplicações que vão de filtros de spam a chatbots (ainda que limitados) e assistentes pessoais de inteligência artificial via comandos de voz. Todavia, no que tange à linguagem técnica, o NLP ainda possui deficiências. Isto é particularmente verdadeiro para o domínio de Óleo & Gás, no qual informação é o recurso mais precioso, base para decisões envolvendo bilhões de dólares. Ainda que existam inúmeros relatórios, artigos científicos, documentos e afins, tal conhecimento permanece inalcançável devido a limitações de NLP aplicado a domínio. É nossa hipótese que a expansão de um recurso léxico, a WordNet, terá efeito escalável particularmente em desambiguação de palavras (WSD, Word Sense Disambiguation) e para o NLP como um todo em documentos de Óleo e Gás. Para verificar esta hipótese, estendemos a WordNet com 377 novos conceitos (synsets), 558 novas formas lexicais (palavras) e 948 novas relações envolvendo tais synsets e palavras. Tal extensão foca em duas das referências mais comumente mencionadas em documentos de Óleo & Gás: Tempo Geológico e Litologia (ramo da geologia dedicado ao estudo de rochas). Nós fazemos tal extensão da WordNet tanto “verticalmente” a partir da Princeton WordNet original na Open WordNet for English (OWN-EN) como “horizontalmente” através da tradução e adaptação de tais esforços para a Open WordNet for Portuguese (OWN-PT). Por fim comparamos a saída do UKB (algoritimo de WSD) antes e depois de tal extensão. Ambas as WordNets (parta inglês e para português) estão disponíveis online como iniciativas open-source.Human knowledge has been stored, transferred and built upon by written means. The human ability to tap into this source is by far the main reason why we’ve been able to advance our collective understanding. Over a quarter century ago, our technologies for collecting, storing, and disseminating vast amounts of information had gotten ahead of our technologies for collating and analyzing it. Natural Language Processing (NLP) tackles this issue. The everyday life already benefits from NLP, with applications ranging from spam filtering to (limited) support chatbots and artificial intelligence assistants interacting through voice commands. When it comes to technical language, however, NLP has some shortcomings. This is particularly true for the Oil&Gas domain, where information is the most precious resource, one that supports decisions worth billions of dollars. Even though there are numerous reports, papers, documents and alike, such knowledge remains untapped due to NLP domain limitations. It is our hypothesis that expanding a lexical resource, namely the WordNet, will have a scalable effect particularly on Word Sense Disambiguation (WSD) and on the overall NLP for Oil&Gas domain documents. To verify this we extended the WordNet with 377 new concepts (synsets), 558 new lexical forms (words) and 948 new relations (pointers) between such word and/or synsets. Such extension is focused on two of the most common references mentioned in Oil&Gas documents: Geological Time and Lithology (branch of geology devoted to rocks). We perform such extension both “vertically” from the original Princeton WordNet in English into the Open WordNet for English (OWN-EN) and “horizontally” by translating and adapting such effort to the Open Word- Net for Portuguese (OWN-PT). We then compare the outputs of the WSD algorithm UKB before and after such extension. Both WordNet extensions (English and Portuguese) are available as online open-source initiatives.engWordNetDomain extensionRockLithologyGeological timeGeologyNLPSUMOOil and gasGasOilPetroleumGeosciencePortugueseEnglishInternational Chronostratigraphic ChartMatemáticaTecnologiaProcessamento da linguagem natural (Computação)Petróleo e gásWordNetExpanding the open Wordnets for english and portuguese to geology domain: inclusion of lythology and geological time conceptsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis2020-09-30reponame:Repositório Institucional do FGV (FGV Repositório Digital)instname:Fundação Getulio Vargas (FGV)instacron:FGVinfo:eu-repo/semantics/openAccessORIGINALAlexandreTessarolloMSc.pdfAlexandreTessarolloMSc.pdfMSc dissertationapplication/pdf2245061https://repositorio.fgv.br/bitstreams/be7f8271-9a0c-4875-8c63-fd7da7367866/downloadae4b0f083db039cf85355f2b44fa219eMD53LICENSElicense.txtlicense.txttext/plain; charset=utf-84707https://repositorio.fgv.br/bitstreams/5d0c7dcf-65cd-48e2-a0eb-bf8af20529ec/downloaddfb340242cced38a6cca06c627998fa1MD54TEXTAlexandreTessarolloMSc.pdf.txtAlexandreTessarolloMSc.pdf.txtExtracted texttext/plain100545https://repositorio.fgv.br/bitstreams/42d9eac4-8b93-44c5-8c3a-51b2e3eb9938/download71c417c24ec72c6fd5c9fb0dff8cfb56MD57THUMBNAILAlexandreTessarolloMSc.pdf.jpgAlexandreTessarolloMSc.pdf.jpgGenerated Thumbnailimage/jpeg3005https://repositorio.fgv.br/bitstreams/5dee6cea-6c60-4746-97a4-c47e3abf69bf/download065255ba1d8de470c226bec846d125ffMD5810438/298462023-11-25 13:40:12.439open.accessoai:repositorio.fgv.br:10438/29846https://repositorio.fgv.brRepositório InstitucionalPRIhttp://bibliotecadigital.fgv.br/dspace-oai/requestopendoar:39742023-11-25T13:40:12Repositório Institucional do FGV (FGV Repositório Digital) - Fundação Getulio Vargas (FGV)falseVEVSTU9TIExJQ0VOQ0lBTUVOVE8gUEFSQSBBUlFVSVZBTUVOVE8sIFJFUFJPRFXDh8ODTyBFIERJVlVMR0HDh8ODTwpQw5pCTElDQSBERSBDT05URcOaRE8gw4AgQklCTElPVEVDQSBWSVJUVUFMIEZHViAodmVyc8OjbyAxLjIpCgoxLiBWb2PDqiwgdXN1w6FyaW8tZGVwb3NpdGFudGUgZGEgQmlibGlvdGVjYSBWaXJ0dWFsIEZHViwgYXNzZWd1cmEsIG5vCnByZXNlbnRlIGF0bywgcXVlIMOpIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIHBhdHJpbW9uaWFpcyBlL291CmRpcmVpdG9zIGNvbmV4b3MgcmVmZXJlbnRlcyDDoCB0b3RhbGlkYWRlIGRhIE9icmEgb3JhIGRlcG9zaXRhZGEgZW0KZm9ybWF0byBkaWdpdGFsLCBiZW0gY29tbyBkZSBzZXVzIGNvbXBvbmVudGVzIG1lbm9yZXMsIGVtIHNlIHRyYXRhbmRvCmRlIG9icmEgY29sZXRpdmEsIGNvbmZvcm1lIG8gcHJlY2VpdHVhZG8gcGVsYSBMZWkgOS42MTAvOTggZS9vdSBMZWkKOS42MDkvOTguIE7Do28gc2VuZG8gZXN0ZSBvIGNhc28sIHZvY8OqIGFzc2VndXJhIHRlciBvYnRpZG8sIGRpcmV0YW1lbnRlCmRvcyBkZXZpZG9zIHRpdHVsYXJlcywgYXV0b3JpemHDp8OjbyBwcsOpdmlhIGUgZXhwcmVzc2EgcGFyYSBvIGRlcMOzc2l0byBlCmRpdnVsZ2HDp8OjbyBkYSBPYnJhLCBhYnJhbmdlbmRvIHRvZG9zIG9zIGRpcmVpdG9zIGF1dG9yYWlzIGUgY29uZXhvcwphZmV0YWRvcyBwZWxhIGFzc2luYXR1cmEgZG9zIHByZXNlbnRlcyB0ZXJtb3MgZGUgbGljZW5jaWFtZW50bywgZGUKbW9kbyBhIGVmZXRpdmFtZW50ZSBpc2VudGFyIGEgRnVuZGHDp8OjbyBHZXR1bGlvIFZhcmdhcyBlIHNldXMKZnVuY2lvbsOhcmlvcyBkZSBxdWFscXVlciByZXNwb25zYWJpbGlkYWRlIHBlbG8gdXNvIG7Do28tYXV0b3JpemFkbyBkbwptYXRlcmlhbCBkZXBvc2l0YWRvLCBzZWphIGVtIHZpbmN1bGHDp8OjbyDDoCBCaWJsaW90ZWNhIFZpcnR1YWwgRkdWLCBzZWphCmVtIHZpbmN1bGHDp8OjbyBhIHF1YWlzcXVlciBzZXJ2acOnb3MgZGUgYnVzY2EgZSBkaXN0cmlidWnDp8OjbyBkZSBjb250ZcO6ZG8KcXVlIGZhw6dhbSB1c28gZGFzIGludGVyZmFjZXMgZSBlc3Bhw6dvIGRlIGFybWF6ZW5hbWVudG8gcHJvdmlkZW5jaWFkb3MKcGVsYSBGdW5kYcOnw6NvIEdldHVsaW8gVmFyZ2FzIHBvciBtZWlvIGRlIHNldXMgc2lzdGVtYXMgaW5mb3JtYXRpemFkb3MuCgoyLiBBIGFzc2luYXR1cmEgZGVzdGEgbGljZW7Dp2EgdGVtIGNvbW8gY29uc2Vxw7zDqm5jaWEgYSB0cmFuc2ZlcsOqbmNpYSwgYQp0w610dWxvIG7Do28tZXhjbHVzaXZvIGUgbsOjby1vbmVyb3NvLCBpc2VudGEgZG8gcGFnYW1lbnRvIGRlIHJveWFsdGllcwpvdSBxdWFscXVlciBvdXRyYSBjb250cmFwcmVzdGHDp8OjbywgcGVjdW5pw6FyaWEgb3UgbsOjbywgw6AgRnVuZGHDp8OjbwpHZXR1bGlvIFZhcmdhcywgZG9zIGRpcmVpdG9zIGRlIGFybWF6ZW5hciBkaWdpdGFsbWVudGUsIHJlcHJvZHV6aXIgZQpkaXN0cmlidWlyIG5hY2lvbmFsIGUgaW50ZXJuYWNpb25hbG1lbnRlIGEgT2JyYSwgaW5jbHVpbmRvLXNlIG8gc2V1CnJlc3Vtby9hYnN0cmFjdCwgcG9yIG1laW9zIGVsZXRyw7RuaWNvcywgbm8gc2l0ZSBkYSBCaWJsaW90ZWNhIFZpcnR1YWwKRkdWLCBhbyBww7pibGljbyBlbSBnZXJhbCwgZW0gcmVnaW1lIGRlIGFjZXNzbyBhYmVydG8uCgozLiBBIHByZXNlbnRlIGxpY2Vuw6dhIHRhbWLDqW0gYWJyYW5nZSwgbm9zIG1lc21vcyB0ZXJtb3MgZXN0YWJlbGVjaWRvcwpubyBpdGVtIDIsIHN1cHJhLCBxdWFscXVlciBkaXJlaXRvIGRlIGNvbXVuaWNhw6fDo28gYW8gcMO6YmxpY28gY2Fiw612ZWwKZW0gcmVsYcOnw6NvIMOgIE9icmEgb3JhIGRlcG9zaXRhZGEsIGluY2x1aW5kby1zZSBvcyB1c29zIHJlZmVyZW50ZXMgw6AKcmVwcmVzZW50YcOnw6NvIHDDumJsaWNhIGUvb3UgZXhlY3XDp8OjbyBww7pibGljYSwgYmVtIGNvbW8gcXVhbHF1ZXIgb3V0cmEKbW9kYWxpZGFkZSBkZSBjb211bmljYcOnw6NvIGFvIHDDumJsaWNvIHF1ZSBleGlzdGEgb3UgdmVuaGEgYSBleGlzdGlyLApub3MgdGVybW9zIGRvIGFydGlnbyA2OCBlIHNlZ3VpbnRlcyBkYSBMZWkgOS42MTAvOTgsIG5hIGV4dGVuc8OjbyBxdWUKZm9yIGFwbGljw6F2ZWwgYW9zIHNlcnZpw6dvcyBwcmVzdGFkb3MgYW8gcMO6YmxpY28gcGVsYSBCaWJsaW90ZWNhClZpcnR1YWwgRkdWLgoKNC4gRXN0YSBsaWNlbsOnYSBhYnJhbmdlLCBhaW5kYSwgbm9zIG1lc21vcyB0ZXJtb3MgZXN0YWJlbGVjaWRvcyBubwppdGVtIDIsIHN1cHJhLCB0b2RvcyBvcyBkaXJlaXRvcyBjb25leG9zIGRlIGFydGlzdGFzIGludMOpcnByZXRlcyBvdQpleGVjdXRhbnRlcywgcHJvZHV0b3JlcyBmb25vZ3LDoWZpY29zIG91IGVtcHJlc2FzIGRlIHJhZGlvZGlmdXPDo28gcXVlCmV2ZW50dWFsbWVudGUgc2VqYW0gYXBsaWPDoXZlaXMgZW0gcmVsYcOnw6NvIMOgIG9icmEgZGVwb3NpdGFkYSwgZW0KY29uZm9ybWlkYWRlIGNvbSBvIHJlZ2ltZSBmaXhhZG8gbm8gVMOtdHVsbyBWIGRhIExlaSA5LjYxMC85OC4KCjUuIFNlIGEgT2JyYSBkZXBvc2l0YWRhIGZvaSBvdSDDqSBvYmpldG8gZGUgZmluYW5jaWFtZW50byBwb3IKaW5zdGl0dWnDp8O1ZXMgZGUgZm9tZW50byDDoCBwZXNxdWlzYSBvdSBxdWFscXVlciBvdXRyYSBzZW1lbGhhbnRlLCB2b2PDqgpvdSBvIHRpdHVsYXIgYXNzZWd1cmEgcXVlIGN1bXByaXUgdG9kYXMgYXMgb2JyaWdhw6fDtWVzIHF1ZSBsaGUgZm9yYW0KaW1wb3N0YXMgcGVsYSBpbnN0aXR1acOnw6NvIGZpbmFuY2lhZG9yYSBlbSByYXrDo28gZG8gZmluYW5jaWFtZW50bywgZQpxdWUgbsOjbyBlc3TDoSBjb250cmFyaWFuZG8gcXVhbHF1ZXIgZGlzcG9zacOnw6NvIGNvbnRyYXR1YWwgcmVmZXJlbnRlIMOgCnB1YmxpY2HDp8OjbyBkbyBjb250ZcO6ZG8gb3JhIHN1Ym1ldGlkbyDDoCBCaWJsaW90ZWNhIFZpcnR1YWwgRkdWLgoKNi4gQ2FzbyBhIE9icmEgb3JhIGRlcG9zaXRhZGEgZW5jb250cmUtc2UgbGljZW5jaWFkYSBzb2IgdW1hIGxpY2Vuw6dhCkNyZWF0aXZlIENvbW1vbnMgKHF1YWxxdWVyIHZlcnPDo28pLCBzb2IgYSBsaWNlbsOnYSBHTlUgRnJlZQpEb2N1bWVudGF0aW9uIExpY2Vuc2UgKHF1YWxxdWVyIHZlcnPDo28pLCBvdSBvdXRyYSBsaWNlbsOnYSBxdWFsaWZpY2FkYQpjb21vIGxpdnJlIHNlZ3VuZG8gb3MgY3JpdMOpcmlvcyBkYSBEZWZpbml0aW9uIG9mIEZyZWUgQ3VsdHVyYWwgV29ya3MKKGRpc3BvbsOtdmVsIGVtOiBodHRwOi8vZnJlZWRvbWRlZmluZWQub3JnL0RlZmluaXRpb24pIG91IEZyZWUgU29mdHdhcmUKRGVmaW5pdGlvbiAoZGlzcG9uw612ZWwgZW06IGh0dHA6Ly93d3cuZ251Lm9yZy9waGlsb3NvcGh5L2ZyZWUtc3cuaHRtbCksIApvIGFycXVpdm8gcmVmZXJlbnRlIMOgIE9icmEgZGV2ZSBpbmRpY2FyIGEgbGljZW7Dp2EgYXBsaWPDoXZlbCBlbQpjb250ZcO6ZG8gbGVnw612ZWwgcG9yIHNlcmVzIGh1bWFub3MgZSwgc2UgcG9zc8OtdmVsLCB0YW1iw6ltIGVtIG1ldGFkYWRvcwpsZWfDrXZlaXMgcG9yIG3DoXF1aW5hLiBBIGluZGljYcOnw6NvIGRhIGxpY2Vuw6dhIGFwbGljw6F2ZWwgZGV2ZSBzZXIKYWNvbXBhbmhhZGEgZGUgdW0gbGluayBwYXJhIG9zIHRlcm1vcyBkZSBsaWNlbmNpYW1lbnRvIG91IHN1YSBjw7NwaWEKaW50ZWdyYWwuCgoKQW8gY29uY2x1aXIgYSBwcmVzZW50ZSBldGFwYSBlIGFzIGV0YXBhcyBzdWJzZXHDvGVudGVzIGRvIHByb2Nlc3NvIGRlCnN1Ym1pc3PDo28gZGUgYXJxdWl2b3Mgw6AgQmlibGlvdGVjYSBWaXJ0dWFsIEZHViwgdm9jw6ogYXRlc3RhIHF1ZSBsZXUgZQpjb25jb3JkYSBpbnRlZ3JhbG1lbnRlIGNvbSBvcyB0ZXJtb3MgYWNpbWEgZGVsaW1pdGFkb3MsIGFzc2luYW5kby1vcwpzZW0gZmF6ZXIgcXVhbHF1ZXIgcmVzZXJ2YSBlIG5vdmFtZW50ZSBjb25maXJtYW5kbyBxdWUgY3VtcHJlIG9zCnJlcXVpc2l0b3MgaW5kaWNhZG9zIG5vIGl0ZW0gMSwgc3VwcmEuCgpIYXZlbmRvIHF1YWxxdWVyIGRpc2NvcmTDom5jaWEgZW0gcmVsYcOnw6NvIGFvcyBwcmVzZW50ZXMgdGVybW9zIG91IG7Do28Kc2UgdmVyaWZpY2FuZG8gbyBleGlnaWRvIG5vIGl0ZW0gMSwgc3VwcmEsIHZvY8OqIGRldmUgaW50ZXJyb21wZXIKaW1lZGlhdGFtZW50ZSBvIHByb2Nlc3NvIGRlIHN1Ym1pc3PDo28uIEEgY29udGludWlkYWRlIGRvIHByb2Nlc3NvCmVxdWl2YWxlIMOgIGFzc2luYXR1cmEgZGVzdGUgZG9jdW1lbnRvLCBjb20gdG9kYXMgYXMgY29uc2Vxw7zDqm5jaWFzIG5lbGUKcHJldmlzdGFzLCBzdWplaXRhbmRvLXNlIG8gc2lnbmF0w6FyaW8gYSBzYW7Dp8O1ZXMgY2l2aXMgZSBjcmltaW5haXMgY2Fzbwpuw6NvIHNlamEgdGl0dWxhciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgcGF0cmltb25pYWlzIGUvb3UgY29uZXhvcwphcGxpY8OhdmVpcyDDoCBPYnJhIGRlcG9zaXRhZGEgZHVyYW50ZSBlc3RlIHByb2Nlc3NvLCBvdSBjYXNvIG7Do28gdGVuaGEKb2J0aWRvIHByw6l2aWEgZSBleHByZXNzYSBhdXRvcml6YcOnw6NvIGRvIHRpdHVsYXIgcGFyYSBvIGRlcMOzc2l0byBlCnRvZG9zIG9zIHVzb3MgZGEgT2JyYSBlbnZvbHZpZG9zLgoKClBhcmEgYSBzb2x1w6fDo28gZGUgcXVhbHF1ZXIgZMO6dmlkYSBxdWFudG8gYW9zIHRlcm1vcyBkZSBsaWNlbmNpYW1lbnRvIGUKbyBwcm9jZXNzbyBkZSBzdWJtaXNzw6NvLCBjbGlxdWUgbm8gbGluayAiRmFsZSBjb25vc2NvIi4K |
| dc.title.eng.fl_str_mv |
Expanding the open Wordnets for english and portuguese to geology domain: inclusion of lythology and geological time concepts |
| title |
Expanding the open Wordnets for english and portuguese to geology domain: inclusion of lythology and geological time concepts |
| spellingShingle |
Expanding the open Wordnets for english and portuguese to geology domain: inclusion of lythology and geological time concepts Tessarollo, Alexandre WordNet Domain extension Rock Lithology Geological time Geology NLP SUMO Oil and gas Gas Oil Petroleum Geoscience Portuguese English International Chronostratigraphic Chart Matemática Tecnologia Processamento da linguagem natural (Computação) Petróleo e gás WordNet |
| title_short |
Expanding the open Wordnets for english and portuguese to geology domain: inclusion of lythology and geological time concepts |
| title_full |
Expanding the open Wordnets for english and portuguese to geology domain: inclusion of lythology and geological time concepts |
| title_fullStr |
Expanding the open Wordnets for english and portuguese to geology domain: inclusion of lythology and geological time concepts |
| title_full_unstemmed |
Expanding the open Wordnets for english and portuguese to geology domain: inclusion of lythology and geological time concepts |
| title_sort |
Expanding the open Wordnets for english and portuguese to geology domain: inclusion of lythology and geological time concepts |
| author |
Tessarollo, Alexandre |
| author_facet |
Tessarollo, Alexandre |
| author_role |
author |
| dc.contributor.unidadefgv.por.fl_str_mv |
Escolas::EMAp |
| dc.contributor.member.none.fl_str_mv |
Abel, Mara Bond, Francis Charles |
| dc.contributor.author.fl_str_mv |
Tessarollo, Alexandre |
| dc.contributor.advisor1.fl_str_mv |
Rademaker, Alexandre |
| contributor_str_mv |
Rademaker, Alexandre |
| dc.subject.eng.fl_str_mv |
WordNet Domain extension Rock Lithology Geological time Geology NLP SUMO Oil and gas Gas Oil Petroleum Geoscience Portuguese English International Chronostratigraphic Chart |
| topic |
WordNet Domain extension Rock Lithology Geological time Geology NLP SUMO Oil and gas Gas Oil Petroleum Geoscience Portuguese English International Chronostratigraphic Chart Matemática Tecnologia Processamento da linguagem natural (Computação) Petróleo e gás WordNet |
| dc.subject.area.none.fl_str_mv |
Matemática Tecnologia |
| dc.subject.bibliodata.por.fl_str_mv |
Processamento da linguagem natural (Computação) Petróleo e gás |
| dc.subject.bibliodata.eng.fl_str_mv |
WordNet |
| description |
O conhecimento humano tem sido armazenado, transferido e crescido através de meios escritos. A habilidade humana de acessar essa fonte de conhecimento é notadamente a principal razão pela qual conseguimos avançar o nosso entendimento coletivo ao longo de milênios. Há cerca de 25 anos as nossas tecnologias para coletar, armazenar e disseminar vastas quantidades de informação superaram as nossas tecnologias para agrupar e analisar tais dados. O Processamento de Linguagem Natural (NLP, na sigla em inglês) aborda esta questão. O dia a dia já é beneficiado pelo NLP, com aplicações que vão de filtros de spam a chatbots (ainda que limitados) e assistentes pessoais de inteligência artificial via comandos de voz. Todavia, no que tange à linguagem técnica, o NLP ainda possui deficiências. Isto é particularmente verdadeiro para o domínio de Óleo & Gás, no qual informação é o recurso mais precioso, base para decisões envolvendo bilhões de dólares. Ainda que existam inúmeros relatórios, artigos científicos, documentos e afins, tal conhecimento permanece inalcançável devido a limitações de NLP aplicado a domínio. É nossa hipótese que a expansão de um recurso léxico, a WordNet, terá efeito escalável particularmente em desambiguação de palavras (WSD, Word Sense Disambiguation) e para o NLP como um todo em documentos de Óleo e Gás. Para verificar esta hipótese, estendemos a WordNet com 377 novos conceitos (synsets), 558 novas formas lexicais (palavras) e 948 novas relações envolvendo tais synsets e palavras. Tal extensão foca em duas das referências mais comumente mencionadas em documentos de Óleo & Gás: Tempo Geológico e Litologia (ramo da geologia dedicado ao estudo de rochas). Nós fazemos tal extensão da WordNet tanto “verticalmente” a partir da Princeton WordNet original na Open WordNet for English (OWN-EN) como “horizontalmente” através da tradução e adaptação de tais esforços para a Open WordNet for Portuguese (OWN-PT). Por fim comparamos a saída do UKB (algoritimo de WSD) antes e depois de tal extensão. Ambas as WordNets (parta inglês e para português) estão disponíveis online como iniciativas open-source. |
| publishDate |
2020 |
| dc.date.accessioned.fl_str_mv |
2020-11-18T21:53:17Z |
| dc.date.available.fl_str_mv |
2020-11-18T21:53:17Z |
| dc.date.issued.fl_str_mv |
2020-09-30 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/10438/29846 |
| url |
https://hdl.handle.net/10438/29846 |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional do FGV (FGV Repositório Digital) instname:Fundação Getulio Vargas (FGV) instacron:FGV |
| instname_str |
Fundação Getulio Vargas (FGV) |
| instacron_str |
FGV |
| institution |
FGV |
| reponame_str |
Repositório Institucional do FGV (FGV Repositório Digital) |
| collection |
Repositório Institucional do FGV (FGV Repositório Digital) |
| bitstream.url.fl_str_mv |
https://repositorio.fgv.br/bitstreams/be7f8271-9a0c-4875-8c63-fd7da7367866/download https://repositorio.fgv.br/bitstreams/5d0c7dcf-65cd-48e2-a0eb-bf8af20529ec/download https://repositorio.fgv.br/bitstreams/42d9eac4-8b93-44c5-8c3a-51b2e3eb9938/download https://repositorio.fgv.br/bitstreams/5dee6cea-6c60-4746-97a4-c47e3abf69bf/download |
| bitstream.checksum.fl_str_mv |
ae4b0f083db039cf85355f2b44fa219e dfb340242cced38a6cca06c627998fa1 71c417c24ec72c6fd5c9fb0dff8cfb56 065255ba1d8de470c226bec846d125ff |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositório Institucional do FGV (FGV Repositório Digital) - Fundação Getulio Vargas (FGV) |
| repository.mail.fl_str_mv |
|
| _version_ |
1827842498734587904 |