Expanding the open Wordnets for english and portuguese to geology domain: inclusion of lythology and geological time concepts

Detalhes bibliográficos
Ano de defesa: 2020
Autor(a) principal: Tessarollo, Alexandre
Orientador(a): Rademaker, Alexandre
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Inglês:
NLP
Gas
Oil
Link de acesso: https://hdl.handle.net/10438/29846
Resumo: O conhecimento humano tem sido armazenado, transferido e crescido através de meios escritos. A habilidade humana de acessar essa fonte de conhecimento é notadamente a principal razão pela qual conseguimos avançar o nosso entendimento coletivo ao longo de milênios. Há cerca de 25 anos as nossas tecnologias para coletar, armazenar e disseminar vastas quantidades de informação superaram as nossas tecnologias para agrupar e analisar tais dados. O Processamento de Linguagem Natural (NLP, na sigla em inglês) aborda esta questão. O dia a dia já é beneficiado pelo NLP, com aplicações que vão de filtros de spam a chatbots (ainda que limitados) e assistentes pessoais de inteligência artificial via comandos de voz. Todavia, no que tange à linguagem técnica, o NLP ainda possui deficiências. Isto é particularmente verdadeiro para o domínio de Óleo & Gás, no qual informação é o recurso mais precioso, base para decisões envolvendo bilhões de dólares. Ainda que existam inúmeros relatórios, artigos científicos, documentos e afins, tal conhecimento permanece inalcançável devido a limitações de NLP aplicado a domínio. É nossa hipótese que a expansão de um recurso léxico, a WordNet, terá efeito escalável particularmente em desambiguação de palavras (WSD, Word Sense Disambiguation) e para o NLP como um todo em documentos de Óleo e Gás. Para verificar esta hipótese, estendemos a WordNet com 377 novos conceitos (synsets), 558 novas formas lexicais (palavras) e 948 novas relações envolvendo tais synsets e palavras. Tal extensão foca em duas das referências mais comumente mencionadas em documentos de Óleo & Gás: Tempo Geológico e Litologia (ramo da geologia dedicado ao estudo de rochas). Nós fazemos tal extensão da WordNet tanto “verticalmente” a partir da Princeton WordNet original na Open WordNet for English (OWN-EN) como “horizontalmente” através da tradução e adaptação de tais esforços para a Open WordNet for Portuguese (OWN-PT). Por fim comparamos a saída do UKB (algoritimo de WSD) antes e depois de tal extensão. Ambas as WordNets (parta inglês e para português) estão disponíveis online como iniciativas open-source.
id FGV_4f38deeb9a07365fc8e220e42dc46184
oai_identifier_str oai:repositorio.fgv.br:10438/29846
network_acronym_str FGV
network_name_str Repositório Institucional do FGV (FGV Repositório Digital)
repository_id_str
spelling Tessarollo, AlexandreEscolas::EMApAbel, MaraBond, Francis CharlesRademaker, Alexandre2020-11-18T21:53:17Z2020-11-18T21:53:17Z2020-09-30https://hdl.handle.net/10438/29846O conhecimento humano tem sido armazenado, transferido e crescido através de meios escritos. A habilidade humana de acessar essa fonte de conhecimento é notadamente a principal razão pela qual conseguimos avançar o nosso entendimento coletivo ao longo de milênios. Há cerca de 25 anos as nossas tecnologias para coletar, armazenar e disseminar vastas quantidades de informação superaram as nossas tecnologias para agrupar e analisar tais dados. O Processamento de Linguagem Natural (NLP, na sigla em inglês) aborda esta questão. O dia a dia já é beneficiado pelo NLP, com aplicações que vão de filtros de spam a chatbots (ainda que limitados) e assistentes pessoais de inteligência artificial via comandos de voz. Todavia, no que tange à linguagem técnica, o NLP ainda possui deficiências. Isto é particularmente verdadeiro para o domínio de Óleo & Gás, no qual informação é o recurso mais precioso, base para decisões envolvendo bilhões de dólares. Ainda que existam inúmeros relatórios, artigos científicos, documentos e afins, tal conhecimento permanece inalcançável devido a limitações de NLP aplicado a domínio. É nossa hipótese que a expansão de um recurso léxico, a WordNet, terá efeito escalável particularmente em desambiguação de palavras (WSD, Word Sense Disambiguation) e para o NLP como um todo em documentos de Óleo e Gás. Para verificar esta hipótese, estendemos a WordNet com 377 novos conceitos (synsets), 558 novas formas lexicais (palavras) e 948 novas relações envolvendo tais synsets e palavras. Tal extensão foca em duas das referências mais comumente mencionadas em documentos de Óleo & Gás: Tempo Geológico e Litologia (ramo da geologia dedicado ao estudo de rochas). Nós fazemos tal extensão da WordNet tanto “verticalmente” a partir da Princeton WordNet original na Open WordNet for English (OWN-EN) como “horizontalmente” através da tradução e adaptação de tais esforços para a Open WordNet for Portuguese (OWN-PT). Por fim comparamos a saída do UKB (algoritimo de WSD) antes e depois de tal extensão. Ambas as WordNets (parta inglês e para português) estão disponíveis online como iniciativas open-source.Human knowledge has been stored, transferred and built upon by written means. The human ability to tap into this source is by far the main reason why we’ve been able to advance our collective understanding. Over a quarter century ago, our technologies for collecting, storing, and disseminating vast amounts of information had gotten ahead of our technologies for collating and analyzing it. Natural Language Processing (NLP) tackles this issue. The everyday life already benefits from NLP, with applications ranging from spam filtering to (limited) support chatbots and artificial intelligence assistants interacting through voice commands. When it comes to technical language, however, NLP has some shortcomings. This is particularly true for the Oil&Gas domain, where information is the most precious resource, one that supports decisions worth billions of dollars. Even though there are numerous reports, papers, documents and alike, such knowledge remains untapped due to NLP domain limitations. It is our hypothesis that expanding a lexical resource, namely the WordNet, will have a scalable effect particularly on Word Sense Disambiguation (WSD) and on the overall NLP for Oil&Gas domain documents. To verify this we extended the WordNet with 377 new concepts (synsets), 558 new lexical forms (words) and 948 new relations (pointers) between such word and/or synsets. Such extension is focused on two of the most common references mentioned in Oil&Gas documents: Geological Time and Lithology (branch of geology devoted to rocks). We perform such extension both “vertically” from the original Princeton WordNet in English into the Open WordNet for English (OWN-EN) and “horizontally” by translating and adapting such effort to the Open Word- Net for Portuguese (OWN-PT). We then compare the outputs of the WSD algorithm UKB before and after such extension. Both WordNet extensions (English and Portuguese) are available as online open-source initiatives.engWordNetDomain extensionRockLithologyGeological timeGeologyNLPSUMOOil and gasGasOilPetroleumGeosciencePortugueseEnglishInternational Chronostratigraphic ChartMatemáticaTecnologiaProcessamento da linguagem natural (Computação)Petróleo e gásWordNetExpanding the open Wordnets for english and portuguese to geology domain: inclusion of lythology and geological time conceptsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis2020-09-30reponame:Repositório Institucional do FGV (FGV Repositório Digital)instname:Fundação Getulio Vargas (FGV)instacron:FGVinfo:eu-repo/semantics/openAccessORIGINALAlexandreTessarolloMSc.pdfAlexandreTessarolloMSc.pdfMSc dissertationapplication/pdf2245061https://repositorio.fgv.br/bitstreams/be7f8271-9a0c-4875-8c63-fd7da7367866/downloadae4b0f083db039cf85355f2b44fa219eMD53LICENSElicense.txtlicense.txttext/plain; charset=utf-84707https://repositorio.fgv.br/bitstreams/5d0c7dcf-65cd-48e2-a0eb-bf8af20529ec/downloaddfb340242cced38a6cca06c627998fa1MD54TEXTAlexandreTessarolloMSc.pdf.txtAlexandreTessarolloMSc.pdf.txtExtracted texttext/plain100545https://repositorio.fgv.br/bitstreams/42d9eac4-8b93-44c5-8c3a-51b2e3eb9938/download71c417c24ec72c6fd5c9fb0dff8cfb56MD57THUMBNAILAlexandreTessarolloMSc.pdf.jpgAlexandreTessarolloMSc.pdf.jpgGenerated Thumbnailimage/jpeg3005https://repositorio.fgv.br/bitstreams/5dee6cea-6c60-4746-97a4-c47e3abf69bf/download065255ba1d8de470c226bec846d125ffMD5810438/298462023-11-25 13:40:12.439open.accessoai:repositorio.fgv.br:10438/29846https://repositorio.fgv.brRepositório InstitucionalPRIhttp://bibliotecadigital.fgv.br/dspace-oai/requestopendoar:39742023-11-25T13:40:12Repositório Institucional do FGV (FGV Repositório Digital) - Fundação Getulio Vargas (FGV)falseVEVSTU9TIExJQ0VOQ0lBTUVOVE8gUEFSQSBBUlFVSVZBTUVOVE8sIFJFUFJPRFXDh8ODTyBFIERJVlVMR0HDh8ODTwpQw5pCTElDQSBERSBDT05URcOaRE8gw4AgQklCTElPVEVDQSBWSVJUVUFMIEZHViAodmVyc8OjbyAxLjIpCgoxLiBWb2PDqiwgdXN1w6FyaW8tZGVwb3NpdGFudGUgZGEgQmlibGlvdGVjYSBWaXJ0dWFsIEZHViwgYXNzZWd1cmEsIG5vCnByZXNlbnRlIGF0bywgcXVlIMOpIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIHBhdHJpbW9uaWFpcyBlL291CmRpcmVpdG9zIGNvbmV4b3MgcmVmZXJlbnRlcyDDoCB0b3RhbGlkYWRlIGRhIE9icmEgb3JhIGRlcG9zaXRhZGEgZW0KZm9ybWF0byBkaWdpdGFsLCBiZW0gY29tbyBkZSBzZXVzIGNvbXBvbmVudGVzIG1lbm9yZXMsIGVtIHNlIHRyYXRhbmRvCmRlIG9icmEgY29sZXRpdmEsIGNvbmZvcm1lIG8gcHJlY2VpdHVhZG8gcGVsYSBMZWkgOS42MTAvOTggZS9vdSBMZWkKOS42MDkvOTguIE7Do28gc2VuZG8gZXN0ZSBvIGNhc28sIHZvY8OqIGFzc2VndXJhIHRlciBvYnRpZG8sIGRpcmV0YW1lbnRlCmRvcyBkZXZpZG9zIHRpdHVsYXJlcywgYXV0b3JpemHDp8OjbyBwcsOpdmlhIGUgZXhwcmVzc2EgcGFyYSBvIGRlcMOzc2l0byBlCmRpdnVsZ2HDp8OjbyBkYSBPYnJhLCBhYnJhbmdlbmRvIHRvZG9zIG9zIGRpcmVpdG9zIGF1dG9yYWlzIGUgY29uZXhvcwphZmV0YWRvcyBwZWxhIGFzc2luYXR1cmEgZG9zIHByZXNlbnRlcyB0ZXJtb3MgZGUgbGljZW5jaWFtZW50bywgZGUKbW9kbyBhIGVmZXRpdmFtZW50ZSBpc2VudGFyIGEgRnVuZGHDp8OjbyBHZXR1bGlvIFZhcmdhcyBlIHNldXMKZnVuY2lvbsOhcmlvcyBkZSBxdWFscXVlciByZXNwb25zYWJpbGlkYWRlIHBlbG8gdXNvIG7Do28tYXV0b3JpemFkbyBkbwptYXRlcmlhbCBkZXBvc2l0YWRvLCBzZWphIGVtIHZpbmN1bGHDp8OjbyDDoCBCaWJsaW90ZWNhIFZpcnR1YWwgRkdWLCBzZWphCmVtIHZpbmN1bGHDp8OjbyBhIHF1YWlzcXVlciBzZXJ2acOnb3MgZGUgYnVzY2EgZSBkaXN0cmlidWnDp8OjbyBkZSBjb250ZcO6ZG8KcXVlIGZhw6dhbSB1c28gZGFzIGludGVyZmFjZXMgZSBlc3Bhw6dvIGRlIGFybWF6ZW5hbWVudG8gcHJvdmlkZW5jaWFkb3MKcGVsYSBGdW5kYcOnw6NvIEdldHVsaW8gVmFyZ2FzIHBvciBtZWlvIGRlIHNldXMgc2lzdGVtYXMgaW5mb3JtYXRpemFkb3MuCgoyLiBBIGFzc2luYXR1cmEgZGVzdGEgbGljZW7Dp2EgdGVtIGNvbW8gY29uc2Vxw7zDqm5jaWEgYSB0cmFuc2ZlcsOqbmNpYSwgYQp0w610dWxvIG7Do28tZXhjbHVzaXZvIGUgbsOjby1vbmVyb3NvLCBpc2VudGEgZG8gcGFnYW1lbnRvIGRlIHJveWFsdGllcwpvdSBxdWFscXVlciBvdXRyYSBjb250cmFwcmVzdGHDp8OjbywgcGVjdW5pw6FyaWEgb3UgbsOjbywgw6AgRnVuZGHDp8OjbwpHZXR1bGlvIFZhcmdhcywgZG9zIGRpcmVpdG9zIGRlIGFybWF6ZW5hciBkaWdpdGFsbWVudGUsIHJlcHJvZHV6aXIgZQpkaXN0cmlidWlyIG5hY2lvbmFsIGUgaW50ZXJuYWNpb25hbG1lbnRlIGEgT2JyYSwgaW5jbHVpbmRvLXNlIG8gc2V1CnJlc3Vtby9hYnN0cmFjdCwgcG9yIG1laW9zIGVsZXRyw7RuaWNvcywgbm8gc2l0ZSBkYSBCaWJsaW90ZWNhIFZpcnR1YWwKRkdWLCBhbyBww7pibGljbyBlbSBnZXJhbCwgZW0gcmVnaW1lIGRlIGFjZXNzbyBhYmVydG8uCgozLiBBIHByZXNlbnRlIGxpY2Vuw6dhIHRhbWLDqW0gYWJyYW5nZSwgbm9zIG1lc21vcyB0ZXJtb3MgZXN0YWJlbGVjaWRvcwpubyBpdGVtIDIsIHN1cHJhLCBxdWFscXVlciBkaXJlaXRvIGRlIGNvbXVuaWNhw6fDo28gYW8gcMO6YmxpY28gY2Fiw612ZWwKZW0gcmVsYcOnw6NvIMOgIE9icmEgb3JhIGRlcG9zaXRhZGEsIGluY2x1aW5kby1zZSBvcyB1c29zIHJlZmVyZW50ZXMgw6AKcmVwcmVzZW50YcOnw6NvIHDDumJsaWNhIGUvb3UgZXhlY3XDp8OjbyBww7pibGljYSwgYmVtIGNvbW8gcXVhbHF1ZXIgb3V0cmEKbW9kYWxpZGFkZSBkZSBjb211bmljYcOnw6NvIGFvIHDDumJsaWNvIHF1ZSBleGlzdGEgb3UgdmVuaGEgYSBleGlzdGlyLApub3MgdGVybW9zIGRvIGFydGlnbyA2OCBlIHNlZ3VpbnRlcyBkYSBMZWkgOS42MTAvOTgsIG5hIGV4dGVuc8OjbyBxdWUKZm9yIGFwbGljw6F2ZWwgYW9zIHNlcnZpw6dvcyBwcmVzdGFkb3MgYW8gcMO6YmxpY28gcGVsYSBCaWJsaW90ZWNhClZpcnR1YWwgRkdWLgoKNC4gRXN0YSBsaWNlbsOnYSBhYnJhbmdlLCBhaW5kYSwgbm9zIG1lc21vcyB0ZXJtb3MgZXN0YWJlbGVjaWRvcyBubwppdGVtIDIsIHN1cHJhLCB0b2RvcyBvcyBkaXJlaXRvcyBjb25leG9zIGRlIGFydGlzdGFzIGludMOpcnByZXRlcyBvdQpleGVjdXRhbnRlcywgcHJvZHV0b3JlcyBmb25vZ3LDoWZpY29zIG91IGVtcHJlc2FzIGRlIHJhZGlvZGlmdXPDo28gcXVlCmV2ZW50dWFsbWVudGUgc2VqYW0gYXBsaWPDoXZlaXMgZW0gcmVsYcOnw6NvIMOgIG9icmEgZGVwb3NpdGFkYSwgZW0KY29uZm9ybWlkYWRlIGNvbSBvIHJlZ2ltZSBmaXhhZG8gbm8gVMOtdHVsbyBWIGRhIExlaSA5LjYxMC85OC4KCjUuIFNlIGEgT2JyYSBkZXBvc2l0YWRhIGZvaSBvdSDDqSBvYmpldG8gZGUgZmluYW5jaWFtZW50byBwb3IKaW5zdGl0dWnDp8O1ZXMgZGUgZm9tZW50byDDoCBwZXNxdWlzYSBvdSBxdWFscXVlciBvdXRyYSBzZW1lbGhhbnRlLCB2b2PDqgpvdSBvIHRpdHVsYXIgYXNzZWd1cmEgcXVlIGN1bXByaXUgdG9kYXMgYXMgb2JyaWdhw6fDtWVzIHF1ZSBsaGUgZm9yYW0KaW1wb3N0YXMgcGVsYSBpbnN0aXR1acOnw6NvIGZpbmFuY2lhZG9yYSBlbSByYXrDo28gZG8gZmluYW5jaWFtZW50bywgZQpxdWUgbsOjbyBlc3TDoSBjb250cmFyaWFuZG8gcXVhbHF1ZXIgZGlzcG9zacOnw6NvIGNvbnRyYXR1YWwgcmVmZXJlbnRlIMOgCnB1YmxpY2HDp8OjbyBkbyBjb250ZcO6ZG8gb3JhIHN1Ym1ldGlkbyDDoCBCaWJsaW90ZWNhIFZpcnR1YWwgRkdWLgoKNi4gQ2FzbyBhIE9icmEgb3JhIGRlcG9zaXRhZGEgZW5jb250cmUtc2UgbGljZW5jaWFkYSBzb2IgdW1hIGxpY2Vuw6dhCkNyZWF0aXZlIENvbW1vbnMgKHF1YWxxdWVyIHZlcnPDo28pLCBzb2IgYSBsaWNlbsOnYSBHTlUgRnJlZQpEb2N1bWVudGF0aW9uIExpY2Vuc2UgKHF1YWxxdWVyIHZlcnPDo28pLCBvdSBvdXRyYSBsaWNlbsOnYSBxdWFsaWZpY2FkYQpjb21vIGxpdnJlIHNlZ3VuZG8gb3MgY3JpdMOpcmlvcyBkYSBEZWZpbml0aW9uIG9mIEZyZWUgQ3VsdHVyYWwgV29ya3MKKGRpc3BvbsOtdmVsIGVtOiBodHRwOi8vZnJlZWRvbWRlZmluZWQub3JnL0RlZmluaXRpb24pIG91IEZyZWUgU29mdHdhcmUKRGVmaW5pdGlvbiAoZGlzcG9uw612ZWwgZW06IGh0dHA6Ly93d3cuZ251Lm9yZy9waGlsb3NvcGh5L2ZyZWUtc3cuaHRtbCksIApvIGFycXVpdm8gcmVmZXJlbnRlIMOgIE9icmEgZGV2ZSBpbmRpY2FyIGEgbGljZW7Dp2EgYXBsaWPDoXZlbCBlbQpjb250ZcO6ZG8gbGVnw612ZWwgcG9yIHNlcmVzIGh1bWFub3MgZSwgc2UgcG9zc8OtdmVsLCB0YW1iw6ltIGVtIG1ldGFkYWRvcwpsZWfDrXZlaXMgcG9yIG3DoXF1aW5hLiBBIGluZGljYcOnw6NvIGRhIGxpY2Vuw6dhIGFwbGljw6F2ZWwgZGV2ZSBzZXIKYWNvbXBhbmhhZGEgZGUgdW0gbGluayBwYXJhIG9zIHRlcm1vcyBkZSBsaWNlbmNpYW1lbnRvIG91IHN1YSBjw7NwaWEKaW50ZWdyYWwuCgoKQW8gY29uY2x1aXIgYSBwcmVzZW50ZSBldGFwYSBlIGFzIGV0YXBhcyBzdWJzZXHDvGVudGVzIGRvIHByb2Nlc3NvIGRlCnN1Ym1pc3PDo28gZGUgYXJxdWl2b3Mgw6AgQmlibGlvdGVjYSBWaXJ0dWFsIEZHViwgdm9jw6ogYXRlc3RhIHF1ZSBsZXUgZQpjb25jb3JkYSBpbnRlZ3JhbG1lbnRlIGNvbSBvcyB0ZXJtb3MgYWNpbWEgZGVsaW1pdGFkb3MsIGFzc2luYW5kby1vcwpzZW0gZmF6ZXIgcXVhbHF1ZXIgcmVzZXJ2YSBlIG5vdmFtZW50ZSBjb25maXJtYW5kbyBxdWUgY3VtcHJlIG9zCnJlcXVpc2l0b3MgaW5kaWNhZG9zIG5vIGl0ZW0gMSwgc3VwcmEuCgpIYXZlbmRvIHF1YWxxdWVyIGRpc2NvcmTDom5jaWEgZW0gcmVsYcOnw6NvIGFvcyBwcmVzZW50ZXMgdGVybW9zIG91IG7Do28Kc2UgdmVyaWZpY2FuZG8gbyBleGlnaWRvIG5vIGl0ZW0gMSwgc3VwcmEsIHZvY8OqIGRldmUgaW50ZXJyb21wZXIKaW1lZGlhdGFtZW50ZSBvIHByb2Nlc3NvIGRlIHN1Ym1pc3PDo28uIEEgY29udGludWlkYWRlIGRvIHByb2Nlc3NvCmVxdWl2YWxlIMOgIGFzc2luYXR1cmEgZGVzdGUgZG9jdW1lbnRvLCBjb20gdG9kYXMgYXMgY29uc2Vxw7zDqm5jaWFzIG5lbGUKcHJldmlzdGFzLCBzdWplaXRhbmRvLXNlIG8gc2lnbmF0w6FyaW8gYSBzYW7Dp8O1ZXMgY2l2aXMgZSBjcmltaW5haXMgY2Fzbwpuw6NvIHNlamEgdGl0dWxhciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgcGF0cmltb25pYWlzIGUvb3UgY29uZXhvcwphcGxpY8OhdmVpcyDDoCBPYnJhIGRlcG9zaXRhZGEgZHVyYW50ZSBlc3RlIHByb2Nlc3NvLCBvdSBjYXNvIG7Do28gdGVuaGEKb2J0aWRvIHByw6l2aWEgZSBleHByZXNzYSBhdXRvcml6YcOnw6NvIGRvIHRpdHVsYXIgcGFyYSBvIGRlcMOzc2l0byBlCnRvZG9zIG9zIHVzb3MgZGEgT2JyYSBlbnZvbHZpZG9zLgoKClBhcmEgYSBzb2x1w6fDo28gZGUgcXVhbHF1ZXIgZMO6dmlkYSBxdWFudG8gYW9zIHRlcm1vcyBkZSBsaWNlbmNpYW1lbnRvIGUKbyBwcm9jZXNzbyBkZSBzdWJtaXNzw6NvLCBjbGlxdWUgbm8gbGluayAiRmFsZSBjb25vc2NvIi4K
dc.title.eng.fl_str_mv Expanding the open Wordnets for english and portuguese to geology domain: inclusion of lythology and geological time concepts
title Expanding the open Wordnets for english and portuguese to geology domain: inclusion of lythology and geological time concepts
spellingShingle Expanding the open Wordnets for english and portuguese to geology domain: inclusion of lythology and geological time concepts
Tessarollo, Alexandre
WordNet
Domain extension
Rock
Lithology
Geological time
Geology
NLP
SUMO
Oil and gas
Gas
Oil
Petroleum
Geoscience
Portuguese
English
International Chronostratigraphic Chart
Matemática
Tecnologia
Processamento da linguagem natural (Computação)
Petróleo e gás
WordNet
title_short Expanding the open Wordnets for english and portuguese to geology domain: inclusion of lythology and geological time concepts
title_full Expanding the open Wordnets for english and portuguese to geology domain: inclusion of lythology and geological time concepts
title_fullStr Expanding the open Wordnets for english and portuguese to geology domain: inclusion of lythology and geological time concepts
title_full_unstemmed Expanding the open Wordnets for english and portuguese to geology domain: inclusion of lythology and geological time concepts
title_sort Expanding the open Wordnets for english and portuguese to geology domain: inclusion of lythology and geological time concepts
author Tessarollo, Alexandre
author_facet Tessarollo, Alexandre
author_role author
dc.contributor.unidadefgv.por.fl_str_mv Escolas::EMAp
dc.contributor.member.none.fl_str_mv Abel, Mara
Bond, Francis Charles
dc.contributor.author.fl_str_mv Tessarollo, Alexandre
dc.contributor.advisor1.fl_str_mv Rademaker, Alexandre
contributor_str_mv Rademaker, Alexandre
dc.subject.eng.fl_str_mv WordNet
Domain extension
Rock
Lithology
Geological time
Geology
NLP
SUMO
Oil and gas
Gas
Oil
Petroleum
Geoscience
Portuguese
English
International Chronostratigraphic Chart
topic WordNet
Domain extension
Rock
Lithology
Geological time
Geology
NLP
SUMO
Oil and gas
Gas
Oil
Petroleum
Geoscience
Portuguese
English
International Chronostratigraphic Chart
Matemática
Tecnologia
Processamento da linguagem natural (Computação)
Petróleo e gás
WordNet
dc.subject.area.none.fl_str_mv Matemática
Tecnologia
dc.subject.bibliodata.por.fl_str_mv Processamento da linguagem natural (Computação)
Petróleo e gás
dc.subject.bibliodata.eng.fl_str_mv WordNet
description O conhecimento humano tem sido armazenado, transferido e crescido através de meios escritos. A habilidade humana de acessar essa fonte de conhecimento é notadamente a principal razão pela qual conseguimos avançar o nosso entendimento coletivo ao longo de milênios. Há cerca de 25 anos as nossas tecnologias para coletar, armazenar e disseminar vastas quantidades de informação superaram as nossas tecnologias para agrupar e analisar tais dados. O Processamento de Linguagem Natural (NLP, na sigla em inglês) aborda esta questão. O dia a dia já é beneficiado pelo NLP, com aplicações que vão de filtros de spam a chatbots (ainda que limitados) e assistentes pessoais de inteligência artificial via comandos de voz. Todavia, no que tange à linguagem técnica, o NLP ainda possui deficiências. Isto é particularmente verdadeiro para o domínio de Óleo & Gás, no qual informação é o recurso mais precioso, base para decisões envolvendo bilhões de dólares. Ainda que existam inúmeros relatórios, artigos científicos, documentos e afins, tal conhecimento permanece inalcançável devido a limitações de NLP aplicado a domínio. É nossa hipótese que a expansão de um recurso léxico, a WordNet, terá efeito escalável particularmente em desambiguação de palavras (WSD, Word Sense Disambiguation) e para o NLP como um todo em documentos de Óleo e Gás. Para verificar esta hipótese, estendemos a WordNet com 377 novos conceitos (synsets), 558 novas formas lexicais (palavras) e 948 novas relações envolvendo tais synsets e palavras. Tal extensão foca em duas das referências mais comumente mencionadas em documentos de Óleo & Gás: Tempo Geológico e Litologia (ramo da geologia dedicado ao estudo de rochas). Nós fazemos tal extensão da WordNet tanto “verticalmente” a partir da Princeton WordNet original na Open WordNet for English (OWN-EN) como “horizontalmente” através da tradução e adaptação de tais esforços para a Open WordNet for Portuguese (OWN-PT). Por fim comparamos a saída do UKB (algoritimo de WSD) antes e depois de tal extensão. Ambas as WordNets (parta inglês e para português) estão disponíveis online como iniciativas open-source.
publishDate 2020
dc.date.accessioned.fl_str_mv 2020-11-18T21:53:17Z
dc.date.available.fl_str_mv 2020-11-18T21:53:17Z
dc.date.issued.fl_str_mv 2020-09-30
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/10438/29846
url https://hdl.handle.net/10438/29846
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositório Institucional do FGV (FGV Repositório Digital)
instname:Fundação Getulio Vargas (FGV)
instacron:FGV
instname_str Fundação Getulio Vargas (FGV)
instacron_str FGV
institution FGV
reponame_str Repositório Institucional do FGV (FGV Repositório Digital)
collection Repositório Institucional do FGV (FGV Repositório Digital)
bitstream.url.fl_str_mv https://repositorio.fgv.br/bitstreams/be7f8271-9a0c-4875-8c63-fd7da7367866/download
https://repositorio.fgv.br/bitstreams/5d0c7dcf-65cd-48e2-a0eb-bf8af20529ec/download
https://repositorio.fgv.br/bitstreams/42d9eac4-8b93-44c5-8c3a-51b2e3eb9938/download
https://repositorio.fgv.br/bitstreams/5dee6cea-6c60-4746-97a4-c47e3abf69bf/download
bitstream.checksum.fl_str_mv ae4b0f083db039cf85355f2b44fa219e
dfb340242cced38a6cca06c627998fa1
71c417c24ec72c6fd5c9fb0dff8cfb56
065255ba1d8de470c226bec846d125ff
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional do FGV (FGV Repositório Digital) - Fundação Getulio Vargas (FGV)
repository.mail.fl_str_mv
_version_ 1827842498734587904