Levantamento de indicadores através de data mining, Latent Dirichlet Allocation e TF-IDF
| Ano de defesa: | 2020 |
|---|---|
| Autor(a) principal: | |
| Orientador(a): | |
| Banca de defesa: | |
| Tipo de documento: | Dissertação |
| Tipo de acesso: | Acesso aberto |
| Idioma: | por |
| Instituição de defesa: |
Não Informado pela instituição
|
| Programa de Pós-Graduação: |
Não Informado pela instituição
|
| Departamento: |
Não Informado pela instituição
|
| País: |
Não Informado pela instituição
|
| Palavras-chave em Português: | |
| Palavras-chave em Inglês: | |
| Link de acesso: | https://hdl.handle.net/10438/30005 |
Resumo: | A pesquisa visou identificar aplicações de técnicas de Processamento de Linguagem Natural (NLP) na prática de administração de empresas. Técnicas de NLP visam à análise automatizada de documentos escritos em linguagem natural, sem uma padronização das informações exibidas. Entre elas, duas técnicas destinadas à Recuperação de Informação foram utilizadas. Uma técnica específica, a Alocação de Dirichlet Latente (LDA) mostrou-se eficaz na classificação automática de relatórios de administração, agrupando-os por similaridade. Uma segunda técnica, busca de palavras por TF-IDF, revelou-se eficaz na identificação automatizada de grupos de documentos com indicadores desejados, em sua maioria, de natureza financeira. Uma terceira técnica, Mineração de Dados, foi combinada às duas primeiras para automatizar a coleta em massa de relatórios do repositório da CVM. O resultado combinado das três técnicas foi, a partir de uma palavra-chave de escolha e um grande repositório remoto de relatórios da CVM, o de conseguir localizar automaticamente documentos específicos contendo indicadores financeiros desejados, em meio a centenas de milhares de outros documentos. A busca automatizada desses documentos, que, de outra forma, poderiam ter sido ignorados devido ao excesso de dados a serem analisados, pode contribuir para a melhoria da prática administrativa. |
| id |
FGV_75f86b59f2266ac0fef6802d5e5f8f02 |
|---|---|
| oai_identifier_str |
oai:repositorio.fgv.br:10438/30005 |
| network_acronym_str |
FGV |
| network_name_str |
Repositório Institucional do FGV (FGV Repositório Digital) |
| repository_id_str |
|
| spelling |
Noda, MauricioEscolas::EAESPMirapalheta, Gustavo CorreaJusto Filho, João FranciscoDamasceno, MarcosGelis Filho, Antonio2021-01-11T15:29:59Z2021-01-11T15:29:59Z2020-12-07https://hdl.handle.net/10438/30005A pesquisa visou identificar aplicações de técnicas de Processamento de Linguagem Natural (NLP) na prática de administração de empresas. Técnicas de NLP visam à análise automatizada de documentos escritos em linguagem natural, sem uma padronização das informações exibidas. Entre elas, duas técnicas destinadas à Recuperação de Informação foram utilizadas. Uma técnica específica, a Alocação de Dirichlet Latente (LDA) mostrou-se eficaz na classificação automática de relatórios de administração, agrupando-os por similaridade. Uma segunda técnica, busca de palavras por TF-IDF, revelou-se eficaz na identificação automatizada de grupos de documentos com indicadores desejados, em sua maioria, de natureza financeira. Uma terceira técnica, Mineração de Dados, foi combinada às duas primeiras para automatizar a coleta em massa de relatórios do repositório da CVM. O resultado combinado das três técnicas foi, a partir de uma palavra-chave de escolha e um grande repositório remoto de relatórios da CVM, o de conseguir localizar automaticamente documentos específicos contendo indicadores financeiros desejados, em meio a centenas de milhares de outros documentos. A busca automatizada desses documentos, que, de outra forma, poderiam ter sido ignorados devido ao excesso de dados a serem analisados, pode contribuir para a melhoria da prática administrativa.This research aimed at identifying applications of Natural Language Processing (NLP) techniques in the practice of business administration. NLP techniques aim at automated analysis of documents written in natural language, without any standardization of displayed information. Among the applications, two techniques for Information Retrieval were used. One specific technique, the Latent Dirichlet Allocation (LDA) was shown to be effective for automatically classifying administrative reports, grouping them by similarity. A second technique, keywords search based on TF-IDF, was shown to be effective in automatically identifying groups of documents with desired indicators, the majority being of financial nature. A third technique, Data Mining, was combined with the first two, to automate a mass collection of reports from the CVM repository. The combined result of the three techniques was, from a keyword of choice and a big remote CVM repository of reports, to be able to automatically locate specific documents containing desired indicators, among hundreds of thousands of other documents. The automated search of these documents that, otherwise, could have been ignored due to the excess of data to be analyzed, can contribute to the improvement of the business administration practice.porData miningText miningNatural language processingInformation retrievalTopic modelingMineração de dadosMineração de textoProcessamento de linguagem naturalRecuperação de informaçãoModelagem de tópicosAlocação de Dirichlet LatenteTF-IDFAdministração de empresasProcessamento da linguagem natural (Computação)Mineração de dados (Computação)Recuperação da informaçãoAdministração de empresasLevantamento de indicadores através de data mining, Latent Dirichlet Allocation e TF-IDFinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional do FGV (FGV Repositório Digital)instname:Fundação Getulio Vargas (FGV)instacron:FGVLICENSElicense.txtlicense.txttext/plain; charset=utf-84707https://repositorio.fgv.br/bitstreams/21fa6e53-c052-4bc8-98b5-5623cbde99ac/downloaddfb340242cced38a6cca06c627998fa1MD52ORIGINALdissertacao14.pdfdissertacao14.pdfPDFapplication/pdf4213587https://repositorio.fgv.br/bitstreams/2e61df6c-0687-4173-8cc6-ab882ae0e93f/download57137cf3f11b5fe2d5ceafa4697c8e28MD51TEXTdissertacao14.pdf.txtdissertacao14.pdf.txtExtracted texttext/plain103203https://repositorio.fgv.br/bitstreams/e904b520-63ec-44d8-a1a6-312df8193a0b/downloadaac6f5079ae789ab92290fdb28e87e07MD55THUMBNAILdissertacao14.pdf.jpgdissertacao14.pdf.jpgGenerated Thumbnailimage/jpeg2632https://repositorio.fgv.br/bitstreams/bf2709a2-60e6-46a7-a4c7-638d306aed5a/download36ba073a69fdf6fc0d5bad1e8788b08bMD5610438/300052023-11-25 15:51:53.94open.accessoai:repositorio.fgv.br:10438/30005https://repositorio.fgv.brRepositório InstitucionalPRIhttp://bibliotecadigital.fgv.br/dspace-oai/requestopendoar:39742023-11-25T15:51:53Repositório Institucional do FGV (FGV Repositório Digital) - Fundação Getulio Vargas (FGV)falseVEVSTU9TIExJQ0VOQ0lBTUVOVE8gUEFSQSBBUlFVSVZBTUVOVE8sIFJFUFJPRFXDh8ODTyBFIERJVlVMR0HDh8ODTwpQw5pCTElDQSBERSBDT05URcOaRE8gw4AgQklCTElPVEVDQSBWSVJUVUFMIEZHViAodmVyc8OjbyAxLjIpCgoxLiBWb2PDqiwgdXN1w6FyaW8tZGVwb3NpdGFudGUgZGEgQmlibGlvdGVjYSBWaXJ0dWFsIEZHViwgYXNzZWd1cmEsIG5vCnByZXNlbnRlIGF0bywgcXVlIMOpIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIHBhdHJpbW9uaWFpcyBlL291CmRpcmVpdG9zIGNvbmV4b3MgcmVmZXJlbnRlcyDDoCB0b3RhbGlkYWRlIGRhIE9icmEgb3JhIGRlcG9zaXRhZGEgZW0KZm9ybWF0byBkaWdpdGFsLCBiZW0gY29tbyBkZSBzZXVzIGNvbXBvbmVudGVzIG1lbm9yZXMsIGVtIHNlIHRyYXRhbmRvCmRlIG9icmEgY29sZXRpdmEsIGNvbmZvcm1lIG8gcHJlY2VpdHVhZG8gcGVsYSBMZWkgOS42MTAvOTggZS9vdSBMZWkKOS42MDkvOTguIE7Do28gc2VuZG8gZXN0ZSBvIGNhc28sIHZvY8OqIGFzc2VndXJhIHRlciBvYnRpZG8sIGRpcmV0YW1lbnRlCmRvcyBkZXZpZG9zIHRpdHVsYXJlcywgYXV0b3JpemHDp8OjbyBwcsOpdmlhIGUgZXhwcmVzc2EgcGFyYSBvIGRlcMOzc2l0byBlCmRpdnVsZ2HDp8OjbyBkYSBPYnJhLCBhYnJhbmdlbmRvIHRvZG9zIG9zIGRpcmVpdG9zIGF1dG9yYWlzIGUgY29uZXhvcwphZmV0YWRvcyBwZWxhIGFzc2luYXR1cmEgZG9zIHByZXNlbnRlcyB0ZXJtb3MgZGUgbGljZW5jaWFtZW50bywgZGUKbW9kbyBhIGVmZXRpdmFtZW50ZSBpc2VudGFyIGEgRnVuZGHDp8OjbyBHZXR1bGlvIFZhcmdhcyBlIHNldXMKZnVuY2lvbsOhcmlvcyBkZSBxdWFscXVlciByZXNwb25zYWJpbGlkYWRlIHBlbG8gdXNvIG7Do28tYXV0b3JpemFkbyBkbwptYXRlcmlhbCBkZXBvc2l0YWRvLCBzZWphIGVtIHZpbmN1bGHDp8OjbyDDoCBCaWJsaW90ZWNhIFZpcnR1YWwgRkdWLCBzZWphCmVtIHZpbmN1bGHDp8OjbyBhIHF1YWlzcXVlciBzZXJ2acOnb3MgZGUgYnVzY2EgZSBkaXN0cmlidWnDp8OjbyBkZSBjb250ZcO6ZG8KcXVlIGZhw6dhbSB1c28gZGFzIGludGVyZmFjZXMgZSBlc3Bhw6dvIGRlIGFybWF6ZW5hbWVudG8gcHJvdmlkZW5jaWFkb3MKcGVsYSBGdW5kYcOnw6NvIEdldHVsaW8gVmFyZ2FzIHBvciBtZWlvIGRlIHNldXMgc2lzdGVtYXMgaW5mb3JtYXRpemFkb3MuCgoyLiBBIGFzc2luYXR1cmEgZGVzdGEgbGljZW7Dp2EgdGVtIGNvbW8gY29uc2Vxw7zDqm5jaWEgYSB0cmFuc2ZlcsOqbmNpYSwgYQp0w610dWxvIG7Do28tZXhjbHVzaXZvIGUgbsOjby1vbmVyb3NvLCBpc2VudGEgZG8gcGFnYW1lbnRvIGRlIHJveWFsdGllcwpvdSBxdWFscXVlciBvdXRyYSBjb250cmFwcmVzdGHDp8OjbywgcGVjdW5pw6FyaWEgb3UgbsOjbywgw6AgRnVuZGHDp8OjbwpHZXR1bGlvIFZhcmdhcywgZG9zIGRpcmVpdG9zIGRlIGFybWF6ZW5hciBkaWdpdGFsbWVudGUsIHJlcHJvZHV6aXIgZQpkaXN0cmlidWlyIG5hY2lvbmFsIGUgaW50ZXJuYWNpb25hbG1lbnRlIGEgT2JyYSwgaW5jbHVpbmRvLXNlIG8gc2V1CnJlc3Vtby9hYnN0cmFjdCwgcG9yIG1laW9zIGVsZXRyw7RuaWNvcywgbm8gc2l0ZSBkYSBCaWJsaW90ZWNhIFZpcnR1YWwKRkdWLCBhbyBww7pibGljbyBlbSBnZXJhbCwgZW0gcmVnaW1lIGRlIGFjZXNzbyBhYmVydG8uCgozLiBBIHByZXNlbnRlIGxpY2Vuw6dhIHRhbWLDqW0gYWJyYW5nZSwgbm9zIG1lc21vcyB0ZXJtb3MgZXN0YWJlbGVjaWRvcwpubyBpdGVtIDIsIHN1cHJhLCBxdWFscXVlciBkaXJlaXRvIGRlIGNvbXVuaWNhw6fDo28gYW8gcMO6YmxpY28gY2Fiw612ZWwKZW0gcmVsYcOnw6NvIMOgIE9icmEgb3JhIGRlcG9zaXRhZGEsIGluY2x1aW5kby1zZSBvcyB1c29zIHJlZmVyZW50ZXMgw6AKcmVwcmVzZW50YcOnw6NvIHDDumJsaWNhIGUvb3UgZXhlY3XDp8OjbyBww7pibGljYSwgYmVtIGNvbW8gcXVhbHF1ZXIgb3V0cmEKbW9kYWxpZGFkZSBkZSBjb211bmljYcOnw6NvIGFvIHDDumJsaWNvIHF1ZSBleGlzdGEgb3UgdmVuaGEgYSBleGlzdGlyLApub3MgdGVybW9zIGRvIGFydGlnbyA2OCBlIHNlZ3VpbnRlcyBkYSBMZWkgOS42MTAvOTgsIG5hIGV4dGVuc8OjbyBxdWUKZm9yIGFwbGljw6F2ZWwgYW9zIHNlcnZpw6dvcyBwcmVzdGFkb3MgYW8gcMO6YmxpY28gcGVsYSBCaWJsaW90ZWNhClZpcnR1YWwgRkdWLgoKNC4gRXN0YSBsaWNlbsOnYSBhYnJhbmdlLCBhaW5kYSwgbm9zIG1lc21vcyB0ZXJtb3MgZXN0YWJlbGVjaWRvcyBubwppdGVtIDIsIHN1cHJhLCB0b2RvcyBvcyBkaXJlaXRvcyBjb25leG9zIGRlIGFydGlzdGFzIGludMOpcnByZXRlcyBvdQpleGVjdXRhbnRlcywgcHJvZHV0b3JlcyBmb25vZ3LDoWZpY29zIG91IGVtcHJlc2FzIGRlIHJhZGlvZGlmdXPDo28gcXVlCmV2ZW50dWFsbWVudGUgc2VqYW0gYXBsaWPDoXZlaXMgZW0gcmVsYcOnw6NvIMOgIG9icmEgZGVwb3NpdGFkYSwgZW0KY29uZm9ybWlkYWRlIGNvbSBvIHJlZ2ltZSBmaXhhZG8gbm8gVMOtdHVsbyBWIGRhIExlaSA5LjYxMC85OC4KCjUuIFNlIGEgT2JyYSBkZXBvc2l0YWRhIGZvaSBvdSDDqSBvYmpldG8gZGUgZmluYW5jaWFtZW50byBwb3IKaW5zdGl0dWnDp8O1ZXMgZGUgZm9tZW50byDDoCBwZXNxdWlzYSBvdSBxdWFscXVlciBvdXRyYSBzZW1lbGhhbnRlLCB2b2PDqgpvdSBvIHRpdHVsYXIgYXNzZWd1cmEgcXVlIGN1bXByaXUgdG9kYXMgYXMgb2JyaWdhw6fDtWVzIHF1ZSBsaGUgZm9yYW0KaW1wb3N0YXMgcGVsYSBpbnN0aXR1acOnw6NvIGZpbmFuY2lhZG9yYSBlbSByYXrDo28gZG8gZmluYW5jaWFtZW50bywgZQpxdWUgbsOjbyBlc3TDoSBjb250cmFyaWFuZG8gcXVhbHF1ZXIgZGlzcG9zacOnw6NvIGNvbnRyYXR1YWwgcmVmZXJlbnRlIMOgCnB1YmxpY2HDp8OjbyBkbyBjb250ZcO6ZG8gb3JhIHN1Ym1ldGlkbyDDoCBCaWJsaW90ZWNhIFZpcnR1YWwgRkdWLgoKNi4gQ2FzbyBhIE9icmEgb3JhIGRlcG9zaXRhZGEgZW5jb250cmUtc2UgbGljZW5jaWFkYSBzb2IgdW1hIGxpY2Vuw6dhCkNyZWF0aXZlIENvbW1vbnMgKHF1YWxxdWVyIHZlcnPDo28pLCBzb2IgYSBsaWNlbsOnYSBHTlUgRnJlZQpEb2N1bWVudGF0aW9uIExpY2Vuc2UgKHF1YWxxdWVyIHZlcnPDo28pLCBvdSBvdXRyYSBsaWNlbsOnYSBxdWFsaWZpY2FkYQpjb21vIGxpdnJlIHNlZ3VuZG8gb3MgY3JpdMOpcmlvcyBkYSBEZWZpbml0aW9uIG9mIEZyZWUgQ3VsdHVyYWwgV29ya3MKKGRpc3BvbsOtdmVsIGVtOiBodHRwOi8vZnJlZWRvbWRlZmluZWQub3JnL0RlZmluaXRpb24pIG91IEZyZWUgU29mdHdhcmUKRGVmaW5pdGlvbiAoZGlzcG9uw612ZWwgZW06IGh0dHA6Ly93d3cuZ251Lm9yZy9waGlsb3NvcGh5L2ZyZWUtc3cuaHRtbCksIApvIGFycXVpdm8gcmVmZXJlbnRlIMOgIE9icmEgZGV2ZSBpbmRpY2FyIGEgbGljZW7Dp2EgYXBsaWPDoXZlbCBlbQpjb250ZcO6ZG8gbGVnw612ZWwgcG9yIHNlcmVzIGh1bWFub3MgZSwgc2UgcG9zc8OtdmVsLCB0YW1iw6ltIGVtIG1ldGFkYWRvcwpsZWfDrXZlaXMgcG9yIG3DoXF1aW5hLiBBIGluZGljYcOnw6NvIGRhIGxpY2Vuw6dhIGFwbGljw6F2ZWwgZGV2ZSBzZXIKYWNvbXBhbmhhZGEgZGUgdW0gbGluayBwYXJhIG9zIHRlcm1vcyBkZSBsaWNlbmNpYW1lbnRvIG91IHN1YSBjw7NwaWEKaW50ZWdyYWwuCgoKQW8gY29uY2x1aXIgYSBwcmVzZW50ZSBldGFwYSBlIGFzIGV0YXBhcyBzdWJzZXHDvGVudGVzIGRvIHByb2Nlc3NvIGRlCnN1Ym1pc3PDo28gZGUgYXJxdWl2b3Mgw6AgQmlibGlvdGVjYSBWaXJ0dWFsIEZHViwgdm9jw6ogYXRlc3RhIHF1ZSBsZXUgZQpjb25jb3JkYSBpbnRlZ3JhbG1lbnRlIGNvbSBvcyB0ZXJtb3MgYWNpbWEgZGVsaW1pdGFkb3MsIGFzc2luYW5kby1vcwpzZW0gZmF6ZXIgcXVhbHF1ZXIgcmVzZXJ2YSBlIG5vdmFtZW50ZSBjb25maXJtYW5kbyBxdWUgY3VtcHJlIG9zCnJlcXVpc2l0b3MgaW5kaWNhZG9zIG5vIGl0ZW0gMSwgc3VwcmEuCgpIYXZlbmRvIHF1YWxxdWVyIGRpc2NvcmTDom5jaWEgZW0gcmVsYcOnw6NvIGFvcyBwcmVzZW50ZXMgdGVybW9zIG91IG7Do28Kc2UgdmVyaWZpY2FuZG8gbyBleGlnaWRvIG5vIGl0ZW0gMSwgc3VwcmEsIHZvY8OqIGRldmUgaW50ZXJyb21wZXIKaW1lZGlhdGFtZW50ZSBvIHByb2Nlc3NvIGRlIHN1Ym1pc3PDo28uIEEgY29udGludWlkYWRlIGRvIHByb2Nlc3NvCmVxdWl2YWxlIMOgIGFzc2luYXR1cmEgZGVzdGUgZG9jdW1lbnRvLCBjb20gdG9kYXMgYXMgY29uc2Vxw7zDqm5jaWFzIG5lbGUKcHJldmlzdGFzLCBzdWplaXRhbmRvLXNlIG8gc2lnbmF0w6FyaW8gYSBzYW7Dp8O1ZXMgY2l2aXMgZSBjcmltaW5haXMgY2Fzbwpuw6NvIHNlamEgdGl0dWxhciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgcGF0cmltb25pYWlzIGUvb3UgY29uZXhvcwphcGxpY8OhdmVpcyDDoCBPYnJhIGRlcG9zaXRhZGEgZHVyYW50ZSBlc3RlIHByb2Nlc3NvLCBvdSBjYXNvIG7Do28gdGVuaGEKb2J0aWRvIHByw6l2aWEgZSBleHByZXNzYSBhdXRvcml6YcOnw6NvIGRvIHRpdHVsYXIgcGFyYSBvIGRlcMOzc2l0byBlCnRvZG9zIG9zIHVzb3MgZGEgT2JyYSBlbnZvbHZpZG9zLgoKClBhcmEgYSBzb2x1w6fDo28gZGUgcXVhbHF1ZXIgZMO6dmlkYSBxdWFudG8gYW9zIHRlcm1vcyBkZSBsaWNlbmNpYW1lbnRvIGUKbyBwcm9jZXNzbyBkZSBzdWJtaXNzw6NvLCBjbGlxdWUgbm8gbGluayAiRmFsZSBjb25vc2NvIi4K |
| dc.title.por.fl_str_mv |
Levantamento de indicadores através de data mining, Latent Dirichlet Allocation e TF-IDF |
| title |
Levantamento de indicadores através de data mining, Latent Dirichlet Allocation e TF-IDF |
| spellingShingle |
Levantamento de indicadores através de data mining, Latent Dirichlet Allocation e TF-IDF Noda, Mauricio Data mining Text mining Natural language processing Information retrieval Topic modeling Mineração de dados Mineração de texto Processamento de linguagem natural Recuperação de informação Modelagem de tópicos Alocação de Dirichlet Latente TF-IDF Administração de empresas Processamento da linguagem natural (Computação) Mineração de dados (Computação) Recuperação da informação Administração de empresas |
| title_short |
Levantamento de indicadores através de data mining, Latent Dirichlet Allocation e TF-IDF |
| title_full |
Levantamento de indicadores através de data mining, Latent Dirichlet Allocation e TF-IDF |
| title_fullStr |
Levantamento de indicadores através de data mining, Latent Dirichlet Allocation e TF-IDF |
| title_full_unstemmed |
Levantamento de indicadores através de data mining, Latent Dirichlet Allocation e TF-IDF |
| title_sort |
Levantamento de indicadores através de data mining, Latent Dirichlet Allocation e TF-IDF |
| author |
Noda, Mauricio |
| author_facet |
Noda, Mauricio |
| author_role |
author |
| dc.contributor.unidadefgv.por.fl_str_mv |
Escolas::EAESP |
| dc.contributor.member.none.fl_str_mv |
Mirapalheta, Gustavo Correa Justo Filho, João Francisco Damasceno, Marcos |
| dc.contributor.author.fl_str_mv |
Noda, Mauricio |
| dc.contributor.advisor1.fl_str_mv |
Gelis Filho, Antonio |
| contributor_str_mv |
Gelis Filho, Antonio |
| dc.subject.eng.fl_str_mv |
Data mining Text mining Natural language processing Information retrieval Topic modeling |
| topic |
Data mining Text mining Natural language processing Information retrieval Topic modeling Mineração de dados Mineração de texto Processamento de linguagem natural Recuperação de informação Modelagem de tópicos Alocação de Dirichlet Latente TF-IDF Administração de empresas Processamento da linguagem natural (Computação) Mineração de dados (Computação) Recuperação da informação Administração de empresas |
| dc.subject.por.fl_str_mv |
Mineração de dados Mineração de texto Processamento de linguagem natural Recuperação de informação Modelagem de tópicos Alocação de Dirichlet Latente TF-IDF |
| dc.subject.area.por.fl_str_mv |
Administração de empresas |
| dc.subject.bibliodata.por.fl_str_mv |
Processamento da linguagem natural (Computação) Mineração de dados (Computação) Recuperação da informação Administração de empresas |
| description |
A pesquisa visou identificar aplicações de técnicas de Processamento de Linguagem Natural (NLP) na prática de administração de empresas. Técnicas de NLP visam à análise automatizada de documentos escritos em linguagem natural, sem uma padronização das informações exibidas. Entre elas, duas técnicas destinadas à Recuperação de Informação foram utilizadas. Uma técnica específica, a Alocação de Dirichlet Latente (LDA) mostrou-se eficaz na classificação automática de relatórios de administração, agrupando-os por similaridade. Uma segunda técnica, busca de palavras por TF-IDF, revelou-se eficaz na identificação automatizada de grupos de documentos com indicadores desejados, em sua maioria, de natureza financeira. Uma terceira técnica, Mineração de Dados, foi combinada às duas primeiras para automatizar a coleta em massa de relatórios do repositório da CVM. O resultado combinado das três técnicas foi, a partir de uma palavra-chave de escolha e um grande repositório remoto de relatórios da CVM, o de conseguir localizar automaticamente documentos específicos contendo indicadores financeiros desejados, em meio a centenas de milhares de outros documentos. A busca automatizada desses documentos, que, de outra forma, poderiam ter sido ignorados devido ao excesso de dados a serem analisados, pode contribuir para a melhoria da prática administrativa. |
| publishDate |
2020 |
| dc.date.issued.fl_str_mv |
2020-12-07 |
| dc.date.accessioned.fl_str_mv |
2021-01-11T15:29:59Z |
| dc.date.available.fl_str_mv |
2021-01-11T15:29:59Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/10438/30005 |
| url |
https://hdl.handle.net/10438/30005 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional do FGV (FGV Repositório Digital) instname:Fundação Getulio Vargas (FGV) instacron:FGV |
| instname_str |
Fundação Getulio Vargas (FGV) |
| instacron_str |
FGV |
| institution |
FGV |
| reponame_str |
Repositório Institucional do FGV (FGV Repositório Digital) |
| collection |
Repositório Institucional do FGV (FGV Repositório Digital) |
| bitstream.url.fl_str_mv |
https://repositorio.fgv.br/bitstreams/21fa6e53-c052-4bc8-98b5-5623cbde99ac/download https://repositorio.fgv.br/bitstreams/2e61df6c-0687-4173-8cc6-ab882ae0e93f/download https://repositorio.fgv.br/bitstreams/e904b520-63ec-44d8-a1a6-312df8193a0b/download https://repositorio.fgv.br/bitstreams/bf2709a2-60e6-46a7-a4c7-638d306aed5a/download |
| bitstream.checksum.fl_str_mv |
dfb340242cced38a6cca06c627998fa1 57137cf3f11b5fe2d5ceafa4697c8e28 aac6f5079ae789ab92290fdb28e87e07 36ba073a69fdf6fc0d5bad1e8788b08b |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositório Institucional do FGV (FGV Repositório Digital) - Fundação Getulio Vargas (FGV) |
| repository.mail.fl_str_mv |
|
| _version_ |
1827842522965082112 |