Reconhecimento de entidades nomeadas em editais de licitação

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Souza Filho, Ricardo Pereira de lattes
Orientador(a): Silva, Nádia Félix Felipe da lattes
Banca de defesa: Silva, Nádia Félix Felipe da, Fernandes, Deborah Silva Alves, Souza, Ellen Polliana Ramos
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
dARK ID: ark:/38995/001300000g05v
Idioma: por
Instituição de defesa: Universidade Federal de Goiás
Programa de Pós-Graduação: Programa de Pós-graduação em Ciência da Computação (INF)
Departamento: Instituto de Informática - INF (RMG)
País: Brasil
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: http://repositorio.bc.ufg.br/tede/handle/tede/13964
Resumo: This work explores the use of large language models (LLMs) for information extraction in public procurement notices, focusing on the Named Entity Recognition (NER) task. Given the diverse and unstandardized nature of these documents, the study proposes a methodology that integrates semantic selection techniques with Zero-Shot and Few-Shot scenarios, aiming to optimize the annotation and entity extraction process, reduce manual intervention, and improve accuracy. The first step involved building an annotated corpus containing named entities from pro-curement notices. Subsequently, the BERTimbau, BERTikal, and mDeBERTa models were trained in a supervised manner using this annotated dataset. Experiments showed that BERTimbau achieved the best overall performance, with an F1-score above 0.80. In the Zero-Shot and Few-Shot scenarios, various prompt templates and example selection strategies were tested. Models such as GPT-4 and LLaMA achieved performance compa-rable to supervised models when aided by semantically relevant examples, despite modest results in the absence of examples. The results indicate that combining enriched prompts with examples and the pre-selection of relevant sentences during the annotation phase contributes to greater accuracy and efficiency in the NER process for procurement notices. The proposed methodology can be applied to information extraction, with potential impacts on transparency and auditing in public procurement.
id UFG-2_7651b9060a6bc6406962be2ef0fa4b5c
oai_identifier_str oai:repositorio.bc.ufg.br:tede/13964
network_acronym_str UFG-2
network_name_str Repositório Institucional da UFG
repository_id_str
spelling Silva, Nádia Félix Felipe dahttp://lattes.cnpq.br/7864834001694765Silva, Nádia Félix Felipe daFernandes, Deborah Silva AlvesSouza, Ellen Polliana Ramoshttp://lattes.cnpq.br/6591002408134638Souza Filho, Ricardo Pereira de2025-03-18T20:47:23Z2025-03-18T20:47:23Z2024-11-29SOUZA FILHO, R. P. Reconhecimento de entidades nomeadas em editais de licitação. 2024. 63 f. Dissertação (Mestrado em Ciência da Computação) – Instituto de Informática, Universidade Federal de Goiás, Goiânia, 2024.http://repositorio.bc.ufg.br/tede/handle/tede/13964ark:/38995/001300000g05vThis work explores the use of large language models (LLMs) for information extraction in public procurement notices, focusing on the Named Entity Recognition (NER) task. Given the diverse and unstandardized nature of these documents, the study proposes a methodology that integrates semantic selection techniques with Zero-Shot and Few-Shot scenarios, aiming to optimize the annotation and entity extraction process, reduce manual intervention, and improve accuracy. The first step involved building an annotated corpus containing named entities from pro-curement notices. Subsequently, the BERTimbau, BERTikal, and mDeBERTa models were trained in a supervised manner using this annotated dataset. Experiments showed that BERTimbau achieved the best overall performance, with an F1-score above 0.80. In the Zero-Shot and Few-Shot scenarios, various prompt templates and example selection strategies were tested. Models such as GPT-4 and LLaMA achieved performance compa-rable to supervised models when aided by semantically relevant examples, despite modest results in the absence of examples. The results indicate that combining enriched prompts with examples and the pre-selection of relevant sentences during the annotation phase contributes to greater accuracy and efficiency in the NER process for procurement notices. The proposed methodology can be applied to information extraction, with potential impacts on transparency and auditing in public procurement.Este trabalho explora o uso de modelos de linguagem natural (LLMs) para extração de informações em editais de licitação, focando na tarefa de Reconhecimento de Entidades Nomeadas (REN). Dada a natureza diversa e não padronizada dos editais, o trabalho propõe uma metodologia que integra técnicas de seleção semântica e cenários de Zero-Shot e Few-Shot, com o objetivo de otimizar o processo de anotação e extração de entidades, reduzindo a necessidade de intervenção manual e melhorando a precisão. O primeiro passo foi a construção de um corpus anotado com entidades nomeadas em editais de licitação. Em seguida, os modelos BERTimbau, BERTikal e mDeBERTa foram treinados supervisionadamente neste conjunto de dados anotado. Os experimentos mostraram que o BERTimbau apresentou melhor desempenho geral, alcançando valores acima de 0.80 para a métrica de avaliação F1-score. Nos cenários Zero-Shot e Few-Shot, diferentes templates de prompt e estratégias de seleção de exemplos foram testados. Modelos como GPT-4 e LLaMA obtiveram desempenho equivalente aos modelos que passaram por treinamento supervisionado com o auxílio de exemplos semanticamente relevantes, apesar de resultados modestos no cenário sem exemplos. Os resultados indicam que a combinação de prompts enriquecidos com exemplos e a pré-seleção de sentenças relevantes na etapa de anotação contribui para maior precisão e eficiência do processo de REN em editais de licitação. A metodologia apresentada pode ser aplicada para extração de informações, com potencial impacto na transparência e auditoria de licitações públicas.Fundação de Amparo à Pesquisa do Estado de GoiásporUniversidade Federal de GoiásPrograma de Pós-graduação em Ciência da Computação (INF)UFGBrasilInstituto de Informática - INF (RMG)http://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessProcessamento de Linguagem NaturalReconhecimento de Entidades NomeadasEditais de LicitaçãoNatural Language ProcessingNamed Entity RecognitionProcurement NoticesCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOReconhecimento de entidades nomeadas em editais de licitaçãoNamed Entity Recognition in Bidding Noticesinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFGinstname:Universidade Federal de Goiás (UFG)instacron:UFGLICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://repositorio.bc.ufg.br/tede/bitstreams/9a3a2a45-b469-4d98-a18f-bb6c66b31e44/download8a4605be74aa9ea9d79846c1fba20a33MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8805http://repositorio.bc.ufg.br/tede/bitstreams/123565fd-ec46-42d7-9c2f-e8b0aa8903d0/download4460e5956bc1d1639be9ae6146a50347MD52ORIGINALDissertação - Ricardo Pereira de Souza Filho - 2024.pdfDissertação - Ricardo Pereira de Souza Filho - 2024.pdfapplication/pdf11395208http://repositorio.bc.ufg.br/tede/bitstreams/14f9dc98-66bd-401d-b03f-8a5d03411609/download5bdda80e7074fa4223117c5646c9c983MD53tede/139642025-03-18 17:47:23.832http://creativecommons.org/licenses/by-nc-nd/4.0/Acesso Abertoopen.accessoai:repositorio.bc.ufg.br:tede/13964http://repositorio.bc.ufg.br/tedeRepositório InstitucionalPUBhttps://repositorio.bc.ufg.br/tedeserver/oai/requestgrt.bc@ufg.bropendoar:oai:repositorio.bc.ufg.br:tede/12342025-03-18T20:47:23Repositório Institucional da UFG - Universidade Federal de Goiás (UFG)falseTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=
dc.title.none.fl_str_mv Reconhecimento de entidades nomeadas em editais de licitação
dc.title.alternative.eng.fl_str_mv Named Entity Recognition in Bidding Notices
title Reconhecimento de entidades nomeadas em editais de licitação
spellingShingle Reconhecimento de entidades nomeadas em editais de licitação
Souza Filho, Ricardo Pereira de
Processamento de Linguagem Natural
Reconhecimento de Entidades Nomeadas
Editais de Licitação
Natural Language Processing
Named Entity Recognition
Procurement Notices
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short Reconhecimento de entidades nomeadas em editais de licitação
title_full Reconhecimento de entidades nomeadas em editais de licitação
title_fullStr Reconhecimento de entidades nomeadas em editais de licitação
title_full_unstemmed Reconhecimento de entidades nomeadas em editais de licitação
title_sort Reconhecimento de entidades nomeadas em editais de licitação
author Souza Filho, Ricardo Pereira de
author_facet Souza Filho, Ricardo Pereira de
author_role author
dc.contributor.advisor1.fl_str_mv Silva, Nádia Félix Felipe da
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/7864834001694765
dc.contributor.referee1.fl_str_mv Silva, Nádia Félix Felipe da
dc.contributor.referee2.fl_str_mv Fernandes, Deborah Silva Alves
dc.contributor.referee3.fl_str_mv Souza, Ellen Polliana Ramos
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/6591002408134638
dc.contributor.author.fl_str_mv Souza Filho, Ricardo Pereira de
contributor_str_mv Silva, Nádia Félix Felipe da
Silva, Nádia Félix Felipe da
Fernandes, Deborah Silva Alves
Souza, Ellen Polliana Ramos
dc.subject.por.fl_str_mv Processamento de Linguagem Natural
Reconhecimento de Entidades Nomeadas
Editais de Licitação
topic Processamento de Linguagem Natural
Reconhecimento de Entidades Nomeadas
Editais de Licitação
Natural Language Processing
Named Entity Recognition
Procurement Notices
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.subject.eng.fl_str_mv Natural Language Processing
Named Entity Recognition
Procurement Notices
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description This work explores the use of large language models (LLMs) for information extraction in public procurement notices, focusing on the Named Entity Recognition (NER) task. Given the diverse and unstandardized nature of these documents, the study proposes a methodology that integrates semantic selection techniques with Zero-Shot and Few-Shot scenarios, aiming to optimize the annotation and entity extraction process, reduce manual intervention, and improve accuracy. The first step involved building an annotated corpus containing named entities from pro-curement notices. Subsequently, the BERTimbau, BERTikal, and mDeBERTa models were trained in a supervised manner using this annotated dataset. Experiments showed that BERTimbau achieved the best overall performance, with an F1-score above 0.80. In the Zero-Shot and Few-Shot scenarios, various prompt templates and example selection strategies were tested. Models such as GPT-4 and LLaMA achieved performance compa-rable to supervised models when aided by semantically relevant examples, despite modest results in the absence of examples. The results indicate that combining enriched prompts with examples and the pre-selection of relevant sentences during the annotation phase contributes to greater accuracy and efficiency in the NER process for procurement notices. The proposed methodology can be applied to information extraction, with potential impacts on transparency and auditing in public procurement.
publishDate 2024
dc.date.issued.fl_str_mv 2024-11-29
dc.date.accessioned.fl_str_mv 2025-03-18T20:47:23Z
dc.date.available.fl_str_mv 2025-03-18T20:47:23Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv SOUZA FILHO, R. P. Reconhecimento de entidades nomeadas em editais de licitação. 2024. 63 f. Dissertação (Mestrado em Ciência da Computação) – Instituto de Informática, Universidade Federal de Goiás, Goiânia, 2024.
dc.identifier.uri.fl_str_mv http://repositorio.bc.ufg.br/tede/handle/tede/13964
dc.identifier.dark.fl_str_mv ark:/38995/001300000g05v
identifier_str_mv SOUZA FILHO, R. P. Reconhecimento de entidades nomeadas em editais de licitação. 2024. 63 f. Dissertação (Mestrado em Ciência da Computação) – Instituto de Informática, Universidade Federal de Goiás, Goiânia, 2024.
ark:/38995/001300000g05v
url http://repositorio.bc.ufg.br/tede/handle/tede/13964
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Goiás
dc.publisher.program.fl_str_mv Programa de Pós-graduação em Ciência da Computação (INF)
dc.publisher.initials.fl_str_mv UFG
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Instituto de Informática - INF (RMG)
publisher.none.fl_str_mv Universidade Federal de Goiás
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFG
instname:Universidade Federal de Goiás (UFG)
instacron:UFG
instname_str Universidade Federal de Goiás (UFG)
instacron_str UFG
institution UFG
reponame_str Repositório Institucional da UFG
collection Repositório Institucional da UFG
bitstream.url.fl_str_mv http://repositorio.bc.ufg.br/tede/bitstreams/9a3a2a45-b469-4d98-a18f-bb6c66b31e44/download
http://repositorio.bc.ufg.br/tede/bitstreams/123565fd-ec46-42d7-9c2f-e8b0aa8903d0/download
http://repositorio.bc.ufg.br/tede/bitstreams/14f9dc98-66bd-401d-b03f-8a5d03411609/download
bitstream.checksum.fl_str_mv 8a4605be74aa9ea9d79846c1fba20a33
4460e5956bc1d1639be9ae6146a50347
5bdda80e7074fa4223117c5646c9c983
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFG - Universidade Federal de Goiás (UFG)
repository.mail.fl_str_mv grt.bc@ufg.br
_version_ 1846536693482520576