Кучинський Кирило СергійовичКостіков Микола2024-07-162024-07-162024Кучинський К. С. Розробка моделі для виконання морфологічного тегування українськомовних текстів на основі претренованого трансформера GPT-3.5 : кваліфікаційна робота бакалавра : 035.10 Філологія (прикладна лінгвістика) / наук. кер. М. Костіков. Київ, 2024. 68 с.https://ir.library.knu.ua/handle/15071834/2857Ця робота присвячена розробці моделі для автоматичного частиномовного тегування українських текстів на базі трансформера GPT-3.5. Ця робота є актуальною через зростаючу потребу в автоматизації обробки українськомовних текстів, включно з аналіом сучасного розмовного мовлення. Об’єктом дослідження є методи та інструменти POS-тегування для автоматизації обробки текстових даних. Предметом є порівняння ефективності різних інструментів для POS-тегування з натренованою моделлю GPT-3.5. Метою дослідження є розробка моделі для автоматичного тегування частин мови в українському тексті на основі GPT-3.5 та оцінка її ефективності. Завдання включають аналіз наявних інструментів POS-тегування, тренування моделі GPT-3.5 на українських текстах та порівняння результатів. Методологічні підходи базуються на сучасних досягненнях глибокого навчання та трансформерних моделей. Новизна дослідження полягає у впровадженні GPT-3.5 для обробки українського тексту. У Розділі 1 описано сучасний стан галузі автоматичної морфологічної розмітки. Розділ 2 присвячений розробці моделі для виконання автоматичного тегування частин мови на основі претренованого трансформера GPT-3.5. Описано процес формування тренувального набору даних, розробки порівняльного застосунку, процедуру файн-тюнінгу моделі та результати тренування. У Розділі 3 розглядаються методи тестування розробленої моделі. Зокрема, описано процес збору текстів для тестування та проведення порівняльного аналізу з іншими інструментами. Особлива увага приділяється проблемам обробки текстів з помилками, нестандартним регістром, чергуванням мов та граматичною омонімією. Результати роботи підтверджують, що впровадження GPT-3.5 для обробки українського тексту значно покращило якість автоматичного тегування, зокрема для текстів розмовного мовлення.This paper is devoted to the development of a model for automatic part-of-speech tagging of Ukrainian texts based on the GPT-3.5 transformer. This work is relevant due to the growing need to automate the processing of Ukrainian-language texts, including the analysis of modern colloquial language. The object of research is POS tagging methods and tools for automating text data processing. The subject is to compare the efficiency of various POS-tagging tools with the trained GPT-3.5 model. The purpose of the study is to develop a model for automatic tagging of parts of speech in Ukrainian text based on GPT-3.5 and to evaluate its effectiveness. The tasks include analyzing existing POS tagging tools, training the GPT-3.5 model on Ukrainian texts, and comparing the results. The methodological approaches are based on modern advances in deep learning and transformational models. The novelty of the study lies in the implementation of GPT-3.5 for Ukrainian text processing. Section 1 describes the current state of the art in automatic morphological tagging. Section 2 describes the process of forming a training dataset, developing a comparative application, the procedure of model fine-tuning, and the training results. Section 3 discusses the methods of testing the developed model. In particular, it describes the process of collecting texts for testing and conducting a comparative analysis with other tools. Particular attention is paid to the problems of processing texts with errors, non-standard case, language alternation, and grammatical homonymy. The results confirm that the implementation of GPT-3.5 for Ukrainian text processing has significantly improved the quality of automatic tagging, in particular for spoken texts.uaPOS-тегуванняGPT-3.5українська мовакод-світчинглінгвістичний аналізобробка природної мови (NLP)файн-тюнінгморфологічна розміткаPOS-taggingukrainian languagecode-switchinglinguistic analysisnatural language processing (NLP)fine-tuningmorphological taggingРозробка моделі для виконання морфологічного тегування українськомовних текстів на основі претренованого трансформера GPT-3.5Бакалаврська робота