Розробка моделі для виконання морфологічного тегування українськомовних текстів на основі претренованого трансформера GPT-3.5

Кучинський Кирило Сергійович

Розробка моделі для виконання морфологічного тегування українськомовних текстів на основі претренованого трансформера GPT-3.5

Тип публікації :

Бакалаврська робота

Дата випуску :

2024

Автор(и) :

Кучинський Кирило Сергійович

Науковий(і) керівник(и)/редактор(и) :

Костіков Микола

Мова основного тексту :

ua

eKNUTSHIR URL :

https://ir.library.knu.ua/handle/15071834/2857

Цитування :

Кучинський К. С. Розробка моделі для виконання морфологічного тегування українськомовних текстів на основі претренованого трансформера GPT-3.5 : кваліфікаційна робота бакалавра : 035.10 Філологія (прикладна лінгвістика) / наук. кер. М. Костіков. Київ, 2024. 68 с.

Ця робота присвячена розробці моделі для автоматичного частиномовного тегування українських текстів на базі трансформера GPT-3.5. Ця робота є актуальною через зростаючу потребу в автоматизації обробки українськомовних текстів, включно з аналіом сучасного розмовного мовлення.
Об’єктом дослідження є методи та інструменти POS-тегування для автоматизації обробки текстових даних.
Предметом є порівняння ефективності різних інструментів для POS-тегування з натренованою моделлю GPT-3.5.
Метою дослідження є розробка моделі для автоматичного тегування частин мови в українському тексті на основі GPT-3.5 та оцінка її ефективності.
Завдання включають аналіз наявних інструментів POS-тегування, тренування моделі GPT-3.5 на українських текстах та порівняння результатів.
Методологічні підходи базуються на сучасних досягненнях глибокого навчання та трансформерних моделей.
Новизна дослідження полягає у впровадженні GPT-3.5 для обробки українського тексту.
У Розділі 1 описано сучасний стан галузі автоматичної морфологічної розмітки.
Розділ 2 присвячений розробці моделі для виконання автоматичного тегування частин мови на основі претренованого трансформера GPT-3.5. Описано процес формування тренувального набору даних, розробки порівняльного застосунку, процедуру файн-тюнінгу моделі та результати тренування.
У Розділі 3 розглядаються методи тестування розробленої моделі. Зокрема, описано процес збору текстів для тестування та проведення порівняльного аналізу з іншими інструментами. Особлива увага приділяється проблемам обробки текстів з помилками, нестандартним регістром, чергуванням мов та граматичною омонімією.
Результати роботи підтверджують, що впровадження GPT-3.5 для обробки українського тексту значно покращило якість автоматичного тегування, зокрема для текстів розмовного мовлення.

Ключові слова :

POS-тегування

GPT-3.5

українська мова

код-світчинг

лінгвістичний аналіз

обробка природної мов...

файн-тюнінг

морфологічна розмітка...

POS-tagging

ukrainian language

code-switching

linguistic analysis

natural language proc...

fine-tuning

morphological tagging...

Галузі знань та спеціальності :

035 Філологія

Галузі науки і техніки (FOS) :

Гуманітарні науки

Тип зібрання :

Publication

Файл(и) :

Формат

Adobe PDF

Розмір :

1.53 MB

Контрольна сума:

(MD5):0ea74a227fa686dd77d2c0aa30ca096a

Ця робота розповсюджується на умовах ліцензії Creative Commons CC BY-NC

Параметри

Розробка моделі для виконання морфологічного тегування українськомовних текстів на основі претренованого трансформера GPT-3.5