Параметри
Розробка моделі для виконання морфологічного тегування українськомовних текстів на основі претренованого трансформера GPT-3.5
Дата випуску :
2024
Автор(и) :
Кучинський Кирило Сергійович
Науковий(і) керівник(и)/редактор(и) :
Костіков Микола
Анотація :
Ця робота присвячена розробці моделі для автоматичного частиномовного тегування українських текстів на базі трансформера GPT-3.5. Ця робота є актуальною через зростаючу потребу в автоматизації обробки українськомовних текстів, включно з аналіом сучасного розмовного мовлення.
Об’єктом дослідження є методи та інструменти POS-тегування для автоматизації обробки текстових даних.
Предметом є порівняння ефективності різних інструментів для POS-тегування з натренованою моделлю GPT-3.5.
Метою дослідження є розробка моделі для автоматичного тегування частин мови в українському тексті на основі GPT-3.5 та оцінка її ефективності.
Завдання включають аналіз наявних інструментів POS-тегування, тренування моделі GPT-3.5 на українських текстах та порівняння результатів.
Методологічні підходи базуються на сучасних досягненнях глибокого навчання та трансформерних моделей.
Новизна дослідження полягає у впровадженні GPT-3.5 для обробки українського тексту.
У Розділі 1 описано сучасний стан галузі автоматичної морфологічної розмітки.
Розділ 2 присвячений розробці моделі для виконання автоматичного тегування частин мови на основі претренованого трансформера GPT-3.5. Описано процес формування тренувального набору даних, розробки порівняльного застосунку, процедуру файн-тюнінгу моделі та результати тренування.
У Розділі 3 розглядаються методи тестування розробленої моделі. Зокрема, описано процес збору текстів для тестування та проведення порівняльного аналізу з іншими інструментами. Особлива увага приділяється проблемам обробки текстів з помилками, нестандартним регістром, чергуванням мов та граматичною омонімією.
Результати роботи підтверджують, що впровадження GPT-3.5 для обробки українського тексту значно покращило якість автоматичного тегування, зокрема для текстів розмовного мовлення.
Об’єктом дослідження є методи та інструменти POS-тегування для автоматизації обробки текстових даних.
Предметом є порівняння ефективності різних інструментів для POS-тегування з натренованою моделлю GPT-3.5.
Метою дослідження є розробка моделі для автоматичного тегування частин мови в українському тексті на основі GPT-3.5 та оцінка її ефективності.
Завдання включають аналіз наявних інструментів POS-тегування, тренування моделі GPT-3.5 на українських текстах та порівняння результатів.
Методологічні підходи базуються на сучасних досягненнях глибокого навчання та трансформерних моделей.
Новизна дослідження полягає у впровадженні GPT-3.5 для обробки українського тексту.
У Розділі 1 описано сучасний стан галузі автоматичної морфологічної розмітки.
Розділ 2 присвячений розробці моделі для виконання автоматичного тегування частин мови на основі претренованого трансформера GPT-3.5. Описано процес формування тренувального набору даних, розробки порівняльного застосунку, процедуру файн-тюнінгу моделі та результати тренування.
У Розділі 3 розглядаються методи тестування розробленої моделі. Зокрема, описано процес збору текстів для тестування та проведення порівняльного аналізу з іншими інструментами. Особлива увага приділяється проблемам обробки текстів з помилками, нестандартним регістром, чергуванням мов та граматичною омонімією.
Результати роботи підтверджують, що впровадження GPT-3.5 для обробки українського тексту значно покращило якість автоматичного тегування, зокрема для текстів розмовного мовлення.
Бібліографічний опис :
Кучинський К. С. Розробка моделі для виконання морфологічного тегування українськомовних текстів на основі претренованого трансформера GPT-3.5 : кваліфікаційна робота бакалавра : 035.10 Філологія (прикладна лінгвістика) / наук. кер. М. Костіков. Київ, 2024. 68 с.
Файл(и) :
Вантажиться...
Формат
Adobe PDF
Розмір :
1.53 MB
Контрольна сума:
(MD5):0ea74a227fa686dd77d2c0aa30ca096a
Ця робота розповсюджується на умовах ліцензії Creative Commons CC BY-NC