Репозитарій КНУ
  • Yкраї́нська
  • English
  • Увійти
    Новий користувач? Зареєструйтесь.Забули пароль?
Репозитарій КНУ
  • Фонди & Зібрання
  • Статистика
  • Yкраї́нська
  • English
  • Увійти
    Новий користувач? Зареєструйтесь.Забули пароль?
  1. Головна
  2. Кваліфікаційні роботи | Qualifying works
  3. Бакалаврські роботи | Bachelor theses
  4. Розробка моделі для виконання морфологічного тегування українськомовних текстів на основі претренованого трансформера GPT-3.5
 
  • Деталі
Параметри

Розробка моделі для виконання морфологічного тегування українськомовних текстів на основі претренованого трансформера GPT-3.5

Дата випуску :
2024
Автор(и) :
Кучинський Кирило Сергійович
Науковий(і) керівник(и)/редактор(и) :
Костіков Микола
Анотація :
Ця робота присвячена розробці моделі для автоматичного частиномовного тегування українських текстів на базі трансформера GPT-3.5. Ця робота є актуальною через зростаючу потребу в автоматизації обробки українськомовних текстів, включно з аналіом сучасного розмовного мовлення.
Об’єктом дослідження є методи та інструменти POS-тегування для автоматизації обробки текстових даних.
Предметом є порівняння ефективності різних інструментів для POS-тегування з натренованою моделлю GPT-3.5.
Метою дослідження є розробка моделі для автоматичного тегування частин мови в українському тексті на основі GPT-3.5 та оцінка її ефективності.
Завдання включають аналіз наявних інструментів POS-тегування, тренування моделі GPT-3.5 на українських текстах та порівняння результатів.
Методологічні підходи базуються на сучасних досягненнях глибокого навчання та трансформерних моделей.
Новизна дослідження полягає у впровадженні GPT-3.5 для обробки українського тексту.
У Розділі 1 описано сучасний стан галузі автоматичної морфологічної розмітки.
Розділ 2 присвячений розробці моделі для виконання автоматичного тегування частин мови на основі претренованого трансформера GPT-3.5. Описано процес формування тренувального набору даних, розробки порівняльного застосунку, процедуру файн-тюнінгу моделі та результати тренування.
У Розділі 3 розглядаються методи тестування розробленої моделі. Зокрема, описано процес збору текстів для тестування та проведення порівняльного аналізу з іншими інструментами. Особлива увага приділяється проблемам обробки текстів з помилками, нестандартним регістром, чергуванням мов та граматичною омонімією.
Результати роботи підтверджують, що впровадження GPT-3.5 для обробки українського тексту значно покращило якість автоматичного тегування, зокрема для текстів розмовного мовлення.
Цитування :
Кучинський К. С. Розробка моделі для виконання морфологічного тегування українськомовних текстів на основі претренованого трансформера GPT-3.5 : кваліфікаційна робота бакалавра : 035.10 Філологія (прикладна лінгвістика) / наук. кер. М. Костіков. Київ, 2024. 68 с.
Ключові слова :

POS-тегування

GPT-3.5

українська мова

код-світчинг

лінгвістичний аналіз

обробка природної мов...

файн-тюнінг

морфологічна розмітка...

POS-tagging

ukrainian language

code-switching

linguistic analysis

natural language proc...

fine-tuning

morphological tagging...

eKNUTSHIR URL :
https://ir.library.knu.ua/handle/15071834/2857
Файл(и) :
Вантажиться...
Ескіз
Формат

Adobe PDF

Розмір :

1.53 MB

Контрольна сума:

(MD5):0ea74a227fa686dd77d2c0aa30ca096a

Ця робота розповсюджується на умовах ліцензії Creative Commons CC BY-NC

Налаштування куків Політика приватності Угода користувача Надіслати відгук

Побудовано за допомогою Програмне забезпечення DSpace-CRIS - Розширення підтримується та оптимізується 4Наука

м. Київ, вул. Володимирська, 58, к. 42

(044) 239-33-30

ir.library@knu.ua