Репозитарій КНУ
  • Yкраї́нська
  • English
  • Увійти
    Новий користувач? Зареєструйтесь.Забули пароль?
Репозитарій КНУ
  • Фонди & Зібрання
  • Статистика
  • Yкраї́нська
  • English
  • Увійти
    Новий користувач? Зареєструйтесь.Забули пароль?
  1. Головна
  2. Кваліфікаційні роботи | Qualifying works
  3. Бакалаврські роботи | Bachelor theses
  4. Розробка моделі для виконання розпізнавання іменованих сутностей в українському тексті на основі претренованого трансформера GPT-3.5
 
  • Деталі
Параметри

Розробка моделі для виконання розпізнавання іменованих сутностей в українському тексті на основі претренованого трансформера GPT-3.5

Тип публікації :
Бакалаврська робота
Дата випуску :
2024
Автор(и) :
Страп Андріана Володимирівна
Науковий(і) керівник(и)/редактор(и) :
Костіков Микола Павлович
Мова основного тексту :
ua
eKNUTSHIR URL :
https://ir.library.knu.ua/handle/15071834/2872
Цитування :
Страп А. В. Розробка моделі для виконання розпізнавання іменованих сутностей в українському тексті на основі претренованого трансформера GPT-3.5 : кваліфікаційна робота бакалавра : 035.10 Філологія (прикладна лінгвістика) / наук. кер. М. Костіков. Київ, 2024. 70 с.
У роботі розкрито значення розпізнавання іменованих сутностей (NER) та роль великих мовних моделей для автоматичного тегування частин мови в українському тексті.
Об’єктом дослідження є методи та інструменти розпізнавання іменованих сутностей для автоматизації обробки текстових даних.
Предметом є порівняння ефективності різних інструментів для розпізнавання іменованих сутностей з натренованою моделлю GPT-3.5.
Метою дослідження є розробка моделі для автоматичного тегування частин мови в українському тексті на основі GPT-3.5 та оцінка її ефективності. Завдання включають аналіз наявних інструментів розпізнавання іменованих сутностей, тренування моделі GPT-3.5 на українських текстах та порівняння результатів.
Методологічні підходи базуються на сучасних досягненнях глибокого навчання та трансформерних моделей, що дозволило досягти нових результатів у підвищенні точності та ефективності розпізнавання іменованих сутностей. Новизна дослідження полягає у впровадженні GPT-3.5 для обробки українського тексту, що покращило якість автоматичного тегування.
У першому розділі було розглянуто основні поняття та застосування розпізнавання іменованих сутностей, а також проведено огляд наявних інструментів для розпізнавання іменованих сутностей. Детально проаналізовано поняття великих мовних моделей та їх значення для обробки природної мови. Окрему увагу приділено значенню великих мовних моделей для розпізнавання іменованих сутностей, а також наведеним прикладом використання великих мовних моделей для цієї мети. Розділ завершується аналітичним оглядом напрацювань у сфері розпізнавання іменованих сутностей на основі великих мовних моделей.
У другому розділі розглядається розробка моделі для виконання розпізнавання іменованих сутностей в українському тексті на основі претренованого трансформера GPT-3. Описано підпункти, які охоплюють етапи розробки моделі, а також метрики, що використовувалися під час тренування моделі.
У третьому розділі розглядається процес тестування розробленої моделі. Описано збір даних для тестування та вивчено проблематику. Розроблено застосунок для порівняльного аналізу, а також детально описано процедуру порівняльного аналізу та оцінки. Представлено результати тестування та експертизи моделі.
Результати дослідження підтверджують, що модель GPT-3.5 демонструє високу точність та ефективність порівняно з іншими інструментами для NER.
Ключові слова :

розпізнавання іменова...

GPT-3.5

Обробка природної мов...

Глибоке навчання

Великі мовні моделі (...

SpaCy

Stanza

Flair

XLM-RoBERTa

named entity recognit...

Natural language proc...

Deep learning

Large Language Models...

Галузі знань та спеціальності :
035 Філологія
Галузі науки і техніки (FOS) :
Гуманітарні науки
Тип зібрання :
Publication
Файл(и) :
Вантажиться...
Ескіз
Формат

Adobe PDF

Розмір :

774.72 KB

Контрольна сума:

(MD5):39dec3a523aa755acbd1212f86188843

Ця робота розповсюджується на умовах ліцензії Creative Commons CC BY-NC

Налаштування куків Політика приватності Угода користувача Надіслати відгук

Побудовано за допомогою Програмне забезпечення DSpace-CRIS - Розширення підтримується та оптимізується 4Наука

м. Київ, вул. Володимирська, 58, к. 42

(044) 239-33-30

ir.library@knu.ua