Параметри
Розробка моделі для виконання розпізнавання іменованих сутностей в українському тексті на основі претренованого трансформера GPT-3.5
Дата випуску :
2024
Автор(и) :
Страп Андріана Володимирівна
Науковий(і) керівник(и)/редактор(и) :
Костіков Микола Павлович
Анотація :
У роботі розкрито значення розпізнавання іменованих сутностей (NER) та роль великих мовних моделей для автоматичного тегування частин мови в українському тексті.
Об’єктом дослідження є методи та інструменти розпізнавання іменованих сутностей для автоматизації обробки текстових даних.
Предметом є порівняння ефективності різних інструментів для розпізнавання іменованих сутностей з натренованою моделлю GPT-3.5.
Метою дослідження є розробка моделі для автоматичного тегування частин мови в українському тексті на основі GPT-3.5 та оцінка її ефективності. Завдання включають аналіз наявних інструментів розпізнавання іменованих сутностей, тренування моделі GPT-3.5 на українських текстах та порівняння результатів.
Методологічні підходи базуються на сучасних досягненнях глибокого навчання та трансформерних моделей, що дозволило досягти нових результатів у підвищенні точності та ефективності розпізнавання іменованих сутностей. Новизна дослідження полягає у впровадженні GPT-3.5 для обробки українського тексту, що покращило якість автоматичного тегування.
У першому розділі було розглянуто основні поняття та застосування розпізнавання іменованих сутностей, а також проведено огляд наявних інструментів для розпізнавання іменованих сутностей. Детально проаналізовано поняття великих мовних моделей та їх значення для обробки природної мови. Окрему увагу приділено значенню великих мовних моделей для розпізнавання іменованих сутностей, а також наведеним прикладом використання великих мовних моделей для цієї мети. Розділ завершується аналітичним оглядом напрацювань у сфері розпізнавання іменованих сутностей на основі великих мовних моделей.
У другому розділі розглядається розробка моделі для виконання розпізнавання іменованих сутностей в українському тексті на основі претренованого трансформера GPT-3. Описано підпункти, які охоплюють етапи розробки моделі, а також метрики, що використовувалися під час тренування моделі.
У третьому розділі розглядається процес тестування розробленої моделі. Описано збір даних для тестування та вивчено проблематику. Розроблено застосунок для порівняльного аналізу, а також детально описано процедуру порівняльного аналізу та оцінки. Представлено результати тестування та експертизи моделі.
Результати дослідження підтверджують, що модель GPT-3.5 демонструє високу точність та ефективність порівняно з іншими інструментами для NER.
Об’єктом дослідження є методи та інструменти розпізнавання іменованих сутностей для автоматизації обробки текстових даних.
Предметом є порівняння ефективності різних інструментів для розпізнавання іменованих сутностей з натренованою моделлю GPT-3.5.
Метою дослідження є розробка моделі для автоматичного тегування частин мови в українському тексті на основі GPT-3.5 та оцінка її ефективності. Завдання включають аналіз наявних інструментів розпізнавання іменованих сутностей, тренування моделі GPT-3.5 на українських текстах та порівняння результатів.
Методологічні підходи базуються на сучасних досягненнях глибокого навчання та трансформерних моделей, що дозволило досягти нових результатів у підвищенні точності та ефективності розпізнавання іменованих сутностей. Новизна дослідження полягає у впровадженні GPT-3.5 для обробки українського тексту, що покращило якість автоматичного тегування.
У першому розділі було розглянуто основні поняття та застосування розпізнавання іменованих сутностей, а також проведено огляд наявних інструментів для розпізнавання іменованих сутностей. Детально проаналізовано поняття великих мовних моделей та їх значення для обробки природної мови. Окрему увагу приділено значенню великих мовних моделей для розпізнавання іменованих сутностей, а також наведеним прикладом використання великих мовних моделей для цієї мети. Розділ завершується аналітичним оглядом напрацювань у сфері розпізнавання іменованих сутностей на основі великих мовних моделей.
У другому розділі розглядається розробка моделі для виконання розпізнавання іменованих сутностей в українському тексті на основі претренованого трансформера GPT-3. Описано підпункти, які охоплюють етапи розробки моделі, а також метрики, що використовувалися під час тренування моделі.
У третьому розділі розглядається процес тестування розробленої моделі. Описано збір даних для тестування та вивчено проблематику. Розроблено застосунок для порівняльного аналізу, а також детально описано процедуру порівняльного аналізу та оцінки. Представлено результати тестування та експертизи моделі.
Результати дослідження підтверджують, що модель GPT-3.5 демонструє високу точність та ефективність порівняно з іншими інструментами для NER.
Бібліографічний опис :
Страп А. В. Розробка моделі для виконання розпізнавання іменованих сутностей в українському тексті на основі претренованого трансформера GPT-3.5 : кваліфікаційна робота бакалавра : 035.10 Філологія (прикладна лінгвістика) / наук. кер. М. Костіков. Київ, 2024. 70 с.
Файл(и) :
Вантажиться...
Формат
Adobe PDF
Розмір :
774.72 KB
Контрольна сума:
(MD5):39dec3a523aa755acbd1212f86188843
Ця робота розповсюджується на умовах ліцензії Creative Commons CC BY-NC