Створення методів пошуку кореферентних об'єктів в україномовних текстах на основі дерев рішень, нейронних мереж та великих мовних моделей

Білецький, Павло Володимирович

Створення методів пошуку кореферентних об'єктів в україномовних текстах на основі дерев рішень, нейронних мереж та великих мовних моделей

Тип публікації :

Дисертація

Дата випуску :

16 липня 2025 р.

Автор(и) :

Білецький, Павло Володимирович

Факультет радіофізики, електроніки та комп'ютерних систем Київського національного університету імені Тараса Шевченка

Науковий(і) керівник(и)/редактор(и) :

Погорілий, Сергій Дем'янович

Кафедра комп'ютерної інженерії

Мова основного тексту :

Ukrainian

eKNUTSHIR URL :

https://ir.library.knu.ua/handle/15071834/7720

Цитування :

Білецький П. В. Створення методів пошуку кореферентних об'єктів в україномовних текстах на основі дерев рішень, нейронних мереж та великих мовних моделей : дис. ... доктора філософії : 123 Комп’ютерна інженерія. Київ, 2025. 171, [1] с.

Білецький П.В. Створення методів пошуку кореферентних об'єктів в україномовних текстах на основі дерев рішень, нейронних мереж та великих мовних моделей. – Кваліфікаційна наукова праця на правах рукопису.
Дисертація на здобуття наукового ступеня доктора філософії за спеціальністю 123 «Комп’ютерна інженерія». – Київський національний університет імені Тараса Шевченка, Київ, 2025.
В роботі досліджуються, проектуються та створюються методи автоматизованого пошуку кореферентних об’єктів в україномовних текстах з використанням дерев рішень, нейронних мереж та великих мовних моделей.
Пошук кореферентних об’єктів є важливою задачею обробки природної мови (NLP), що полягає в ідентифікації всіх виразів (слів або словосполучень), які посилаються на один і той же об’єкт у тексті. Вирішення цієї задачі критично важливе для розуміння тексту, виділення інформації, машинного перекладу, оцінки когерентності та розв'язування інших задач обробки природної мови. Особливістю української мови є вільний порядок слів, що ускладнює задачу порівняно з мовами з фіксованим порядком та вимагає методів, здатних враховувати глибокі семантичні та контекстуальні зв’язки. Розробка ефективних методів для української мови є актуальною через обмеженість існуючих ресурсів та досліджень у цій галузі, особливо з огляду на стрімкий розвиток технологій штучного інтелекту.
Актуальність роботи зумовлена необхідністю створення спеціалізованих інструментів для аналізу україномовних текстів, які б враховували лінгвістичні особливості мови та могли б ефективно використовувати сучасні досягнення в галузі машинного навчання. Робота досліджує застосування різноманітних підходів для вирішення поставленої задачі. Розглядаються як класичні методи на основі дерев рішень, що дозволяють створювати інтерпретовані моделі з використанням лінгвістичних ознак, так і сучасні нейромережеві архітектури (зокрема,
згортково-рекурентні мережі), здатні автоматично виявляти складні закономірності. Особливу увагу приділено застосуванню великих мовних моделей (LLM) на базі архітектури Transformer, які демонструють передові результати в галузі NLP завдяки здатності обробляти великі контексти та використовувати знання, отримані під час попереднього навчання на великих наборах даних.
У роботі здійснено аналіз існуючих методів пошуку кореферентних об’єктів, включаючи підходи на основі правил, дерев рішень, різних нейромережевих архітектур та сучасних мовних моделей. Визначено їх переваги та недоліки, зокрема для застосування до україномовних текстів. На основі аналізу сформульовано мету та завдання дослідження, що полягають у створенні та дослідженні ефективності нових методів пошуку кореферентних об’єктів в україномовних текстах з використанням дерев рішень, згортково-рекурентних нейронних мереж та великих мовних моделей, а також адаптації сучасних LLM для цієї задачі. Далі приведені основні результати та наукова новизна.
Розроблено метод пошуку кореферентних об’єктів на основі дерев рішень, що використовує набір лінгвістичних та семантичних ознак (включаючи векторні представлення ELMo та морфологічні характеристики). Показано ефективність зведення задачі до бінарної класифікації пар потенційно кореферентних об’єктів та досягнуто високих показників точності, зокрема за метрикою B-cubed. Забезпечено інтерпретованість моделі шляхом можливості візуалізації дерева рішень. Вперше проведено формальну верифікацію властивостей розробленої моделі на основі дерев рішень з використанням розмічених транзиційних систем та автоматів Бюхі для доведення її семантичної коректності та підвищення надійності.
Запропоновано метод пошуку кореферентних об’єктів на основі згортково-рекурентної нейронної мережі з довгою та короткочасною пам’яттю (ConvLSTM). Досліджено ефективність поєднання згорткових
шарів для виділення локальних ознак із векторних представлень слів та рекурентних шарів LSTM для врахування контекстуальних залежностей при класифікації кореферентних пар в українських текстах.
Вперше розроблено та системно досліджено два методи використання великих мовних моделей (LLM) для пошуку кореферентних об'єктів в україномовних текстах:
 на основі бінарної класифікації пар об'єктів за допомогою спеціально сформованого запиту (prompt);
 на основі генерації повного кластеру кореферентних об'єктів безпосередньо моделлю у відповідь на запит. Проведено порівняльний аналіз ефективності низки сучасних LLM (Llama 3, Llama 3.1, Llama 3.2, Llama 3.3, DeepSeek R1, Gemma 3, Gemini 2.0 Flash, Gemini 2.0 Thinking) для цієї задачі. Встановлено, що метод генерації кластерів є значно ефективнішим за кількістю необхідних звернень до LLM. Виявлено позитивний вплив здатності моделей до міркування (на прикладі Gemini 2.0 Thinking) на якість розв'язання задачі.
Вперше здійснено донавчання (fine-tuning) відкритої великої мовної моделі Llama 3.2 (3 мільярди параметрів) з використанням техніки QLoRA спеціально для задачі пошуку кореферентних об’єктів в україномовних текстах на основі методу генерації кластерів. Донавчена модель демонструє суттєве покращення якості порівняно з базовою моделлю і досягає результатів, співставних з потужними пропрієтарними моделями (наприклад, Gemini 2.0 Flash), підтверджуючи високу ефективність та доцільність адаптації відкритих LLM для специфічних завдань обробки української мови.
Досліджено ефективність використання високопродуктивних обчислень для прискорення роботи методів на основі LLM. Експериментально підтверджено значний приріст швидкодії (у ~6.7-6.8 разів) при використанні графічних прискорювачів (GPU) порівняно з центральними
процесорами (CPU). Показано переваги квантизації (зокрема, 4-бітної порівняно з 8-бітною, прискорення ~47%) для зменшення вимог до ресурсів та подальшого прискорення обчислень, що є критичним для практичного застосування LLM.

Галузі знань та спеціальності :

123 Комп’ютерна інженерія

Галузі науки і техніки (FOS) :

Інженерія та технології

Тип зібрання :

Publication

Файл(и) :

Формат

Adobe PDF

Розмір :

3.26 MB

Контрольна сума:

(MD5):af6dd414b26cb6735a71c3785fa28d03

Ця робота розповсюджується на умовах ліцензії Creative Commons CC BY-NC-ND

Параметри

Створення методів пошуку кореферентних об'єктів в україномовних текстах на основі дерев рішень, нейронних мереж та великих мовних моделей