Створення методів пошуку кореферентних об'єктів в україномовних текстах на основі дерев рішень, нейронних мереж та великих мовних моделей

Білецький, Павло ВолодимировичПавло ВолодимировичБілецькийПогорілий, Сергій Дем'янович2025-09-162025-09-162025-07-16Білецький П. В. Створення методів пошуку кореферентних об'єктів в україномовних текстах на основі дерев рішень, нейронних мереж та великих мовних моделей : дис. ... доктора філософії : 123 Комп’ютерна інженерія. Київ, 2025. 171, [1] с.УДК 004.8https://ir.library.knu.ua/handle/15071834/7720Білецький П.В. Створення методів пошуку кореферентних об'єктів в україномовних текстах на основі дерев рішень, нейронних мереж та великих мовних моделей. – Кваліфікаційна наукова праця на правах рукопису. Дисертація на здобуття наукового ступеня доктора філософії за спеціальністю 123 «Комп’ютерна інженерія». – Київський національний університет імені Тараса Шевченка, Київ, 2025. В роботі досліджуються, проектуються та створюються методи автоматизованого пошуку кореферентних об’єктів в україномовних текстах з використанням дерев рішень, нейронних мереж та великих мовних моделей. Пошук кореферентних об’єктів є важливою задачею обробки природної мови (NLP), що полягає в ідентифікації всіх виразів (слів або словосполучень), які посилаються на один і той же об’єкт у тексті. Вирішення цієї задачі критично важливе для розуміння тексту, виділення інформації, машинного перекладу, оцінки когерентності та розв'язування інших задач обробки природної мови. Особливістю української мови є вільний порядок слів, що ускладнює задачу порівняно з мовами з фіксованим порядком та вимагає методів, здатних враховувати глибокі семантичні та контекстуальні зв’язки. Розробка ефективних методів для української мови є актуальною через обмеженість існуючих ресурсів та досліджень у цій галузі, особливо з огляду на стрімкий розвиток технологій штучного інтелекту. Актуальність роботи зумовлена необхідністю створення спеціалізованих інструментів для аналізу україномовних текстів, які б враховували лінгвістичні особливості мови та могли б ефективно використовувати сучасні досягнення в галузі машинного навчання. Робота досліджує застосування різноманітних підходів для вирішення поставленої задачі. Розглядаються як класичні методи на основі дерев рішень, що дозволяють створювати інтерпретовані моделі з використанням лінгвістичних ознак, так і сучасні нейромережеві архітектури (зокрема, згортково-рекурентні мережі), здатні автоматично виявляти складні закономірності. Особливу увагу приділено застосуванню великих мовних моделей (LLM) на базі архітектури Transformer, які демонструють передові результати в галузі NLP завдяки здатності обробляти великі контексти та використовувати знання, отримані під час попереднього навчання на великих наборах даних. У роботі здійснено аналіз існуючих методів пошуку кореферентних об’єктів, включаючи підходи на основі правил, дерев рішень, різних нейромережевих архітектур та сучасних мовних моделей. Визначено їх переваги та недоліки, зокрема для застосування до україномовних текстів. На основі аналізу сформульовано мету та завдання дослідження, що полягають у створенні та дослідженні ефективності нових методів пошуку кореферентних об’єктів в україномовних текстах з використанням дерев рішень, згортково-рекурентних нейронних мереж та великих мовних моделей, а також адаптації сучасних LLM для цієї задачі. Далі приведені основні результати та наукова новизна. Розроблено метод пошуку кореферентних об’єктів на основі дерев рішень, що використовує набір лінгвістичних та семантичних ознак (включаючи векторні представлення ELMo та морфологічні характеристики). Показано ефективність зведення задачі до бінарної класифікації пар потенційно кореферентних об’єктів та досягнуто високих показників точності, зокрема за метрикою B-cubed. Забезпечено інтерпретованість моделі шляхом можливості візуалізації дерева рішень. Вперше проведено формальну верифікацію властивостей розробленої моделі на основі дерев рішень з використанням розмічених транзиційних систем та автоматів Бюхі для доведення її семантичної коректності та підвищення надійності. Запропоновано метод пошуку кореферентних об’єктів на основі згортково-рекурентної нейронної мережі з довгою та короткочасною пам’яттю (ConvLSTM). Досліджено ефективність поєднання згорткових шарів для виділення локальних ознак із векторних представлень слів та рекурентних шарів LSTM для врахування контекстуальних залежностей при класифікації кореферентних пар в українських текстах. Вперше розроблено та системно досліджено два методи використання великих мовних моделей (LLM) для пошуку кореферентних об'єктів в україномовних текстах:  на основі бінарної класифікації пар об'єктів за допомогою спеціально сформованого запиту (prompt);  на основі генерації повного кластеру кореферентних об'єктів безпосередньо моделлю у відповідь на запит. Проведено порівняльний аналіз ефективності низки сучасних LLM (Llama 3, Llama 3.1, Llama 3.2, Llama 3.3, DeepSeek R1, Gemma 3, Gemini 2.0 Flash, Gemini 2.0 Thinking) для цієї задачі. Встановлено, що метод генерації кластерів є значно ефективнішим за кількістю необхідних звернень до LLM. Виявлено позитивний вплив здатності моделей до міркування (на прикладі Gemini 2.0 Thinking) на якість розв'язання задачі. Вперше здійснено донавчання (fine-tuning) відкритої великої мовної моделі Llama 3.2 (3 мільярди параметрів) з використанням техніки QLoRA спеціально для задачі пошуку кореферентних об’єктів в україномовних текстах на основі методу генерації кластерів. Донавчена модель демонструє суттєве покращення якості порівняно з базовою моделлю і досягає результатів, співставних з потужними пропрієтарними моделями (наприклад, Gemini 2.0 Flash), підтверджуючи високу ефективність та доцільність адаптації відкритих LLM для специфічних завдань обробки української мови. Досліджено ефективність використання високопродуктивних обчислень для прискорення роботи методів на основі LLM. Експериментально підтверджено значний приріст швидкодії (у ~6.7-6.8 разів) при використанні графічних прискорювачів (GPU) порівняно з центральними процесорами (CPU). Показано переваги квантизації (зокрема, 4-бітної порівняно з 8-бітною, прискорення ~47%) для зменшення вимог до ресурсів та подальшого прискорення обчислень, що є критичним для практичного застосування LLM.Biletskyi P.V. Creation of methods for coreference resolution in Ukrainian-language texts based on decision trees, neural networks, and large language models. – Qualification scientific work on the rights of the manuscript. The PhD thesis on competition of a scientific degree of the doctor of philosophy on a specialty 123 “Computer Engineering”. – Taras Shevchenko National University of Kyiv, Kyiv, 2025. In the work, methods for automated coreference resolution in Ukrainian-language texts based on decision trees, neural networks, and large language models are investigated, designed and created. Coreference resolution is an important natural language processing (NLP) task, consisting in identifying all expressions (words or phrases) that refer to the same entity in a text. Solving this task is critically important for text understanding, information extraction, machine translation, coherence evaluation, and other NLP applications. A specific feature of the Ukrainian language is its free word order, which complicates the task compared to languages with fixed order and requires methods capable of capturing deep semantic and contextual links. The development of effective methods for Ukrainian is relevant due to the limited existing resources and research in this area, especially considering the rapid development of artificial intelligence technologies. The relevance of the work stems from the need to create specialized tools for analyzing Ukrainian-language texts that would consider the linguistic specifics of the language and could effectively leverage modern achievements in machine learning. The paper investigates the application of various approaches to solve the posed task. Both classic methods based on decision trees, which allow creating interpretable models using linguistic features, and modern neural network architectures (specifically, convolutional-recurrent networks), capable of automatically detecting complex patterns, are considered. Particular attention is given to the application of large language models (LLMs) based on the Transformer architecture, which demonstrate state-of-the-art results in NLP due to their ability to process large contexts and utilize knowledge gained during pre-training on massive datasets. In the paper, an analysis of existing coreference resolution methods has been performed, including approaches based on rules, decision trees, various neural network architectures, and modern large language models. Their advantages and disadvantages, particularly for application to Ukrainian-language texts, have been identified. Based on this analysis, the purpose and tasks of the research were formulated, consisting in the creation and investigation of the effectiveness of new methods for coreference resolution in Ukrainian-language texts using decision trees, convolutional-recurrent neural networks, and large language models, as well as the adaptation of modern LLMs for this task. The main results and scientific novelty are listed below. A method for coreference resolution based on decision trees has been developed, utilizing a set of linguistic and semantic features (including ELMo vector representations and morphological characteristics). The effectiveness of reducing the task to binary classification of potentially coreferent pairs has been shown, and high accuracy metrics, particularly B-cubed, have been achieved. Interpretability of the model is ensured through the possibility of visualizing the decision tree. For the first time, formal verification of the properties of the developed decision tree-based model was performed using labeled transition systems and Büchi automata to prove its semantic correctness and enhance reliability. A method for coreference resolution based on a convolutional-recurrent neural network with long short-term memory (ConvLSTM) has been proposed. The effectiveness of combining convolutional layers for extracting local features from word vector representations and recurrent LSTM layers for considering contextual dependencies in classifying coreferent pairs in Ukrainian texts has been investigated. For the first time, two methods for using large language models (LLMs) for coreference resolution in Ukrainian-language texts have been developed and systematically investigated:  based on binary classification of object pairs using a specially crafted prompt;  based on the generation of the complete coreferent cluster directly by the model in response to a prompt. A comparative analysis of the effectiveness of several modern LLMs (Llama 3, Llama 3.1, Llama 3.2, Llama 3.3, DeepSeek R1, Gemma 3, Gemini 2.0 Flash, Gemini 2.0 Thinking) for this task was conducted. It was established that the cluster generation method is significantly more efficient in terms of the number of required calls to the LLM. A positive impact of the models' reasoning capabilities (exemplified by Gemini 2.0 Thinking) on the quality of task resolution was identified. For the first time, fine-tuning of the open large language model Llama 3.2 (3 billion parameters) was successfully performed using the QLoRA technique specifically for the task of coreference resolution in Ukrainian-language texts, based on the cluster generation method. The fine-tuned model demonstrates a significant improvement in quality compared to the baseline "zero-shot" model and achieves results comparable to powerful proprietary models (e.g., Gemini 2.0 Flash), confirming the high effectiveness and feasibility of adapting open LLMs for specific Ukrainian language processing tasks. The effectiveness of using high-performance computing (HPC) to accelerate the operation of methods based on LLMs has been investigated. A significant performance increase (by ~6.7-6.8 times) when using graphics processing units (GPUs) compared to central processing units (CPUs) for the LLM inference stage has been experimentally confirmed. The advantages of quantization (reducing the bit representation of model weights, particularly 4-bit compared to 8-bit, speedup ~47%) for reducing memory requirements and further accelerating computations have also been demonstrated, which is critical for the practical deployment and use of LLMs in natural language processing tasks.ukобробка природної мовипошук кореферентних об’єктівукраїнська мовадерева рішеньнейронні мережізгортково-рекурентна нейронна мережаLSTMвеликі мовні моделіTransformerRoBERTaLlamaGemmaGeminiдонавчання моделіформальна верифікаціявисокопродуктивні обчисленняGPUквантизаціякластеризація.natural language processingcoreference resolutionUkrainian languagedecision treesneural networksconvolutional-recurrent neural networklarge language modelsmodel fine-tuningQLoRAformal verificationhigh-performance computingquantizationclustering.Створення методів пошуку кореферентних об'єктів в україномовних текстах на основі дерев рішень, нейронних мереж та великих мовних моделейCreation of methods for coreference resolution in Ukrainian-language texts based on decision trees, neural networks, and large language modelsДисертація