Розроблення методів синтезу даних та генерації математичних комбінаторних задач за допомогою великих мовних моделей

Ніколаєв Андрій ДмитровичАнісімов, Анатолій Васильович2025-06-052025-06-052025-06-03Ніколаєв А. Д. Розроблення методів синтезу даних та генерації математичних комбінаторних задач за допомогою великих мовних моделей : дис. … доктора філософії : 122 Комп’ютернi науки / Ніколаєв Андрій Дмитрович ; наук. кер. А. В. Анiсiмов. Київ, 2025. 142 с.УДК 004.8https://ir.library.knu.ua/handle/15071834/6635У даній дисертаційній роботі досліджуються можливості використання великих мовних моделей для синтезу даних та генерації математичних комбінаторних задач. Основна мета дослідження полягає у виявленні можливостей великих мовних моделей до математичного міркування та розробки ефективних методів до генерації синтетичних даних, що зберігають математичну сутність задач. У роботі запропоновано нові методи генерації варіацій математичних комбінаторних задач шляхом модифікації їхніх конфігурацій, лінгвістичних та стилістичних особливостей. Проведено серію експериментальних досліджень на створених даних, та оцінено ефекти впливу синтезованих даних на ефективність роботи великих мовних моделей та відповідності до людських результатів експертів з олімпіадно-математичним досвідом. Основні результати та наукова новизна роботи: ● Розроблено метод синтезу даних на основні систематичної маніпуляції текстів математичних комбінаторних задач задля порівняння ефективності великих мовних моделей та експертів з олімпіадним досвідом у міркуванні. ● Розроблено метод генерації математичних комбінаторних задач шляхом класифікації, відбору та створення нових синтетичних варіацій задач зі збереженою математичною сутністю за допомогою великих мовних моделей та запровадження метрики варіаційної узгодженості текстів задач. Результати дослідження демонструють значний потенціал великих мовних моделей у завданні генерації комбінаторних задач зі збереженням математичної сутності, що відкриває нові можливості для розробки методів автоматичної формалізації математичних текстів. Основним викликом для використання мовних моделей залишається забезпечення точності генерації розв'язань, адже як було продемонстровано у експериментальній частині, мовні моделі мають високий рівень чутливості до змін тексту за допомогою додаткових маніпуляцій з текстами задач, таких як додавання зайвої числової інформації, зміни конфігурації параметрів задачі та лінгвістично-стилістичної модифікації умов текстів задач. Задля подальшого поліпшення систем автоматичного пошуку доведень запропоновано метод інтеграції мовних моделей із формальними методами для символічних обчислень. За результатами експериментальної частини були досягнуті наступні результати: 1. Проведено огляд систем штучного інтелекту та сучасних методів обробки природної мови, проаналізовано та розглянуто кілька видів архітектур моделей, методів з використанням технік для побудови міркувань, задіяння додаткових інструментів для символьної обробки даних, а також існуючих наборів даних та метрик оцінювання. 2. Розроблено набір даних Combi-Puzzles, який включає набір з 125 комбінаторних задач з систематичною модифікацією умов за допомогою керування наступними параметрами та особливостями задач: конфігурація задачі, внесення додаткової зайвої інформації, зміна лінгвістично-стилістичної формату тексту. 3. Проведено експериментальне порівняння ефективності моделей до розв'язання математичних комбінаторних задач на синтезованих даних та оцінено близько 36 тис. відповідей моделей на основі набору критеріїв для перевірки коректності логічних міркувань моделей при генерації тверджень під час розв'язання математичних комбінаторних задач та оцінено чутливість мовних моделей до модифікацій текстів задач. 4. Проведено серію експериментальних досліджень з участю 35 учасників з олімпіадним досвідом, отримано та проаналізовано більше 800 розв'язків задач, які були використані при порівняльному аналізі результатів роботи моделей та експертів. 5. За допомогою розроблених методів відбору, генерації та оцінки якості синтетичних даних для комбінаторних задач за допомогою великих мовних моделей було згенеровано більше 20 тис. екземплярів математичних комбінаторних задач.This dissertation investigates the use of large language models for data synthesis and the generation of mathematical combinatorial problems. The primary goal of the research is to investigate the mathematical reasoning capabilities of these models and to develop effective methods for generating synthetic data that preserves the mathematical essence of the problems. The study introduces novel techniques for creating variations of mathematical combinatorial problems by modifying their configurations as well as their linguistic and stylistic characteristics. A series of experiments was conducted on the generated data to evaluate the impact of synthesised problems on the performance of large language models and to compare their outcomes with those achieved by experts with Olympiadlevel mathematical experience. Main results and scientific contributions: • A data synthesis method based on systematic manipulation of the texts of mathematical combinatorial problems was developed to compare the reasoning performance of large language models with that of experts possessing Olympiadlevel experience. • A novel method for generating variations of mathematical combinatorial problems was proposed. This approach involves the classification, selection, and creation of new synthetic variations that preserve the mathematical essence of the problems, utilising large language models and introducing a variation consistency metric. The findings demonstrate the significant potential of large language models in generating combinatorial problems that maintain their mathematical integrity, thereby opening up new avenues for the automatic formalisation of mathematical texts. A key challenge remains to ensure the accuracy of generated solutions; as shown in the experimental section, language models exhibit high sensitivity to modifications in the problem texts, including the addition of irrelevant numerical information, changes in problem configuration, and linguistic-stylistic alterations. To further improve automated proof-search systems, the dissertation proposes integrating language models with formal symbolic computation techniques. Based on the experimental studies, the following achievements were realised: 1. A comprehensive review of artificial intelligence systems and modern natural language processing methods was conducted. This included an analysis of various model architectures, reasoning techniques, the use of auxiliary tools for symbolic data processing, as well as existing datasets and evaluation metrics. 2. The Combi-Puzzles dataset was developed, comprising 125 combinatorial problems with systematic modifications of problem conditions by controlling parameters such as problem configuration, the injection of redundant information, and changes in the linguistic-stylistic format of the problem statements. 3. An experimental comparison of the model performance in solving mathematical combinatorial problems on synthesised data was performed. Approximately 36,000 model responses were evaluated using a set of criteria designed to verify the correctness of logical reasoning during the generation of problem statements, along with an assessment of the models’ sensitivity to text modifications. 4. A series of experiments involving 35 participants with Olympiad-level experience was carried out, and an analysis of over 800 problem solutions that were conducted for the comparative evaluation of the performance of models and experts. 5. Utilising the developed methods for the selection, generation, and quality evaluation of synthetic data for combinatorial problems, more than 20,000 instances of mathematical combinatorial problems were generated.ukШтучний інтелектавтоматизовані системи доведеньобробка природної мовивеликі мовні моделімашинне навчанняматематичні задачі.artificial intelligenceautomated theorem provingnatural language processinglarge language modelsmachine learningmathematical problemsРозроблення методів синтезу даних та генерації математичних комбінаторних задач за допомогою великих мовних моделейDevelopment of Data Synthesis and Mathematical Combinatorial Problem Generation Methods Using Large Language ModelsДисертація