Моделі представлення семантики речень природної мови

Врублевський Віталій Натанович

Моделі представлення семантики речень природної мови

Дата випуску :

2024

Автор(и) :

Врублевський Віталій Натанович

Науковий(і) керівник(и)/редактор(и) :

Марченко О. О.

Анотація :

Робота присвячена дослідженню побудови моделей представлення семантики речень текстів природної мови із застосуванням синтаксичної структури речення як ключової ознаки.
У вступі розкрито сутність і актуальність наукової проблематики, що досліджується. Обґрунтовано вибір теми, визначено мету, об’єкт, предмет, методи дослідження, розкрито наукову новизну дослідження, особистий внесок здобувача, зазначено інформацію про впровадження і апробацію результатів.
Актуальність теми. Дослідження семантичних представлень у моделях обробки природної мови – ключове у галузі комп’ютерної лінгвістики та штучного інтелекту.
Векторні представлення речення відіграють ключову роль у розумінні нюансів текстів. Удосконалення цих представлень допомагає глибше розуміти текстову інформацію та впливає на інші завдання: машинний переклад, класифікацію тексту та інші.
Застосування мовних моделей продовжує розширюватися, що вимагає моделей, які вміло розуміють і створюють текст у різних мовах і контекстах. Таким чином, дослідження синтаксичної структури речення в побудові моделей семантичного представлення має важливе значення для вдосконалення моделей розуміння мови.
Мета дослідження. Метою дисертаційного дослідження є створення методів побудови векторного представлення речення на основі різних моделей; дослідження використання синтаксичних графових структур репрезентації речення та їх застосування у моделях.
Об’єктом дослідження є методи побудови векторних представлень речень природної мови.
Предметом дослідження є процес проєктування різноманітних моделей (машинного навчання, нейронних мереж різної архітектури) для побудови векторних представлень речень природної мови; їх застосування для розв’язання прикладних задач, таких як виправлення граматичних помилок та ідентифікація парафраз.
У першому розділі проведено дослідження наявних моделей представлення семантики речень. Оскільки представлення слів є важливим елементом при побудові представлення речення, проведено короткий огляд та класифікацію методів побудови представлення слів (WordNet, One-hot вектор, Word2Vec та інші). Проаналізовано методи представлення структури речень, такі як синтаксичне дерево розбору, дерево залежностей, AMR граф.
Також оглянуто та досліджено різні наявні методи побудови векторних представлень речень та вивчено методи оцінки якості векторних представлень речень. Однією з практичних задач для цієї оцінки було обрано ідентифікації парафраз. В результаті проведено огляд корпусів даних для неї та класифікацію наявних методів розв’язання.
У другому розділі розглянуто синтаксичну компоненту в моделях представлення речень. Досліджено різні методи модифікації алгоритму Ерлі та запропоновано метод коригуючого парсера з використанням попередньо обробленої вхідної граматики послідовності.
Розроблено модифікацію алгоритму Ерлі для роботи з великими граматиками, використовуючи підхід «повернення назад» (back-tracking) та знаходження декількох дерев виводу послідовності для неоднозначних граматик.
Запропоновано коригуючий парсер на основі алгоритму Ерлі для виправлення помилок вставки, видалення, заміни терміналів та зміни порядку нетерміналів, та досліджено його роботу на малих та великих граматиках.
У якості перевірки на практичній задачі проведено експеримент та зроблено порівняння коригуючого парсера з іншими системами виправлення граматичних помилок.
У третьому розділі проаналізовано використання дерева залежностей для репрезентації структури речення. Головним висновком є експериментальне підтвердження того, що поєднання дерев залежностей та векторного представлення слів можна ефективно використовувати для побудови якісних моделей представлення семантики речень.
В результаті розроблено та реалізовано кілька алгоритмів обходу та агрегування ознак із застосуванням дерева залежностей, зокрема створення метрики для порівняння підграфів та шляхів у деревах. В ході експериментів досліджено ефективність запропонованих ознак.
У четвертому розділі проаналізовано різні моделі з архітектурою Трансформер, а також використання матриці на основі дерева залежностей, як додаткової ознаки для моделі. Експериментальним чином було підтверджено, що дерева залежностей можуть покращити базові моделі з архітектурою Трансформер.
Для цього досліджено та проаналізовано різні моделі з архітектурою.
Трансформер та ефективність цих моделей для ідентифікації парафраз.
Також досліджено та проаналізовано використання LLM моделей, таких як Llama 2 для класифікації речень, а саме задачі ідентифікації парафраз.
Створено модель, використовуючи ознаки на основі дерева залежностей у self – attention шарі, та в ході експериментів досліджено її ефективність.

The PhD thesis on competition of a scientific degree of the doctor of philosophy on a specialty 122 “Computer Science”. – Taras Shevchenko National University of Kyiv, Kyiv, 2024.
The work is devoted to the study of the construction of models for representing sentence semantics in natural language texts, using the syntactic structure of the sentence as a key feature.
The introduction reveals the essence and relevance of the researched scientific issues. The choice of the topic is substantiated, the purpose, object, subject, and research methods are defined, the scientific novelty of the research is discussed, the personal contribution is indicated, and information about the implementation and approval of the results is indicated.
Actuality of theme. The study of semantic representations in natural language processing models is critical in computational linguistics and artificial intelligence.
Vector representations of sentences play a crucial role in understanding the nuances of texts. Improving these representations helps us better understand textual information and affects other tasks, such as machine translation and text classification.
The use of language models continues to expand, requiring models that can adeptly understand and produce text in different languages and contexts. Thus, the study of the syntactic structure of the sentence in the construction of semantic representation models is important for improving language understanding models.
The aim of the study. The dissertation research aims to create methods for constructing a vector representation of a sentence based on various models and research on the use of syntactic graph structures of sentence representation and their application in models.
The object of research is methods of constructing vector representations of natural language sentences.
The subject of research is the process of designing various models (machine learning, neural networks of various architectures) for building vector representations of natural language sentences and their application to solving applied problems, such as correcting grammatical errors and identifying paraphrases.
In the first chapter, a study of existing models of sentence semantic representation was conducted. Since word representation is essential in constructing a sentence representation, a brief review and classification of word representation construction methods (WordNet, One-hot vector, Word2Vec, and others) was conducted. The methods of presenting the structure of sentences, such as the parsing syntactic tree, dependency tree, and AMR graph, were analysed.
Various available methods of constructing vector representations of sentences were also reviewed and studied, as were quality assessment methods of vector representations of sentences. One of the practical tasks for this evaluation was the identification of paraphrases. As a result, a review of data corpora for it and a classification of available solution methods were conducted.
The second chapter considers the syntactic component in sentence presentation models. Various methods of modifying the Earley algorithm were investigated and a corrective parser method using a pre-processed input sequence grammar was proposed.
Early's algorithm was modified to work with large grammars, using the “back- tracking” approach and finding several sequence output trees for ambiguous grammars.
A corrective parser based on Early's algorithm is proposed to correct insertion, deletion, terminal substitution, and nonterminal reordering errors. Its performance on small and large grammars is investigated.
An experiment was conducted to test a practical task, and the correcting parser was compared with other systems for correcting grammatical errors.
The third chapter analyses the use of a dependency tree to represent the sentence structure. The main conclusion is the experimental confirmation that the combination of dependency trees and vector representation of words can be effectively used to build qualitative models of sentence semantics.
As a result, several algorithms for traversal and feature aggregation using a dependency tree were developed and implemented, in particular, creating a metric for comparing subgraphs and paths in trees. During the experiments, the effectiveness of the proposed features was investigated.
In the fourth chapter, various models with the Transformer architecture were analysed, and a matrix based on a dependency tree was used as an additional feature for the model. It has been experimentally confirmed that dependency trees can improve basic models with the Transformer architecture.
For this, various models with the Transformer architecture and the effectiveness of these models for identifying paraphrases were investigated and analysed.
LLM models, such as Llama 2, have also been investigated and analysed for sentence classification, specifically the paraphrase identification task.
A model was created using features based on the dependency tree in the self- attention layer, and its effectiveness was investigated through experiments.

Бібліографічний опис :

Врублевський В. Н. Моделі представлення семантики речень природної мови : дис. ... д-ра філос. : 122 Комп’ютерні науки / Врублевський Віталій Натанович. - Київ, 2024. - 144 с.

Ключові слова :

методи побудови предс...

обробка природної мов...

машинне навчання

нейронні мережі

моделі на основі архі...

синтаксичне дерево ро...

дерево залежностей

methods of sentence r...

natural language proc...

machine learning

neural networks

models based on Trans...

parse tree

dependency tree

URL :

https://ir.library.knu.ua/handle/123456789/761

Файл(и) :

Формат

Adobe PDF

Розмір :

2.79 MB

Контрольна сума:

(MD5):2a6baae3a858b9775eacdf8c954673b9

Ця робота розповсюджується на умовах ліцензії Creative Commons CC BY-NC-ND

Параметри

Моделі представлення семантики речень природної мови