Ботвин Сніжанна ІванівнаРобейко Валентина Василівна2024-07-162024-07-162024Ботвин С. І. Автоматичне визначення сарказму в українськомовних текстах : кваліфікаційна робота освітнього ступеня «бакалавр» : 035.10 Філологія (прикладна лінгвістика) / наук. кер. В. В. Робейко. Київ, 2024. 77 с.https://ir.library.knu.ua/handle/15071834/2874Кваліфікаційна робота спрямована на дослідження теми автоматичної класифікації українськомовних текстів на саркастичні або несаркастичні. Актуальність теми зумовлена відсутністю розробок для автоматичного виявлення сарказму саме в текстах, написаних українською мовою. Кінцева мета даного дослідження — запропонувати рішення для класифікації українськомовних текстів на такі, що містять сарказм, або ж ні. Об’єктом дослідження є українськомовні тексти. Предмет дослідження — лінгвістичні прояви сарказму в обраних текстах та способи їх автоматичної ідентифікації. У першому розділі вказано такі відмінності сарказму від гумору, іронії, сатири: недоброзичливість, агресивність, наявність конкретної цілі, відсутність наміру викликати зміни в суспільстві. Розглянуто підходи для завдання автоматичної ідентифікації сарказму в текстах, а саме: правила, традиційне машинне навчання та глибоке. Визначено, що для такої бінарної класифікації тексту використовуються короткі та довгі тексти з можливим додаванням контексту різного типу. Також описано проблематику сарказму з боку автора та читача; вказано причини, чому сарказм важко визначити в тексті. До того ж проілюстровано основні ознаки сарказму на прикладі українськомовних текстів: гіперболу, пунктуаційні знаки, прагматичні ознаки (емотикони, емоджі, написання слова великими літерами), невідповідність, пародіювання російської вимови. У другому розділі описано створення навчальної вибірки для завдання автоматичної ідентифікації саркастичного тексту. Також створено синтетичні саркастичні текстові дані та зроблено їх порівняння зі справжніми саркастичними даними. Проведено експерименти з моделями машинного навчання, включно з коригуванням гіперпараметрів та додаванням синтетичних даних. Запропоновано та опубліковано у вільному доступі систему, яка приймає текст від користувача та подає мітку для вказаного повідомлення — сарказм / не сарказм.The bachelor's thesis is aimed at exploring the topic of automatic classification of Ukrainian texts into sarcastic or non-sarcastic. The relevance of the topic is due to the lack of solutions for automatic detection of sarcastic texts written in Ukrainian. The goal of this study is to propose a system to the aforementioned text classification problem. The object of the study is Ukrainian texts. The subject of the study is linguistic features of sarcasm in selected texts and ways of their automatic identification. The first section outlines the following differences between sarcasm and humor, irony, satire: unkindness, aggressiveness, the presence of a specific goal, and the lack of intention to cause changes in society. In addition, approaches to the task of automatic identification of sarcasm in texts are considered, namely: rules, traditional machine learning and deep learning. It is determined that for such a binary text classification, short and long texts are used with the possible addition of different types of context. We also describe the problems of sarcasm perception by the author and the reader; the reasons why sarcasm is difficult to identify in the text. In addition, the main features of sarcasm are illustrated using the examples of Ukrainian texts, namely: hyperbole, punctuation, pragmatic features (emoticons, emojis, capitalization), inconsistency, parody of Russian pronunciation. The second section describes a dataset creation for the task of automatic classification of Ukrainian texts into sarcastic or non-sarcastic. We also create synthetic sarcastic data and compare it with real sarcastic data. Experiments with machine learning models were conducted, including adjusting hyperparameters and adding synthetic data. Finally, we propose and publish in an open source a system that accepts text from the user as input and provides a label: sarcasm or not.uaсарказмавтоматичне виявлення сарказмумашинне навчаннякласифікація текстівсинтетичні даніsarcasmautomatic sarcasm detectionmachine learningtext classificationsynthetic dataАвтоматичне визначення сарказму в українськомовних текстахБакалаврська робота