Параметри
Автоматичне визначення сарказму в українськомовних текстах
Дата випуску :
2024
Автор(и) :
Ботвин Сніжанна Іванівна
Науковий(і) керівник(и)/редактор(и) :
Робейко Валентина Василівна
Анотація :
Кваліфікаційна робота спрямована на дослідження теми автоматичної класифікації українськомовних текстів на саркастичні або несаркастичні. Актуальність теми зумовлена відсутністю розробок для автоматичного виявлення сарказму саме в текстах, написаних українською мовою. Кінцева мета даного дослідження — запропонувати рішення для класифікації українськомовних текстів на такі, що містять сарказм, або ж ні. Об’єктом дослідження є українськомовні тексти. Предмет дослідження — лінгвістичні прояви сарказму в обраних текстах та способи їх автоматичної ідентифікації.
У першому розділі вказано такі відмінності сарказму від гумору, іронії, сатири: недоброзичливість, агресивність, наявність конкретної цілі, відсутність наміру викликати зміни в суспільстві. Розглянуто підходи для завдання автоматичної ідентифікації сарказму в текстах, а саме: правила, традиційне машинне навчання та глибоке. Визначено, що для такої бінарної класифікації тексту використовуються короткі та довгі тексти з можливим додаванням контексту різного типу. Також описано проблематику сарказму з боку автора та читача; вказано причини, чому сарказм важко визначити в тексті. До того ж проілюстровано основні ознаки сарказму на прикладі українськомовних текстів: гіперболу, пунктуаційні знаки, прагматичні ознаки (емотикони, емоджі, написання слова великими літерами), невідповідність, пародіювання російської вимови.
У другому розділі описано створення навчальної вибірки для завдання автоматичної ідентифікації саркастичного тексту. Також створено синтетичні саркастичні текстові дані та зроблено їх порівняння зі справжніми саркастичними даними. Проведено експерименти з моделями машинного навчання, включно з коригуванням гіперпараметрів та додаванням синтетичних даних. Запропоновано та опубліковано у вільному доступі систему, яка приймає текст від користувача та подає мітку для вказаного повідомлення — сарказм / не сарказм.
У першому розділі вказано такі відмінності сарказму від гумору, іронії, сатири: недоброзичливість, агресивність, наявність конкретної цілі, відсутність наміру викликати зміни в суспільстві. Розглянуто підходи для завдання автоматичної ідентифікації сарказму в текстах, а саме: правила, традиційне машинне навчання та глибоке. Визначено, що для такої бінарної класифікації тексту використовуються короткі та довгі тексти з можливим додаванням контексту різного типу. Також описано проблематику сарказму з боку автора та читача; вказано причини, чому сарказм важко визначити в тексті. До того ж проілюстровано основні ознаки сарказму на прикладі українськомовних текстів: гіперболу, пунктуаційні знаки, прагматичні ознаки (емотикони, емоджі, написання слова великими літерами), невідповідність, пародіювання російської вимови.
У другому розділі описано створення навчальної вибірки для завдання автоматичної ідентифікації саркастичного тексту. Також створено синтетичні саркастичні текстові дані та зроблено їх порівняння зі справжніми саркастичними даними. Проведено експерименти з моделями машинного навчання, включно з коригуванням гіперпараметрів та додаванням синтетичних даних. Запропоновано та опубліковано у вільному доступі систему, яка приймає текст від користувача та подає мітку для вказаного повідомлення — сарказм / не сарказм.
Бібліографічний опис :
Ботвин С. І. Автоматичне визначення сарказму в українськомовних текстах : кваліфікаційна робота освітнього ступеня «бакалавр» : 035.10 Філологія (прикладна лінгвістика) / наук. кер. В. В. Робейко. Київ, 2024. 77 с.
Файл(и) :
Вантажиться...
Формат
Adobe PDF
Розмір :
923.51 KB
Контрольна сума:
(MD5):3a6be31ee9034b8224b949aec622b9a0
Ця робота розповсюджується на умовах ліцензії Creative Commons CC BY-NC