Репозитарій КНУ
  • Yкраї́нська
  • English
  • Увійти
    Новий користувач? Зареєструйтесь.Забули пароль?
Репозитарій КНУ
  • Фонди & Зібрання
  • Статистика
  • Yкраї́нська
  • English
  • Увійти
    Новий користувач? Зареєструйтесь.Забули пароль?
  1. Головна
  2. Наукова періодика | Scientific periodicals
  3. Українське мовознавство | Ukrainian linguistics
  4. 2024
  5. Українське мовознавство. Випуск 1 (54)
  6. Індексування негативного сентименту українськомовного тексту системою “TextAttributor 1.0”
 
  • Деталі
Параметри

Індексування негативного сентименту українськомовного тексту системою “TextAttributor 1.0”

Тип публікації :
Стаття
Дата випуску :
2024
Автор(и) :
Дарчук, Наталія Петрівна 
Київський національний університет імені Тараса Шевченка 
Зубань, Оксана Миколаївна orcid-logo
Київський національний університет імені Тараса Шевченка 
Робейко, Валентина Василівна 
Київський національний університет імені Тараса Шевченка 
Цигвінцева, Юлія Олександрівна 
Інститут української мови НАН України
Мова основного тексту :
Ukrainian
eKNUTSHIR URL :
https://ir.library.knu.ua/handle/15071834/7366
DOI :
https://doi.org/10.17721/шп/54(2024).204-221
Журнал :
Українське мовознавство 
Випуск :
1 (54)
ISSN :
2616-7522
Початкова сторінка :
204
Кінцева сторінка :
221
Цитування :
Дарчук Н., Зубань О., Робейко В., Цигвінцева Ю. Індексування негативного сентименту українськомовного тексту системою “TextAttributor 1.0”. Українське мовознавство. 2024. Вип. 1 (54). С. 204-221.
Вступ. У ХХІ столітті інформаційне поле є повноцінним полем бою. В українському інформаційному просторі все більшої ваги набуває проблема токсичності тексту, мови ворожнечі (ненависті). Саме тому інтерес дослідників до маркерів негативної тональності тексту, особливо медійного, невпинно зростає. У статті описано структуру та результати роботи окремого модуля автоматичної системи статистичної параметризації українськомовних текстів “TextAttributor 1.0” – лінгвістичну експертизу токсичності тексту.
Завдання вирішуються двома методами: методом словників і правил (обчислення статистичних параметрів) та методом машинного навчання.
Результати дослідження ґрунтуються на матеріалі корпусу мережевих медіатекстів політичного дискурсу обсягом 10 млн слововживань. Для реалізації мети було створено лексикографічну базу даних, до якої увійшли три словники: емоціогенів, мови ворожнечі та токсичних сполук, а також сформовано навчальну та контрольну вибірки текстів, на яких проводилося оцінювання параметрів обраної моделі методом машинного навчання. У межах проєкту було обрано ефективну для обчислень архітектуру на основі методу fastText та його інструментальних засобів. Індекс токсичності обчислюється за допомогою вербальної ідентифікації негативного сентименту тексту на базі створеного лінгвістичного та програмного забезпечення й унаявнюється через згенеровану системою лінгвістичну експертизу тексту, що відображає статистичну картку семантичних класів негативної лексики за класифікаційними маркерами лексикографічних списків та висновок нейронної мережі.
Висновки. Система “TextAttributor 1.0” перебуває на етапі тестування і вдосконалення функцій, тому в статті описується проміжна β-версія системи, проте отримані результати з визначення токсичності свідчать, що розроблена методика квантування вербальних засобів за семантичними параметрами (негативна емотивність) методами словників та правил і машинного навчання є ефективною для досягнення поставлених завдань і дає можливість не лише визначити межу між токсичним і нейтральним текстом, а й на підставі властивих тексту лексичних категорій наблизитися до розв’язання проблеми автоматичного виявлення наративу тексту. Методика розроблення модулю визначення токсичності медійного тексту в системі “TextAttributor 1.0” описана й оприлюднена на сторінці вебзастосунку у квітні 2024 р., але у формі науково-дослідницької статті ця інформація друкується вперше.
Ключові слова :

українськомовний меді...

токсичний текст

мова ворожнечі

тональність

негативний сентимент

індекс токсичності те...

Ukrainian-language me...

toxic text

hate speech

sentiment

negative sentiment

text toxicity index

Галузі знань та спеціальності :
03 Гуманітарні науки
Галузі науки і техніки (FOS) :
Гуманітарні науки
Тип зібрання :
Publication
Файл(и) :
Вантажиться...
Ескіз
Формат

Adobe PDF

Розмір :

666.63 KB

Контрольна сума:

(MD5):e9e7d36bb37c98c92d6a8d02f4b01a6b

Ця робота розповсюджується на умовах ліцензії Creative Commons CC BY

Налаштування куків Політика приватності Угода користувача Надіслати відгук

Побудовано за допомогою Програмне забезпечення DSpace-CRIS - Розширення підтримується та оптимізується 4Наука

м. Київ, вул. Володимирська, 58, к. 42

(044) 239-33-30

ir.library@knu.ua