Індексування негативного сентименту українськомовного тексту системою “TextAttributor 1.0”

[APA 7] Дарчук, Н. П., Зубань, О. М., Робейко, В. В., & Цигвінцева, Ю. О. (2024). Індексування негативного сентименту українськомовного тексту системою “TextAttributor 1.0”. Українське мовознавство, (1 (54)), 204–221. https://doi.org/10.17721/шп/54(2024).204-221

[ДСТУ] Індексування негативного сентименту українськомовного тексту системою “TextAttributor 1.0” / Н. П. Дарчук та ін. Українське мовознавство. 2024. № 1 (54). С. 204—221. URL: https://doi.org/10.17721/шп/54(2024).204-221 (дата звернення: 18.07.2026).

Вступ. У ХХІ столітті інформаційне поле є повноцінним полем бою. В українському інформаційному просторі все більшої ваги набуває проблема токсичності тексту, мови ворожнечі (ненависті). Саме тому інтерес дослідників до маркерів негативної тональності тексту, особливо медійного, невпинно зростає. У статті описано структуру та результати роботи окремого модуля автоматичної системи статистичної параметризації українськомовних текстів “TextAttributor 1.0” – лінгвістичну експертизу токсичності тексту.
Завдання вирішуються двома методами: методом словників і правил (обчислення статистичних параметрів) та методом машинного навчання.
Результати дослідження ґрунтуються на матеріалі корпусу мережевих медіатекстів політичного дискурсу обсягом 10 млн слововживань. Для реалізації мети було створено лексикографічну базу даних, до якої увійшли три словники: емоціогенів, мови ворожнечі та токсичних сполук, а також сформовано навчальну та контрольну вибірки текстів, на яких проводилося оцінювання параметрів обраної моделі методом машинного навчання. У межах проєкту було обрано ефективну для обчислень архітектуру на основі методу fastText та його інструментальних засобів. Індекс токсичності обчислюється за допомогою вербальної ідентифікації негативного сентименту тексту на базі створеного лінгвістичного та програмного забезпечення й унаявнюється через згенеровану системою лінгвістичну експертизу тексту, що відображає статистичну картку семантичних класів негативної лексики за класифікаційними маркерами лексикографічних списків та висновок нейронної мережі.
Висновки. Система “TextAttributor 1.0” перебуває на етапі тестування і вдосконалення функцій, тому в статті описується проміжна β-версія системи, проте отримані результати з визначення токсичності свідчать, що розроблена методика квантування вербальних засобів за семантичними параметрами (негативна емотивність) методами словників та правил і машинного навчання є ефективною для досягнення поставлених завдань і дає можливість не лише визначити межу між токсичним і нейтральним текстом, а й на підставі властивих тексту лексичних категорій наблизитися до розв’язання проблеми автоматичного виявлення наративу тексту. Методика розроблення модулю визначення токсичності медійного тексту в системі “TextAttributor 1.0” описана й оприлюднена на сторінці вебзастосунку у квітні 2024 р., але у формі науково-дослідницької статті ця інформація друкується вперше.

Ключові слова :

українськомовний медіатекст токсичний текст мова ворожнечі тональність негативний сентимент індекс токсичності тексту Ukrainian-language media text toxic text hate speech sentiment negative sentiment text toxicity index

Галузі знань та спеціальності :

03 Гуманітарні науки

Галузі науки і техніки (FOS) :

Гуманітарні науки

Файл(и) :

Формат :

Adobe PDF

Розмір :

666.63 KB

Контрольна сума :

(MD5):e9e7d36bb37c98c92d6a8d02f4b01a6b

Якщо не вказано інше, ця робота розповсюджується на умовах ліцензії Creative Commons Attribution 4.0 International