Індексування негативного сентименту українськомовного тексту системою “TextAttributor 1.0”

Дарчук, Наталія ПетрівнаНаталія ПетрівнаДарчук0009-0005-2182-3772Зубань, Оксана МиколаївнаОксана МиколаївнаЗубань0000-0002-2644-3892Робейко, Валентина ВасилівнаВалентина ВасилівнаРобейко0000-0003-2266-7650Цигвінцева, Юлія ОлександрівнаЮлія ОлександрівнаЦигвінцева0000-0002-9684-3840Індексування негативного сентименту українськомовного тексту системою “TextAttributor 1.0”Indexing of the negative sentiment of the Ukrainian text by “TextAttributor 1.0”Київський національний університет імені Тараса Шевченка2024українськомовний медіатексттоксичний текстмова ворожнечітональністьнегативний сентиментіндекс токсичності текстуUkrainian-language media texttoxic texthate speechsentimentnegative sentimenttext toxicity indexMy UniversityMy University2025-08-272025-08-272024ukСтаття[APA 7] Дарчук, Н. П., Зубань, О. М., Робейко, В. В., & Цигвінцева, Ю. О. (2024). Індексування негативного сентименту українськомовного тексту системою “TextAttributor 1.0”. Українське мовознавство, (1 (54)), 204–221. https://doi.org/10.17721/шп/54(2024).204-221[ДСТУ] Індексування негативного сентименту українськомовного тексту системою “TextAttributor 1.0” / Н. П. Дарчук та ін. Українське мовознавство. 2024. № 1 (54). С. 204—221. URL: https://doi.org/10.17721/шп/54(2024).204-221 (дата звернення: 18.07.2026).УДК 811.161.2’32’374https://doi.org/10.17721/шп/54(2024).204-221https://ir.library.knu.ua/handle/15071834/7366Creative Commons Attribution 4.0 Internationalhttps://creativecommons.org/licenses/by/4.0/Вступ. У ХХІ столітті інформаційне поле є повноцінним полем бою. В українському інформаційному просторі все більшої ваги набуває проблема токсичності тексту, мови ворожнечі (ненависті). Саме тому інтерес дослідників до маркерів негативної тональності тексту, особливо медійного, невпинно зростає. У статті описано структуру та результати роботи окремого модуля автоматичної системи статистичної параметризації українськомовних текстів “TextAttributor 1.0” – лінгвістичну експертизу токсичності тексту. Завдання вирішуються двома методами: методом словників і правил (обчислення статистичних параметрів) та методом машинного навчання. Результати дослідження ґрунтуються на матеріалі корпусу мережевих медіатекстів політичного дискурсу обсягом 10 млн слововживань. Для реалізації мети було створено лексикографічну базу даних, до якої увійшли три словники: емоціогенів, мови ворожнечі та токсичних сполук, а також сформовано навчальну та контрольну вибірки текстів, на яких проводилося оцінювання параметрів обраної моделі методом машинного навчання. У межах проєкту було обрано ефективну для обчислень архітектуру на основі методу fastText та його інструментальних засобів. Індекс токсичності обчислюється за допомогою вербальної ідентифікації негативного сентименту тексту на базі створеного лінгвістичного та програмного забезпечення й унаявнюється через згенеровану системою лінгвістичну експертизу тексту, що відображає статистичну картку семантичних класів негативної лексики за класифікаційними маркерами лексикографічних списків та висновок нейронної мережі. Висновки. Система “TextAttributor 1.0” перебуває на етапі тестування і вдосконалення функцій, тому в статті описується проміжна β-версія системи, проте отримані результати з визначення токсичності свідчать, що розроблена методика квантування вербальних засобів за семантичними параметрами (негативна емотивність) методами словників та правил і машинного навчання є ефективною для досягнення поставлених завдань і дає можливість не лише визначити межу між токсичним і нейтральним текстом, а й на підставі властивих тексту лексичних категорій наблизитися до розв’язання проблеми автоматичного виявлення наративу тексту. Методика розроблення модулю визначення токсичності медійного тексту в системі “TextAttributor 1.0” описана й оприлюднена на сторінці вебзастосунку у квітні 2024 р., але у формі науково-дослідницької статті ця інформація друкується вперше.Background. In the twenty-first century, the information space is a full-fledged battlefield. In the Ukrainian information space, the problem of text toxicity and hate speech is becoming increasingly important. Therefore, the interest of researchers in markers of negative textual tone, especially in media texts, is constantly growing. The article describes the structure and results of a separate module of the automatic system of statistical parameterization of Ukrainian-language texts “TextAttributor 1.0” – determination of the text toxicity index. The tasks are solved by two methods: the method of dictionaries and rules (calculation of statistical parameters) and the method of machine learning. The results of the study are based on the material of the corpus of online media texts of political discourse with a volume of 10 million word occurrences. To achieve this goal, a lexicographic database was created, including three dictionaries: Emotiogens, Hate Speech, and Toxic Compounds, and training and control samples of texts were formed to estimate the parameters of the selected model using machine learning. The project chose a computationally efficient architecture based on the fastText methodology and tools. The toxicity index is calculated by verbally identifying the negative sentiment of the text based on the linguistic and software-generated and is detected by the system-generated linguistic examination of the text, which displays a statistical map of semantic classes of negative vocabulary by classification markers of lexicographic lists, and the output of the neural network. Сonclusions.The “TextAttributor 1.0” system is at the stage of testing and improving its functionality, so the article describes an intermediate β-version of the system, but the results obtained in determining toxicity show that the developed methodology for quantifying verbal means by semantic parameters (negative emotionality) using dictionaries and rules and machine learning is effective in achieving the tasks set and makes it possible not only to determine the boundary between toxic and neutral text but also to approach the solution of the problem based on the lexical categories inherent in the text. The methodology for developing a module for determining the toxicity of media text in the “TextAttributor 1.0” system was described and published on the web application page in April 2024, but this information is published for the first time in the form of a research article.