Параметри
Індексування негативного сентименту українськомовного тексту системою “TextAttributor 1.0”
Тип публікації :
Стаття
Дата випуску :
2024
Автор(и) :
Інститут української мови НАН України
Мова основного тексту :
Ukrainian
eKNUTSHIR URL :
Журнал :
Випуск :
1 (54)
ISSN :
2616-7522
Початкова сторінка :
204
Кінцева сторінка :
221
Цитування :
Дарчук Н., Зубань О., Робейко В., Цигвінцева Ю. Індексування негативного сентименту українськомовного тексту системою “TextAttributor 1.0”. Українське мовознавство. 2024. Вип. 1 (54). С. 204-221.
Вступ. У ХХІ столітті інформаційне поле є повноцінним полем бою. В українському інформаційному просторі все більшої ваги набуває проблема токсичності тексту, мови ворожнечі (ненависті). Саме тому інтерес дослідників до маркерів негативної тональності тексту, особливо медійного, невпинно зростає. У статті описано структуру та результати роботи окремого модуля автоматичної системи статистичної параметризації українськомовних текстів “TextAttributor 1.0” – лінгвістичну експертизу токсичності тексту.
Завдання вирішуються двома методами: методом словників і правил (обчислення статистичних параметрів) та методом машинного навчання.
Результати дослідження ґрунтуються на матеріалі корпусу мережевих медіатекстів політичного дискурсу обсягом 10 млн слововживань. Для реалізації мети було створено лексикографічну базу даних, до якої увійшли три словники: емоціогенів, мови ворожнечі та токсичних сполук, а також сформовано навчальну та контрольну вибірки текстів, на яких проводилося оцінювання параметрів обраної моделі методом машинного навчання. У межах проєкту було обрано ефективну для обчислень архітектуру на основі методу fastText та його інструментальних засобів. Індекс токсичності обчислюється за допомогою вербальної ідентифікації негативного сентименту тексту на базі створеного лінгвістичного та програмного забезпечення й унаявнюється через згенеровану системою лінгвістичну експертизу тексту, що відображає статистичну картку семантичних класів негативної лексики за класифікаційними маркерами лексикографічних списків та висновок нейронної мережі.
Висновки. Система “TextAttributor 1.0” перебуває на етапі тестування і вдосконалення функцій, тому в статті описується проміжна β-версія системи, проте отримані результати з визначення токсичності свідчать, що розроблена методика квантування вербальних засобів за семантичними параметрами (негативна емотивність) методами словників та правил і машинного навчання є ефективною для досягнення поставлених завдань і дає можливість не лише визначити межу між токсичним і нейтральним текстом, а й на підставі властивих тексту лексичних категорій наблизитися до розв’язання проблеми автоматичного виявлення наративу тексту. Методика розроблення модулю визначення токсичності медійного тексту в системі “TextAttributor 1.0” описана й оприлюднена на сторінці вебзастосунку у квітні 2024 р., але у формі науково-дослідницької статті ця інформація друкується вперше.
Завдання вирішуються двома методами: методом словників і правил (обчислення статистичних параметрів) та методом машинного навчання.
Результати дослідження ґрунтуються на матеріалі корпусу мережевих медіатекстів політичного дискурсу обсягом 10 млн слововживань. Для реалізації мети було створено лексикографічну базу даних, до якої увійшли три словники: емоціогенів, мови ворожнечі та токсичних сполук, а також сформовано навчальну та контрольну вибірки текстів, на яких проводилося оцінювання параметрів обраної моделі методом машинного навчання. У межах проєкту було обрано ефективну для обчислень архітектуру на основі методу fastText та його інструментальних засобів. Індекс токсичності обчислюється за допомогою вербальної ідентифікації негативного сентименту тексту на базі створеного лінгвістичного та програмного забезпечення й унаявнюється через згенеровану системою лінгвістичну експертизу тексту, що відображає статистичну картку семантичних класів негативної лексики за класифікаційними маркерами лексикографічних списків та висновок нейронної мережі.
Висновки. Система “TextAttributor 1.0” перебуває на етапі тестування і вдосконалення функцій, тому в статті описується проміжна β-версія системи, проте отримані результати з визначення токсичності свідчать, що розроблена методика квантування вербальних засобів за семантичними параметрами (негативна емотивність) методами словників та правил і машинного навчання є ефективною для досягнення поставлених завдань і дає можливість не лише визначити межу між токсичним і нейтральним текстом, а й на підставі властивих тексту лексичних категорій наблизитися до розв’язання проблеми автоматичного виявлення наративу тексту. Методика розроблення модулю визначення токсичності медійного тексту в системі “TextAttributor 1.0” описана й оприлюднена на сторінці вебзастосунку у квітні 2024 р., але у формі науково-дослідницької статті ця інформація друкується вперше.
Галузі знань та спеціальності :
03 Гуманітарні науки
Галузі науки і техніки (FOS) :
Гуманітарні науки
Тип зібрання :
Publication
Файл(и) :
Вантажиться...
Формат
Adobe PDF
Розмір :
666.63 KB
Контрольна сума:
(MD5):e9e7d36bb37c98c92d6a8d02f4b01a6b
Ця робота розповсюджується на умовах ліцензії Creative Commons CC BY
https://doi.org/10.17721/шп/54(2024).204-221