Параметри
Автоматичний тональний аналіз українськомовних текстів новин
Дата випуску :
2024
Автор(и) :
Синицька Аліна Сергіївна
Науковий(і) керівник(и)/редактор(и) :
Робейко Валентина Василівна
Анотація :
Актуальність дослідження обумовлена зростаючим обсягом текстових даних у соціальних мережах, які містять важливу інформацію про громадську думку та настрої. Об’єктом дослідження є тексти повідомлень українською мовою з мережі «Telegram», а предметом — методи та алгоритми автоматизованого визначення лінгвістичних ознак тональності.
Метою кваліфікаційної роботи є створення комп’ютерної системи для автоматичного визначення тональності текстів. Для досягнення цієї мети були виконані завдання з опрацювання літератури, аналізу існуючих методів тонального аналізу, опрацювання корпусу текстів новин українською мовою, тренування різних моделей для сентимент-аналізу та оцінки результатів роботи. Методологія дослідження базується на застосуванні сучасних алгоритмів машинного навчання, що дозволяє ефективно аналізувати тексти в умовах динамічних змін інформаційного простору. Використання алгоритмів обробки природної мови, зокрема для української мови, забезпечує високу точність класифікації тональності текстів. Новизна дослідження полягає у застосуванні цих методів до українських текстів, що дозволяє адаптувати підходи тонального
аналізу до специфіки національного інформаційного контенту.
У результаті проведеного дослідження було натреновано чотири різні моделі: визначення тональності з використанням тонального словника української мови, визначення тональності за ембедингами слів, що згенеровані локально розгорнутою мовною моделлю BERT, визначення тональності з попередньо натренованою моделлю Gemini API та з використанням попередньо навченої трансформерної моделі RoBERTa. Моделі Gemini API та RoBERTa показали найкращі результати: для Gemini API точність — 0.772 та для другої моделі точність — від 0.593 до 0.645, та мітка F1 — від 0.590 до 0.641. На основі останньої моделі було створено вебзастосунок для зручності тестування. Розроблена система дозволяє швидко та об'єктивно аналізувати тональність новинних матеріалів, що важливо для моніторингу громадської думки та виявлення фейкових новин та пропаганди.
Метою кваліфікаційної роботи є створення комп’ютерної системи для автоматичного визначення тональності текстів. Для досягнення цієї мети були виконані завдання з опрацювання літератури, аналізу існуючих методів тонального аналізу, опрацювання корпусу текстів новин українською мовою, тренування різних моделей для сентимент-аналізу та оцінки результатів роботи. Методологія дослідження базується на застосуванні сучасних алгоритмів машинного навчання, що дозволяє ефективно аналізувати тексти в умовах динамічних змін інформаційного простору. Використання алгоритмів обробки природної мови, зокрема для української мови, забезпечує високу точність класифікації тональності текстів. Новизна дослідження полягає у застосуванні цих методів до українських текстів, що дозволяє адаптувати підходи тонального
аналізу до специфіки національного інформаційного контенту.
У результаті проведеного дослідження було натреновано чотири різні моделі: визначення тональності з використанням тонального словника української мови, визначення тональності за ембедингами слів, що згенеровані локально розгорнутою мовною моделлю BERT, визначення тональності з попередньо натренованою моделлю Gemini API та з використанням попередньо навченої трансформерної моделі RoBERTa. Моделі Gemini API та RoBERTa показали найкращі результати: для Gemini API точність — 0.772 та для другої моделі точність — від 0.593 до 0.645, та мітка F1 — від 0.590 до 0.641. На основі останньої моделі було створено вебзастосунок для зручності тестування. Розроблена система дозволяє швидко та об'єктивно аналізувати тональність новинних матеріалів, що важливо для моніторингу громадської думки та виявлення фейкових новин та пропаганди.
Бібліографічний опис :
Синицька А. С. Автоматичний тональний аналіз українськомовних текстів новин : кваліфікаційна робота освітнього ступеня «бакалавр» : 035.10 Прикладна лінгвістика / наук. кер. В. Робейко. Київ, 2024. 63 с.
Файл(и) :
Вантажиться...
Формат
Adobe PDF
Розмір :
3.17 MB
Контрольна сума:
(MD5):faca643422d7571ad2f5144b51c77579
Ця робота розповсюджується на умовах ліцензії Creative Commons CC BY-NC