Автоматичний тональний аналіз українськомовних текстів новин

Синицька Аліна Сергіївна

Автоматичний тональний аналіз українськомовних текстів новин

Тип публікації :

Бакалаврська робота

Дата випуску :

2024

Автор(и) :

Синицька Аліна Сергіївна

Науковий(і) керівник(и)/редактор(и) :

Робейко Валентина Василівна

Мова основного тексту :

ua

eKNUTSHIR URL :

https://ir.library.knu.ua/handle/15071834/2882

Цитування :

Синицька А. С. Автоматичний тональний аналіз українськомовних текстів новин : кваліфікаційна робота освітнього ступеня «бакалавр» : 035.10 Прикладна лінгвістика / наук. кер. В. Робейко. Київ, 2024. 63 с.

Актуальність дослідження обумовлена зростаючим обсягом текстових даних у соціальних мережах, які містять важливу інформацію про громадську думку та настрої. Об’єктом дослідження є тексти повідомлень українською мовою з мережі «Telegram», а предметом — методи та алгоритми автоматизованого визначення лінгвістичних ознак тональності.
Метою кваліфікаційної роботи є створення комп’ютерної системи для автоматичного визначення тональності текстів. Для досягнення цієї мети були виконані завдання з опрацювання літератури, аналізу існуючих методів тонального аналізу, опрацювання корпусу текстів новин українською мовою, тренування різних моделей для сентимент-аналізу та оцінки результатів роботи. Методологія дослідження базується на застосуванні сучасних алгоритмів машинного навчання, що дозволяє ефективно аналізувати тексти в умовах динамічних змін інформаційного простору. Використання алгоритмів обробки природної мови, зокрема для української мови, забезпечує високу точність класифікації тональності текстів. Новизна дослідження полягає у застосуванні цих методів до українських текстів, що дозволяє адаптувати підходи тонального
аналізу до специфіки національного інформаційного контенту.
У результаті проведеного дослідження було натреновано чотири різні моделі: визначення тональності з використанням тонального словника української мови, визначення тональності за ембедингами слів, що згенеровані локально розгорнутою мовною моделлю BERT, визначення тональності з попередньо натренованою моделлю Gemini API та з використанням попередньо навченої трансформерної моделі RoBERTa. Моделі Gemini API та RoBERTa показали найкращі результати: для Gemini API точність — 0.772 та для другої моделі точність — від 0.593 до 0.645, та мітка F1 — від 0.590 до 0.641. На основі останньої моделі було створено вебзастосунок для зручності тестування. Розроблена система дозволяє швидко та об'єктивно аналізувати тональність новинних матеріалів, що важливо для моніторингу громадської думки та виявлення фейкових новин та пропаганди.

Ключові слова :

тональний аналіз

машинне навчання

трансформери

українські тексти

автоматизація

великі мовні моделі

tonal analysis

machine learning

transformers

Ukrainian texts

automation

large language models...

Галузі знань та спеціальності :

035 Філологія

Галузі науки і техніки (FOS) :

Гуманітарні науки

Тип зібрання :

Publication

Файл(и) :

Формат

Adobe PDF

Розмір :

3.17 MB

Контрольна сума:

(MD5):faca643422d7571ad2f5144b51c77579

Ця робота розповсюджується на умовах ліцензії Creative Commons CC BY-NC

Параметри

Автоматичний тональний аналіз українськомовних текстів новин