Синицька Аліна СергіївнаРобейко Валентина Василівна2024-07-172024-07-172024Синицька А. С. Автоматичний тональний аналіз українськомовних текстів новин : кваліфікаційна робота освітнього ступеня «бакалавр» : 035.10 Прикладна лінгвістика / наук. кер. В. Робейко. Київ, 2024. 63 с.https://ir.library.knu.ua/handle/15071834/2882Актуальність дослідження обумовлена зростаючим обсягом текстових даних у соціальних мережах, які містять важливу інформацію про громадську думку та настрої. Об’єктом дослідження є тексти повідомлень українською мовою з мережі «Telegram», а предметом — методи та алгоритми автоматизованого визначення лінгвістичних ознак тональності. Метою кваліфікаційної роботи є створення комп’ютерної системи для автоматичного визначення тональності текстів. Для досягнення цієї мети були виконані завдання з опрацювання літератури, аналізу існуючих методів тонального аналізу, опрацювання корпусу текстів новин українською мовою, тренування різних моделей для сентимент-аналізу та оцінки результатів роботи. Методологія дослідження базується на застосуванні сучасних алгоритмів машинного навчання, що дозволяє ефективно аналізувати тексти в умовах динамічних змін інформаційного простору. Використання алгоритмів обробки природної мови, зокрема для української мови, забезпечує високу точність класифікації тональності текстів. Новизна дослідження полягає у застосуванні цих методів до українських текстів, що дозволяє адаптувати підходи тонального аналізу до специфіки національного інформаційного контенту. У результаті проведеного дослідження було натреновано чотири різні моделі: визначення тональності з використанням тонального словника української мови, визначення тональності за ембедингами слів, що згенеровані локально розгорнутою мовною моделлю BERT, визначення тональності з попередньо натренованою моделлю Gemini API та з використанням попередньо навченої трансформерної моделі RoBERTa. Моделі Gemini API та RoBERTa показали найкращі результати: для Gemini API точність — 0.772 та для другої моделі точність — від 0.593 до 0.645, та мітка F1 — від 0.590 до 0.641. На основі останньої моделі було створено вебзастосунок для зручності тестування. Розроблена система дозволяє швидко та об'єктивно аналізувати тональність новинних матеріалів, що важливо для моніторингу громадської думки та виявлення фейкових новин та пропаганди.The relevance of the study is due to the growing amount of textual data in social media, which contains important information about public opinion and sentiment. The object of the study is the texts of messages in Ukrainian from the Telegram network, and the subject is the methods and algorithms for automated detection of linguistic features of tone. The aim of the qualification work is to create a computer system for automatically determining the tone of texts. To achieve this goal, the tasks of literature research, analysis of existing methods of tone analysis, processing of the corpus of news texts in Ukrainian, training of various models for sentiment analysis and evaluation of the results of work were performed. The research methodology is based on the use of modern machine learning algorithms, which allows for effective text analysis in the context of dynamic changes in the information space. The use of natural language processing algorithms, in particular for the Ukrainian language, ensures high accuracy of text tone classification. The novelty of the study lies in the application of these methods to Ukrainian texts, which allows us to adapt the approaches of tone analysis to the specifics of national information content. As a result of the study, four different models were trained: pitch detection using the Ukrainian tone dictionary, pitch detection based on word embeddings generated by the locally deployed BERT language model, pitch detection with the pre-trained Gemini API model and using the pre-trained RoBERTa transformer model. The Gemini API and RoBERTa models showed the best results: for Gemini API, the accuracy was 0.772, and for the second model, the accuracy ranged from 0.593 to 0.645, and the F1 label from 0.590 to 0.641. Based on the latter model, a web application was created to facilitate testing. The developed system allows for a quick and objective analysis of the tone of news stories, which is important for monitoring public opinion and identifying fake news and propaganda.uaтональний аналізмашинне навчаннятрансформериукраїнські текстиавтоматизаціявеликі мовні моделіtonal analysismachine learningtransformersUkrainian textsautomationlarge language modelsАвтоматичний тональний аналіз українськомовних текстів новинБакалаврська робота