Статистична класифікація тексту

Дата
2023
Автори
Куценький Олексій Олександрович
Назва журналу
ISSN журналу
Назва тому
Видавець
Анотація
У роботі будо розглянуто низку методів та алгоритмів обробки природньої мови. Базові методи попередньої обробки тексту та його векторизації, від простих - Торба слів, TF-IDF, до сучасних комплексних - Word2Vec, GloVe, що здатні передавати семантичне значення слів. Результатом кваліфікаційної роботи стало програмне забезпечення, що реалізує роботу моделі нейронної мережі для класифікації тексту за допомогою алгоритму випадкового лісу. Для прикладу модель була натренована на невеликому датасеті “симптоми-хвороба” з досягнутою точністю близько 95 відсотків на тестових даних. Задля демонстрації роботи моделі як інтерфейс був розроблений чат-бот у месенджері Telegram, що використовує побудовану модель як генератор відповіді на повідомлення користувача. Ключові слова: обробки природної мови, попередня обробка тексту, векторизація тексту, вкладання слів, дерева рішень, випадковий ліс, кероване навчання, класифікація.
Key words: natural language processing, text preprocessing, text vectorization, word embedding, decision trees, random forest, supervised learning, classification.
Бібліографічний опис
Галузь знань та спеціальність
12 Інформаційні технології , 124 Системний аналіз
Бібліографічний опис
Куценький О. О. Статистична класифікація тексту : кваліфікаційна робота … бакалавр : 124 Системний аналіз / Куценький Олексій Олександрович. – Київ, 2023. – 44 с.