Репозитарій КНУ
  • Yкраї́нська
  • English
  • Увійти
    Новий користувач? Зареєструйтесь.Забули пароль?
Репозитарій КНУ
  • Фонди & Зібрання
  • Статистика
  • Yкраї́нська
  • English
  • Увійти
    Новий користувач? Зареєструйтесь.Забули пароль?
  1. Головна
  2. Кваліфікаційні роботи | Qualifying works
  3. Бакалаврські роботи | Bachelor theses
  4. Класифікація і кластеризія текстової інформації
 
  • Деталі
Параметри

Класифікація і кластеризія текстової інформації

Дата випуску :
2022
Автор(и) :
Гавреш Ігор
Анотація :
В рамках представленої роботи розглянуті базові принципи текстової аналітики та конвеєри обробки даних та моделювання у додатках текстової аналітики. Як правило, додаток текстової аналітики складається з трьох частин: препроцесінга корпусу текстів, параметризації текстового корпусу та застосування моделей машинного навчання до множини параметрів текстового корпусу. Метою першої ділянки конвеєру обробки є перетворення кожного з текстів корпусу на множину лексичних термів: окремих слів або n-грам та нормалізація отриманих термів – зведення їх до початкової форми. Друга ділянка конвеєру – параметризація корпусу текстів робить можливим застосування числових математичних моделей до корпусу текстів. В роботі розглянуто усі три найбільш широко застосовувані моделі векторизації текстів та застосовано одну з них, TF-IDF, на практиці. Третя ділянка конвеєру – застосування математичних моделей. В роботі розглядається класифікація текстів з використанням моделей опорних векторів та кластеризація текстів алгоритмом k-середніх. Перший із згаданих алгоритмів використовується у багатьох додатках текстової аналітики поряд з алгоритмами ієрархічної класифікації. Алгоритм кластеризації k-середніх є простим та наочним алгоритмом кластеризації, який дає відносно непогані результати у багатьох випадках. Разом з алгоритмами розглянуті також метрики оцінки якості застосування відповідних моделей машинного навчання. В другому та третьому розділі, що відносяться до практичної частини, спроектовано та розроблено програмні додатки текстової аналітики на базі теоретичного розгляду першого розділу.
Бібліографічний опис :
Гавреш І. Класифікація і кластеризія текстової інформації : кваліфікаційна робота … бакалавра : 122 Комп’ютерні науки / Гавреш Ігор. – Київ, 2022. – 58 с.
URL :
https://ir.library.knu.ua/handle/123456789/3319
Файл(и) :
Вантажиться...
Ескіз
Формат

Adobe PDF

Розмір :

3.96 MB

Контрольна сума:

(MD5):0767be82ecd4d6a8c8a286254897e8b9

Ця робота розповсюджується на умовах ліцензії Creative Commons CC BY-NC

Побудовано за допомогою Програмне забезпечення DSpace-CRIS - Розширення підтримується та оптимізується 4Наука

  • Налаштування куків
  • Політика приватності
  • Угода користувача
  • Надіслати відгук

м. Київ, вул. Володимирська, 58, к. 42

(044) 239-33-30

ir.library@knu.ua