Параметри
Класифікація і кластеризія текстової інформації
Дата випуску :
2022
Автор(и) :
Гавреш Ігор
Анотація :
В рамках представленої роботи розглянуті базові принципи текстової аналітики та конвеєри обробки даних та моделювання у додатках текстової аналітики. Як правило, додаток текстової аналітики складається з трьох частин: препроцесінга корпусу текстів, параметризації текстового корпусу та застосування моделей машинного навчання до множини параметрів текстового корпусу. Метою першої ділянки конвеєру обробки є перетворення кожного з текстів корпусу на множину лексичних термів: окремих слів або n-грам та нормалізація отриманих термів – зведення їх до початкової форми. Друга ділянка конвеєру – параметризація корпусу текстів робить можливим застосування числових математичних моделей до корпусу текстів. В роботі розглянуто усі три найбільш широко застосовувані моделі векторизації текстів та застосовано одну з них, TF-IDF, на практиці. Третя ділянка конвеєру – застосування математичних моделей. В роботі розглядається класифікація текстів з використанням моделей опорних векторів та кластеризація текстів алгоритмом k-середніх. Перший із згаданих алгоритмів використовується у багатьох додатках текстової аналітики поряд з алгоритмами ієрархічної класифікації. Алгоритм кластеризації k-середніх є простим та наочним алгоритмом кластеризації, який дає відносно непогані результати у багатьох випадках. Разом з алгоритмами розглянуті також метрики оцінки якості застосування відповідних моделей машинного навчання. В другому та третьому розділі, що відносяться до практичної частини, спроектовано та розроблено програмні додатки текстової аналітики на базі теоретичного розгляду першого розділу.
Бібліографічний опис :
Гавреш І. Класифікація і кластеризія текстової інформації : кваліфікаційна робота … бакалавра : 122 Комп’ютерні науки / Гавреш Ігор. – Київ, 2022. – 58 с.
Файл(и) :
Вантажиться...
Формат
Adobe PDF
Розмір :
3.96 MB
Контрольна сума:
(MD5):0767be82ecd4d6a8c8a286254897e8b9
Ця робота розповсюджується на умовах ліцензії Creative Commons CC BY-NC