Крак Юрій ВасильовичГавреш Ігор2023-05-012024-05-152023-05-012022Гавреш І. Класифікація і кластеризія текстової інформації : кваліфікаційна робота … бакалавра : 122 Комп’ютерні науки / Гавреш Ігор. – Київ, 2022. – 58 с.https://ir.library.knu.ua/handle/123456789/3319В рамках представленої роботи розглянуті базові принципи текстової аналітики та конвеєри обробки даних та моделювання у додатках текстової аналітики. Як правило, додаток текстової аналітики складається з трьох частин: препроцесінга корпусу текстів, параметризації текстового корпусу та застосування моделей машинного навчання до множини параметрів текстового корпусу. Метою першої ділянки конвеєру обробки є перетворення кожного з текстів корпусу на множину лексичних термів: окремих слів або n-грам та нормалізація отриманих термів – зведення їх до початкової форми. Друга ділянка конвеєру – параметризація корпусу текстів робить можливим застосування числових математичних моделей до корпусу текстів. В роботі розглянуто усі три найбільш широко застосовувані моделі векторизації текстів та застосовано одну з них, TF-IDF, на практиці. Третя ділянка конвеєру – застосування математичних моделей. В роботі розглядається класифікація текстів з використанням моделей опорних векторів та кластеризація текстів алгоритмом k-середніх. Перший із згаданих алгоритмів використовується у багатьох додатках текстової аналітики поряд з алгоритмами ієрархічної класифікації. Алгоритм кластеризації k-середніх є простим та наочним алгоритмом кластеризації, який дає відносно непогані результати у багатьох випадках. Разом з алгоритмами розглянуті також метрики оцінки якості застосування відповідних моделей машинного навчання. В другому та третьому розділі, що відносяться до практичної частини, спроектовано та розроблено програмні додатки текстової аналітики на базі теоретичного розгляду першого розділу.uaКласифікація і кластеризія текстової інформаціїБакалаврська робота