Параметри
Автоматичне визначення рівня GEFR українськомовних текстів та створення рівневого за шкалою GEFR корпусу текстів УМІ
Тип публікації :
Бакалаврська робота
Дата випуску :
2024
Автор(и) :
Ясуди Кійохіко-Кирил
Науковий(і) керівник(и)/редактор(и) :
Костіков Микола Павлович
Мова основного тексту :
ua
eKNUTSHIR URL :
Цитування :
Ясуди К.-К. Автоматичне визначення рівня GEFR українськомовних текстів та створення рівневого за шкалою GEFR корпусу текстів УМІ : кваліфікаційна робота бакалавра : 035.10 Філологія (прикладна лінгвістика) / наук. кер. М. П. Костіков. Київ, 2024. 75 с.
Метою роботи є створення та тестування існуючих алгоритмів для текстової класифікації для задачі класифікації текстів українською мовою за рівнями CEFR.
Об’єктом дослідження у даній роботі виступають тексти, написані українською мовою.
Предметом дослідження є потенціал автоматичної класифікації цих текстів за рівнями CEFR.
Досліджено існуючі алгоритми класифікації текстів. Створено власний індекс на основі морфологічної розмітки. Створено програму, що аналізує тексти на рівень CEFR та укладає корпус. Створено графічний інтерфейс користувача для даної програми.
У результаті проведених досліджень було розроблено програму для аналізу тексту, яка здійснює граматичну анотацію, визначає параметри тексту (такі як довжина слова у символах та складах) і надає звіт щодо ймовірного рівня володіння мовою згідно CEFR. Крім того, програма генерує таблиці з проанотованими токенами та реченнями.
Об’єктом дослідження у даній роботі виступають тексти, написані українською мовою.
Предметом дослідження є потенціал автоматичної класифікації цих текстів за рівнями CEFR.
Досліджено існуючі алгоритми класифікації текстів. Створено власний індекс на основі морфологічної розмітки. Створено програму, що аналізує тексти на рівень CEFR та укладає корпус. Створено графічний інтерфейс користувача для даної програми.
У результаті проведених досліджень було розроблено програму для аналізу тексту, яка здійснює граматичну анотацію, визначає параметри тексту (такі як довжина слова у символах та складах) і надає звіт щодо ймовірного рівня володіння мовою згідно CEFR. Крім того, програма генерує таблиці з проанотованими токенами та реченнями.
Галузі знань та спеціальності :
03 Гуманітарні науки
035 Філологія
Галузі науки і техніки (FOS) :
Мови та література
Тип зібрання :
Publication
Файл(и) :
Вантажиться...
Формат
Adobe PDF
Розмір :
434.19 KB
Контрольна сума:
(MD5):0404da98a5d644399230f6d656d64d2c
Ця робота розповсюджується на умовах ліцензії Creative Commons CC BY-NC