Параметри
Виявлення спаму в текстових повідомленнях із використанням логістичної регресії на базі градієнтного спуску
Тип публікації :
Стаття
Дата випуску :
29 серпня 2025 р.
Мова основного тексту :
Ukrainian
eKNUTSHIR URL :
Випуск :
1(9)
ISSN :
2707-1758
Початкова сторінка :
74
Кінцева сторінка :
80
Цитування :
Морозов, В. & Дейнега, В. (2025). Виявлення спаму в текстових повідомленнях із використанням логістичної регресії на базі градієнтного спуску. Безпека інформаційних систем і технологій, 1(9), 74–80. https://doi.org/10.17721/ISTS.2025.9.74-80
Вступ. Зі зростанням обсягів електронного листування проблема фільтрації спаму набуває все більшої актуальності. За даними статистичних досліджень, спам становить значну частку глобального поштового трафіка, що створює ризики як для безпеки, так і для ефективності електронної комунікації. У цьому контексті особливого значення набувають методи оброблення природної мови (NLP) та машинного навчання. Метою цієї роботи є побудова моделі для класифікації електронних повідомлень на спам і не спам, із використанням логістичної регресії, реалізованої через градієнтний спуск, у поєднанні з методами оброблення текстових даних.Методи. Для навчання моделі використано датасет, що містить понад 5000 електронних повідомлень, мічених як спам або не спам. Дані було попередньо очищено з видаленням шумових компонентів: пунктуації, цифр, стоп-слів, коротких слів, а також застосовано лематизацію. Тексти перетворено на числову форму за допомогою TF-IDF векторизації із L2-нормалізацією. Для боротьби з дисбалансом між класами застосовано метод SMOTE. Навчання моделі здійснювалось за класичною схемою градієнтного спуску з використанням сигмоїдної функції активації та логарифмічної функції втрат.Результати. Побудована модель досягла високих результатів на тестовій вибірці: загальна точність становила 98 %, f1-score для класу спам – 0.92, а для не спаму – 0.99. Значення recall для спаму дорівнювало 0.90, що свідчить про здатність моделі виявляти більшість небажаних повідомлень без надмірних помилкових спрацьовувань. Баланс precision і recall також підтверджується макросереднім і зваженим середнім f1-показником понад 0.96.Висновки. Результати дослідження засвідчили ефективність поєднання логістичної регресії, градієнтного спуску та текстового препроцесингу для задачі класифікації спаму навіть за умов дисбалансованих даних. Запропонований підхід є ефективним й інтерпретованим, що робить його придатним для практичного застосування в системах фільтрації електронної пошти.
Галузі знань та спеціальності :
12 Інформаційні технології
Галузі науки і техніки (FOS) :
Інженерія та технології
Тип зібрання :
Publication
Файл(и) :
Вантажиться...
Формат
Adobe PDF
Розмір :
632.5 KB
Контрольна сума:
(MD5):abf92b369239507262782a8240541704
Ця робота розповсюджується на умовах ліцензії Creative Commons CC BY
10.17721/ISTS.2025.9.74-80