Параметри
Виявлення спаму в текстових повідомленнях із використанням логістичної регресії на базі градієнтного спуску
Тип публікації :
Стаття
Дата випуску :
29 серпня 2025 р.
Автор(и) :
ДЕЙНЕГА, Владислав
Мова основного тексту :
Ukrainian
eKNUTSHIR URL :
Том :
1
Випуск :
9
ISSN :
2707-1758
Початкова сторінка :
74
Кінцева сторінка :
80
Цитування :
МОРОЗОВ, В., ДЕЙНЕГА, В. (2025). Spam detection in text messages using logistic regression based on gradient descent. Information systems and technologies security, 1(9), 74–80. https://doi.org/10.17721/ISTS.2025.9.74-80
Вступ. Зі зростанням обсягів електронного листування проблема фільтрації спаму набуває все більшої актуальності. За даними статистичних досліджень, спам становить значну частку глобального поштового трафіка, що створює ризики як для безпеки, так і для ефективності електронної комунікації. У цьому контексті особливого значення набувають методи оброблення природної мови (NLP) та машинного навчання. Метою цієї роботи є побудова моделі для класифікації електронних повідомлень на спам і не спам, із використанням логістичної регресії, реалізованої через градієнтний спуск, у поєднанні з методами оброблення текстових даних.Методи. Для навчання моделі використано датасет, що містить понад 5000 електронних повідомлень, мічених як спам або не спам. Дані було попередньо очищено з видаленням шумових компонентів: пунктуації, цифр, стоп-слів, коротких слів, а також застосовано лематизацію. Тексти перетворено на числову форму за допомогою TF-IDF векторизації із L2-нормалізацією. Для боротьби з дисбалансом між класами застосовано метод SMOTE. Навчання моделі здійснювалось за класичною схемою градієнтного спуску з використанням сигмоїдної функції активації та логарифмічної функції втрат.Результати. Побудована модель досягла високих результатів на тестовій вибірці: загальна точність становила 98 %, f1-score для класу спам – 0.92, а для не спаму – 0.99. Значення recall для спаму дорівнювало 0.90, що свідчить про здатність моделі виявляти більшість небажаних повідомлень без надмірних помилкових спрацьовувань. Баланс precision і recall також підтверджується макросереднім і зваженим середнім f1-показником понад 0.96.Висновки. Результати дослідження засвідчили ефективність поєднання логістичної регресії, градієнтного спуску та текстового препроцесингу для задачі класифікації спаму навіть за умов дисбалансованих даних. Запропонований підхід є ефективним й інтерпретованим, що робить його придатним для практичного застосування в системах фільтрації електронної пошти.
Тип зібрання :
Publication
Файл(и) :
Вантажиться...
Формат
Adobe PDF
Розмір :
632.5 KB
Контрольна сума:
(MD5):abf92b369239507262782a8240541704
Ця робота розповсюджується на умовах ліцензії Creative Commons CC BY
10.17721/ISTS.2025.9.74-80