Виявлення спаму в текстових повідомленнях із використанням логістичної регресії на базі градієнтного спуску

Морозов, Віктор Володимирович; Дейнега, В.

doi:10.17721/ISTS.2025.9.74-80

Виявлення спаму в текстових повідомленнях із використанням логістичної регресії на базі градієнтного спуску

Тип публікації :

Стаття

Дата випуску :

29 серпня 2025 р.

Автор(и) :

Морозов, Віктор Володимирович

Київський національний університет імені Тараса Шевченка

Дейнега, В.

Київський національний університет імені Тараса Шевченка

Мова основного тексту :

Ukrainian

eKNUTSHIR URL :

https://ir.library.knu.ua/handle/15071834/12574

DOI :

10.17721/ISTS.2025.9.74-80

Журнал :

Безпека інформаційних систем і технологій

Випуск :

1(9)

ISSN :

2707-1758

Початкова сторінка :

74

Кінцева сторінка :

80

Цитування :

Морозов, В. & Дейнега, В. (2025). Виявлення спаму в текстових повідомленнях із використанням логістичної регресії на базі градієнтного спуску. Безпека інформаційних систем і технологій, 1(9), 74–80. https://doi.org/10.17721/ISTS.2025.9.74-80

Вступ. Зі зростанням обсягів електронного листування проблема фільтрації спаму набуває все більшої актуальності. За даними статистичних досліджень, спам становить значну частку глобального поштового трафіка, що створює ризики як для безпеки, так і для ефективності електронної комунікації. У цьому контексті особливого значення набувають методи оброблення природної мови (NLP) та машинного навчання. Метою цієї роботи є побудова моделі для класифікації електронних повідомлень на спам і не спам, із використанням логістичної регресії, реалізованої через градієнтний спуск, у поєднанні з методами оброблення текстових даних.Методи. Для навчання моделі використано датасет, що містить понад 5000 електронних повідомлень, мічених як спам або не спам. Дані було попередньо очищено з видаленням шумових компонентів: пунктуації, цифр, стоп-слів, коротких слів, а також застосовано лематизацію. Тексти перетворено на числову форму за допомогою TF-IDF векторизації із L2-нормалізацією. Для боротьби з дисбалансом між класами застосовано метод SMOTE. Навчання моделі здійснювалось за класичною схемою градієнтного спуску з використанням сигмоїдної функції активації та логарифмічної функції втрат.Результати. Побудована модель досягла високих результатів на тестовій вибірці: загальна точність становила 98 %, f1-score для класу спам – 0.92, а для не спаму – 0.99. Значення recall для спаму дорівнювало 0.90, що свідчить про здатність моделі виявляти більшість небажаних повідомлень без надмірних помилкових спрацьовувань. Баланс precision і recall також підтверджується макросереднім і зваженим середнім f1-показником понад 0.96.Висновки. Результати дослідження засвідчили ефективність поєднання логістичної регресії, градієнтного спуску та текстового препроцесингу для задачі класифікації спаму навіть за умов дисбалансованих даних. Запропонований підхід є ефективним й інтерпретованим, що робить його придатним для практичного застосування в системах фільтрації електронної пошти.

Ключові слова :

machine learning

natural language proc...

gradient optimization...

email filtering

text preprocessing

classification

машинне навчання

оброблення природної ...

градієнтна оптимізаці...

фільтрація електронно...

текстовий препроцесин...

класифікація

Галузі знань та спеціальності :

12 Інформаційні технології

Галузі науки і техніки (FOS) :

Інженерія та технології

Тип зібрання :

Publication

Файл(и) :

Формат

Adobe PDF

Розмір :

632.5 KB

Контрольна сума:

(MD5):abf92b369239507262782a8240541704

Ця робота розповсюджується на умовах ліцензії Creative Commons CC BY

Параметри

Виявлення спаму в текстових повідомленнях із використанням логістичної регресії на базі градієнтного спуску