Репозитарій КНУ
  • Yкраї́нська
  • English
  • Увійти
    Новий користувач? Зареєструйтесь.Забули пароль?
Репозитарій КНУ
  • Фонди & Зібрання
  • Статистика
  • Yкраї́нська
  • English
  • Увійти
    Новий користувач? Зареєструйтесь.Забули пароль?
  1. Головна
  2. Наукова періодика | Scientific periodicals
  3. Безпека інформаційних систем і технологій | Information Systems and Technologies Security
  4. 2025
  5. Безпека інформаційних систем і технологій. № 1(9)
  6. Виявлення спаму в текстових повідомленнях із використанням логістичної регресії на базі градієнтного спуску
 
  • Деталі
Параметри

Виявлення спаму в текстових повідомленнях із використанням логістичної регресії на базі градієнтного спуску

Тип публікації :
Стаття
Дата випуску :
29 серпня 2025 р.
Автор(и) :
МОРОЗОВ, Віктор 
ДЕЙНЕГА, Владислав
Мова основного тексту :
Ukrainian
eKNUTSHIR URL :
https://ir.library.knu.ua/handle/15071834/12574
DOI :
10.17721/ISTS.2025.9.74-80
Журнал :
Information systems and technologies security 
Том :
1
Випуск :
9
ISSN :
2707-1758
Початкова сторінка :
74
Кінцева сторінка :
80
Цитування :
МОРОЗОВ, В., ДЕЙНЕГА, В. (2025). Spam detection in text messages using logistic regression based on gradient descent. Information systems and technologies security, 1(9), 74–80. https://doi.org/10.17721/ISTS.2025.9.74-80
Вступ. Зі зростанням обсягів електронного листування проблема фільтрації спаму набуває все більшої актуальності. За даними статистичних досліджень, спам становить значну частку глобального поштового трафіка, що створює ризики як для безпеки, так і для ефективності електронної комунікації. У цьому контексті особливого значення набувають методи оброблення природної мови (NLP) та машинного навчання. Метою цієї роботи є побудова моделі для класифікації електронних повідомлень на спам і не спам, із використанням логістичної регресії, реалізованої через градієнтний спуск, у поєднанні з методами оброблення текстових даних.Методи. Для навчання моделі використано датасет, що містить понад 5000 електронних повідомлень, мічених як спам або не спам. Дані було попередньо очищено з видаленням шумових компонентів: пунктуації, цифр, стоп-слів, коротких слів, а також застосовано лематизацію. Тексти перетворено на числову форму за допомогою TF-IDF векторизації із L2-нормалізацією. Для боротьби з дисбалансом між класами застосовано метод SMOTE. Навчання моделі здійснювалось за класичною схемою градієнтного спуску з використанням сигмоїдної функції активації та логарифмічної функції втрат.Результати. Побудована модель досягла високих результатів на тестовій вибірці: загальна точність становила 98 %, f1-score для класу спам – 0.92, а для не спаму – 0.99. Значення recall для спаму дорівнювало 0.90, що свідчить про здатність моделі виявляти більшість небажаних повідомлень без надмірних помилкових спрацьовувань. Баланс precision і recall також підтверджується макросереднім і зваженим середнім f1-показником понад 0.96.Висновки. Результати дослідження засвідчили ефективність поєднання логістичної регресії, градієнтного спуску та текстового препроцесингу для задачі класифікації спаму навіть за умов дисбалансованих даних. Запропонований підхід є ефективним й інтерпретованим, що робить його придатним для практичного застосування в системах фільтрації електронної пошти.
Ключові слова :

machine learning

natural language proc...

gradient optimization...

email filtering

text preprocessing

classification

машинне навчання

оброблення природної ...

градієнтна оптимізаці...

фільтрація електронно...

текстовий препроцесин...

класифікація

Тип зібрання :
Publication
Файл(и) :
Вантажиться...
Ескіз
Формат

Adobe PDF

Розмір :

632.5 KB

Контрольна сума:

(MD5):abf92b369239507262782a8240541704

Ця робота розповсюджується на умовах ліцензії Creative Commons CC BY

Налаштування куків Політика приватності Угода користувача Надіслати відгук

Побудовано за допомогою Програмне забезпечення DSpace-CRIS - Розширення підтримується та оптимізується 4Наука

м. Київ, вул. Володимирська, 58, к. 42

(044) 239-33-30

ir.library@knu.ua