Параметри
ПОРІВНЯЛЬНИЙ АНАЛІЗ СИСТЕМНИХ ЖУРНАЛІВ І ПОТОКОВИХ ДАНИХ АЛГОРИТМИ ВИЯВЛЕННЯ АНОМАЛІЙ
Тип публікації :
Стаття
Дата випуску :
1 лютого 2020 р.
Автор(и) :
Ліщитович , Андрій
Павленко , Володимир
Шматок , Олександр
Фіненко , Юрій
Мова основного тексту :
Ukrainian
eKNUTSHIR URL :
Том :
1
Випуск :
2
ISSN :
2707-1758
Початкова сторінка :
50
Кінцева сторінка :
59
Цитування :
Ліщитович, А., Павленко, В., Шматок, О., Фіненко, Ю. (2020). COMPARATIVE ANALYSIS OF SYSTEM LOGS AND STREAMING DATA ANOMALY DETECTION ALGORITHMS. Information systems and technologies security, 1(2), 50–59. https://doi.org/10.17721/ISTS.2020.1.50-59
У цьому документі подано опис та порівняльний аналіз
декількох загальноприйнятих підходів до аналізу системних журналів та
потокових даних, що масово генеруються ІТ-інфраструктурою компанії, та
виявленню аномалій. Важливість виявлення аномалії продиктована
зростаючими витратами у випадку простою системи через події, які могли
б бути передбачені на основі записів журналу з попереджувальними
даними. Системи виявлення аномалій побудовані за допомогою
стандартного процесу збору даних, аналізу, вилучення інформації та
виявлення відхилень. Виявлення аномальної поведінки системи відіграє
важливу роль у масштабних системах управління інцидентами. Своєчасне
виявлення дозволяє ІТ-адміністраторам швидко виявити проблеми та
негайно їх вирішити. Такий підхід значно скорочує час простою системи.
Більшість ІТ-систем генерують журнали з детальною інформацією про
операції. Тому журнали стають ідеальним джерелом даних рішень
виявлення аномалії. Обсяг журналів унеможливлює їх аналіз вручну та
вимагає автоматизованих підходів.Більша частина документа стосується
кроку виявлення аномалії та таких алгоритмів, як регресія, дерево рішень,
SVM, кластеризація, аналіз основних компонентів, видобуток інваріантів та
ієрархічна модель тимчасової пам'яті. Алгоритми пошуку аномалії, що
базуються на моделях, та ієрархічні алгоритми тимчасової пам'яті
використовувались для обробки наборів даних HDFS, BGL та NAB з ~16
млн. повідомленнями журналу та ~365 тис. точками потокових даних. Дані
були вручну позначені мітками, щоб дозволити навчання моделей та
розрахунок точності їх роботи. Відповідно до результатів, системи
контрольованого виявлення аномалій досягають високої точності, але
потребують значних зусиль для тренувань моделей, тоді як алгоритм на
основі HTM моделі показує найвищу точність виявлення при відсутності
тренування.
декількох загальноприйнятих підходів до аналізу системних журналів та
потокових даних, що масово генеруються ІТ-інфраструктурою компанії, та
виявленню аномалій. Важливість виявлення аномалії продиктована
зростаючими витратами у випадку простою системи через події, які могли
б бути передбачені на основі записів журналу з попереджувальними
даними. Системи виявлення аномалій побудовані за допомогою
стандартного процесу збору даних, аналізу, вилучення інформації та
виявлення відхилень. Виявлення аномальної поведінки системи відіграє
важливу роль у масштабних системах управління інцидентами. Своєчасне
виявлення дозволяє ІТ-адміністраторам швидко виявити проблеми та
негайно їх вирішити. Такий підхід значно скорочує час простою системи.
Більшість ІТ-систем генерують журнали з детальною інформацією про
операції. Тому журнали стають ідеальним джерелом даних рішень
виявлення аномалії. Обсяг журналів унеможливлює їх аналіз вручну та
вимагає автоматизованих підходів.Більша частина документа стосується
кроку виявлення аномалії та таких алгоритмів, як регресія, дерево рішень,
SVM, кластеризація, аналіз основних компонентів, видобуток інваріантів та
ієрархічна модель тимчасової пам'яті. Алгоритми пошуку аномалії, що
базуються на моделях, та ієрархічні алгоритми тимчасової пам'яті
використовувались для обробки наборів даних HDFS, BGL та NAB з ~16
млн. повідомленнями журналу та ~365 тис. точками потокових даних. Дані
були вручну позначені мітками, щоб дозволити навчання моделей та
розрахунок точності їх роботи. Відповідно до результатів, системи
контрольованого виявлення аномалій досягають високої точності, але
потребують значних зусиль для тренувань моделей, тоді як алгоритм на
основі HTM моделі показує найвищу точність виявлення при відсутності
тренування.
Тип зібрання :
Publication
Файл(и) :
Вантажиться...
Формат
Adobe PDF
Розмір :
985.82 KB
Контрольна сума:
(MD5):c7f84ab5bad9b9560d9bd8c5be7db8c2
Ця робота розповсюджується на умовах ліцензії Creative Commons CC BY
10.17721/ISTS.2020.1.50-59