Параметри
Mоделі та методи локалізації сцен зображень об’єктів критичної інфраструктури на основі композитних нейронних мереж
Тип публікації :
Дисертація
Дата випуску :
1 квітня 2025 р.
Автор(и) :
Пушкаренко Юрій Валерійович
Науковий(і) керівник(и)/редактор(и) :
Мова основного тексту :
Ukrainian
eKNUTSHIR URL :
Цитування :
Пушкаренко Ю. В. Mоделі та методи локалізації сцен зображень об’єктів критичної інфраструктури на основі композитних нейронних мереж : дис. … доктора філософії : 121 Інженерія програмного забезпечення / Пушкаренко Юрій Валерійович ; наук. кер. В. А. Заславський. Київ, 2025. 146 с.
Метою роботи є розробка та впровадження методів та моделей локалізації сцен зображень дистанційного зондування на основі композитних нейронних мереж, здатної ефективно вирішувати проблеми точного виявлення сцен об’єктів та їх пошкоджень. Пропоновані моделі та методи спрямовані на подолання існуючих обмежень традиційних нейронних мереж у завданнях аналізу зображень великої роздільної здатності, де необхідно обробляти різні об’єкти на різних масштабах і з високою точністю. Головна увага приділяється задачам, які виникають під час аналізу складних сцен дистанційного зондування, де велика кількість об’єктів і змінювані умови зображення роблять традиційні методи малоефективними.
Наукова новизна. Наукова новизна роботи полягає у впровадженні нової моделі та методів композитної нейронної мережі які продовжують ідею принципу різнотипності в системах прийняття рішень з високою надійністю, яка поєднує в собі кращі властивості згорткових нейронних мереж (CNN) та трансформерів, зокрема архітектури Swin (shifted window transformer). Це дозволяє мережі одночасно забезпечувати детальну обробку дрібних ознак зображення та захоплювати глобальні контексти сцени, що є важливим для точного виявлення та класифікації об’єктів. У роботі також запропоновано новий підхід до вирішення проблеми обмеженого рецептивного поля, яке характерне для традиційних згорткових мереж. Пропоновані модель і метод впроваджують модуль динамічного масштабування рецептивного поля з увагою (DReAM), що дозволяють моделі адаптивно змінювати свої параметри для ефективної обробки сцен різного розміру та складності. Це забезпечує можливість роботи з великими обсягами даних без втрати якості та точності.
Крім того, у роботі вперше застосовано механізм уваги для оптимізації процесу локалізації пошкоджень на зображеннях. Механізм уваги дозволяє мережі фокусуватися на найбільш значущих ділянках зображення, ігноруючи менш важливі або шумові області, що значно підвищує точність виявлення пошкоджень та інших важливих деталей. Цей підхід є інноваційним для задач локалізації сцен та відкриває нові можливості для аналізу даних дистанційного зондування в реальних умовах.
Проблематика. Однією з ключових проблем, які вирішуються у цій роботі, є обмежений розмір рецептивного поля у традиційних згорткових нейронних мережах, що суттєво впливає на здатність захоплювати важливі контексти великих сцен. У згорткових мережах рецептивне поле збільшується поступово з глибиною мережі, проте це зростання є недостатнім для обробки великих зображень, де необхідно одночасно враховувати як дрібні деталі, так і глобальні взаємозв'язки між об'єктами. Наприклад, при аналізі зображень дистанційного зондування з різними об’єктами інфраструктури, мережа повинна мати змогу захоплювати взаємодії між об'єктами, що знаходяться на великій відстані один від одного, а також детально опрацьовувати локальні пошкодження, що може бути неефективно при використанні традиційних методів.
Крім того, у задачах локалізації сцен часто виникає проблема обробки об'єктів, що мають різні масштаби та форми, що значно ускладнює завдання класифікації та виявлення. Для вирішення цих проблем необхідно впровадження методів, які можуть адаптивно змінювати своє рецептивне поле для роботи з різними масштабами та забезпечувати високу точність обробки даних.
Запропоноване вирішення. Для вирішення цих проблем у роботі запропоновано нову архітектуру композитної нейронної мережі, що поєднує CNN та трансформери, зокрема Swin-трансформери, з використанням динамічного масштабування рецептивного поля з увагою (DReAM). Цей метод дозволяє значно розширити або зменшити рецептивне поле мережі, що забезпечує можливість одночасної обробки як локальних, так і глобальних ознак зображення. Завдяки цьому модель може ефективно розпізнавати об'єкти різних масштабів і забезпечувати точну локалізацію пошкоджень навіть у складних сценах з великою кількістю об’єктів.
Метод уваги, який інтегровано у модель, забезпечує можливість фокусування на найбільш релевантних ділянках зображення, що дозволяє мережі зменшувати вплив шуму та підвищувати точність класифікації. Мережа автоматично виділяє ті області, які є найбільш значущими для завдання локалізації або виявлення пошкоджень, що значно покращує якість аналізу зображень.
Крім того, у роботі запропоновано метод оптимізації обчислювальних ресурсів, що дозволяє моделі ефективно працювати з великими обсягами даних дистанційного зондування без втрати продуктивності. Запропонована архітектура мережі дозволяє адаптивно змінювати параметри моделі залежно від типу даних та умов, що забезпечує високу гнучкість моделі та можливість її застосування в різних галузях.
Експериментальні результати. Розроблена модель була протестована на великому обсязі даних зображень та показала значні покращення в точності та швидкості обробки порівняно з існуючими методами. Зокрема, модель продемонструвала високу ефективність у завданнях локалізації та класифікації пошкоджень об'єктів інфраструктури, таких як мости, дороги та будівлі. Завдяки використанню метода уваги та модулів DReAM модель досягла високої точності навіть у випадках, коли традиційні підходи виявлялися неефективними через обмежені можливості захоплення глобальних контекстів або дрібних деталей.
Висновки. Запропонована модель локалізації сцен зображень на основі композитних нейронних мереж є ефективним рішенням для задач автоматизації аналізу великих обсягів даних. Вона вирішує проблему обмеженого рецептивного поля у традиційних згорткових мережах за допомогою інтеграції адаптера розміру рецептивного поля в залежності від складності сцени, а також підвищує точність виявлення та класифікації об'єктів за рахунок використання механізму уваги. Це робить модель універсальним інструментом для аналізу даних дистанційного зондування в широкому спектрі завдань, зокрема моніторингу та оцінки стану критичних інфраструктурних об'єктів.
Наукова новизна. Наукова новизна роботи полягає у впровадженні нової моделі та методів композитної нейронної мережі які продовжують ідею принципу різнотипності в системах прийняття рішень з високою надійністю, яка поєднує в собі кращі властивості згорткових нейронних мереж (CNN) та трансформерів, зокрема архітектури Swin (shifted window transformer). Це дозволяє мережі одночасно забезпечувати детальну обробку дрібних ознак зображення та захоплювати глобальні контексти сцени, що є важливим для точного виявлення та класифікації об’єктів. У роботі також запропоновано новий підхід до вирішення проблеми обмеженого рецептивного поля, яке характерне для традиційних згорткових мереж. Пропоновані модель і метод впроваджують модуль динамічного масштабування рецептивного поля з увагою (DReAM), що дозволяють моделі адаптивно змінювати свої параметри для ефективної обробки сцен різного розміру та складності. Це забезпечує можливість роботи з великими обсягами даних без втрати якості та точності.
Крім того, у роботі вперше застосовано механізм уваги для оптимізації процесу локалізації пошкоджень на зображеннях. Механізм уваги дозволяє мережі фокусуватися на найбільш значущих ділянках зображення, ігноруючи менш важливі або шумові області, що значно підвищує точність виявлення пошкоджень та інших важливих деталей. Цей підхід є інноваційним для задач локалізації сцен та відкриває нові можливості для аналізу даних дистанційного зондування в реальних умовах.
Проблематика. Однією з ключових проблем, які вирішуються у цій роботі, є обмежений розмір рецептивного поля у традиційних згорткових нейронних мережах, що суттєво впливає на здатність захоплювати важливі контексти великих сцен. У згорткових мережах рецептивне поле збільшується поступово з глибиною мережі, проте це зростання є недостатнім для обробки великих зображень, де необхідно одночасно враховувати як дрібні деталі, так і глобальні взаємозв'язки між об'єктами. Наприклад, при аналізі зображень дистанційного зондування з різними об’єктами інфраструктури, мережа повинна мати змогу захоплювати взаємодії між об'єктами, що знаходяться на великій відстані один від одного, а також детально опрацьовувати локальні пошкодження, що може бути неефективно при використанні традиційних методів.
Крім того, у задачах локалізації сцен часто виникає проблема обробки об'єктів, що мають різні масштаби та форми, що значно ускладнює завдання класифікації та виявлення. Для вирішення цих проблем необхідно впровадження методів, які можуть адаптивно змінювати своє рецептивне поле для роботи з різними масштабами та забезпечувати високу точність обробки даних.
Запропоноване вирішення. Для вирішення цих проблем у роботі запропоновано нову архітектуру композитної нейронної мережі, що поєднує CNN та трансформери, зокрема Swin-трансформери, з використанням динамічного масштабування рецептивного поля з увагою (DReAM). Цей метод дозволяє значно розширити або зменшити рецептивне поле мережі, що забезпечує можливість одночасної обробки як локальних, так і глобальних ознак зображення. Завдяки цьому модель може ефективно розпізнавати об'єкти різних масштабів і забезпечувати точну локалізацію пошкоджень навіть у складних сценах з великою кількістю об’єктів.
Метод уваги, який інтегровано у модель, забезпечує можливість фокусування на найбільш релевантних ділянках зображення, що дозволяє мережі зменшувати вплив шуму та підвищувати точність класифікації. Мережа автоматично виділяє ті області, які є найбільш значущими для завдання локалізації або виявлення пошкоджень, що значно покращує якість аналізу зображень.
Крім того, у роботі запропоновано метод оптимізації обчислювальних ресурсів, що дозволяє моделі ефективно працювати з великими обсягами даних дистанційного зондування без втрати продуктивності. Запропонована архітектура мережі дозволяє адаптивно змінювати параметри моделі залежно від типу даних та умов, що забезпечує високу гнучкість моделі та можливість її застосування в різних галузях.
Експериментальні результати. Розроблена модель була протестована на великому обсязі даних зображень та показала значні покращення в точності та швидкості обробки порівняно з існуючими методами. Зокрема, модель продемонструвала високу ефективність у завданнях локалізації та класифікації пошкоджень об'єктів інфраструктури, таких як мости, дороги та будівлі. Завдяки використанню метода уваги та модулів DReAM модель досягла високої точності навіть у випадках, коли традиційні підходи виявлялися неефективними через обмежені можливості захоплення глобальних контекстів або дрібних деталей.
Висновки. Запропонована модель локалізації сцен зображень на основі композитних нейронних мереж є ефективним рішенням для задач автоматизації аналізу великих обсягів даних. Вона вирішує проблему обмеженого рецептивного поля у традиційних згорткових мережах за допомогою інтеграції адаптера розміру рецептивного поля в залежності від складності сцени, а також підвищує точність виявлення та класифікації об'єктів за рахунок використання механізму уваги. Це робить модель універсальним інструментом для аналізу даних дистанційного зондування в широкому спектрі завдань, зокрема моніторингу та оцінки стану критичних інфраструктурних об'єктів.
Ключові слова :
Галузі знань та спеціальності :
121 Інженерія програмного забезпечення
Галузі науки і техніки (FOS) :
Інженерія та технології
Тип зібрання :
Publication
Файл(и) :
Вантажиться...
Формат
Adobe PDF
Розмір :
42.87 MB
Контрольна сума:
(MD5):4802247f633b6f5ee95045996944299b
Ця робота розповсюджується на умовах ліцензії Creative Commons CC BY-NC-ND