Development of a Scene Localization System in Remote Sensing Imagery using Composite Neural Networks

Пушкаренко Юрій ВалерійовичDevelopment of a Scene Localization System in Remote Sensing Imagery using Composite Neural NetworksMоделі та методи локалізації сцен зображень об’єктів критичної інфраструктури на основі композитних нейронних мережMy University2025рецептивне поледистанційне зондуваннянейронні мережіархітектура трансформерлокалізація сценкомпʼютерний зіркритичні інфраструктурипірамідальні мережідифузійні моделіалгоритми просторового пошукуобробка зображеньгеопросторовий аналізвиокремлення геометрії об’єктівсемантична сегментаціяоцінка інфраструктурних пошкоджень.receptive fieldremote sensingconvolutional neural networkstransformer architecturescene localizationcomputer visioncritical infrastructurepyramid networksspatial search algorithmsimage processinggeospatial analysissemantic segmentationinfrastructure damage assessment.My UniversityMy UniversityЗаславський, Володимир Анатолійович2025-04-152025-04-152025-04-01ukДисертація[APA 7] Пушкаренко, Ю. В. (2025). Mоделі та методи локалізації сцен зображень об’єктів критичної інфраструктури на основі композитних нейронних мереж [Дис. доктора філософії, Київський національний університет імені Тараса Шевченка]. eKNUTSHIR. https://ir.library.knu.ua/handle/15071834/6227[ДСТУ] Пушкаренко Ю. В. Mоделі та методи локалізації сцен зображень об’єктів критичної інфраструктури на основі композитних нейронних мереж : дис. … доктора філософії : 121 Інженерія програмного забезпечення. Київ, 2025. 146 с. URL: https://ir.library.knu.ua/handle/15071834/6227 (дата звернення: 25.07.2026).УДК 004.8, 004.93, 004.421https://ir.library.knu.ua/handle/15071834/6227Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 Internationalhttps://creativecommons.org/licenses/by-nc-nd/4.0/The objective of this research is to develop and implement an advanced scene localization model for remote sensing imagery based on composite neural networks capable of effectively solving precise object detection and damage assessment challenges. The proposed model addresses the limitations of traditional neural networks in processing high- resolution images, where diverse objects appear at multiple scales and with high precision requirements. The focus is placed on challenges that arise in analyzing complex scenes within remote sensing, where a high object count and variable image conditions render conventional methods less effective. Scientific Novelty. The scientific novelty of this work lies in the introduction of a new composite neural network model that integrates the best attributes of Convolutional Neural Networks (CNNs) and Transformers, specifically the SWIN (Shifted Window Transformer) architecture. This integration allows the network to process fine-grained image details while capturing the global scene context, which is critical for accurate object detection and classification. Additionally, a new approach is introduced to overcome the limited receptive field characteristic of traditional convolutional networks. The proposed system incorporates a dynamic receptive field attention module (DReAM), enabling adaptive parameter adjustment to process scenes of varying sizes and complexity. This feature allows the system to handle large data volumes without compromising quality and accuracy. Moreover, the study pioneers the use of an attention mechanism to optimize damage localization in remote sensing images. The attention mechanism enhances the model’s focus on critical areas, reducing noise influence and improving accuracy in damage and essential detail detection. This approach is innovative for scene localization tasks and opens new opportunities for analyzing remote sensing data in real-world conditions. Problem Statement. A key problem addressed in this work is the limited receptive field of traditional CNNs, which significantly impacts the ability to capture essential contexts within large scenes. In CNNs, the receptive field expands progressively with network depth, yet this increase is often insufficient for processing large images that require simultaneous attention to both fine details and global object relationships. For instance, in remote sensing imagery with various infrastructure objects, the network must capture interactions among distant objects and accurately process local damages, which can be inefficient with traditional methods. Scene localization tasks also encounter challenges with objects of different scales and shapes, complicating classification and detection tasks. Addressing these issues necessitates methods that can dynamically adjust their receptive field to handle varying scales and provide high data processing precision. Proposed Solution. To tackle these issues, the research proposes a new composite neural network architecture that combines CNNs and Transformers, particularly SWIN Transformers, with dynamic receptive field attention module (DReAM). This module significantly broadens the network’s receptive field, allowing for the concurrent processing of both local and global image features. Consequently, the system can effectively identify objects across different scales and accurately localize damages, even in complex scenes with numerous objects. The integrated attention mechanism enhances focus on the most relevant image areas, enabling the network to mitigate noise effects and improve classification accuracy. The network autonomously identifies areas crucial for localization or damage detection tasks, enhancing image analysis quality. Additionally, the research introduces computational resource optimization, enabling efficient processing of large remote sensing data volumes without compromising 6 performance. The proposed network architecture adaptively adjusts model parameters based on data type and conditions, ensuring system flexibility and applicability across various fields. Experimental Results. The developed system was tested on a large volume of remote sensing imagery data, showing significant improvements in processing accuracy and speed compared to existing methods. The system demonstrated high effectiveness in infrastructure damage localization and classification tasks, such as for bridges, roads, and buildings. Leveraging the attention mechanism and DReAM modules, the system achieved high accuracy even where traditional approaches fell short due to limitations in capturing global contexts or fine details. Conclusions. The proposed scene localization system for remote sensing imagery, based on composite neural networks, provides an effective solution for automating the analysis of large data volumes. It addresses the limited receptive field issue in traditional convolutional networks by integrating a dynamic receptive field adapter relative to scene complexity and enhances object detection and classification accuracy through attention mechanisms. This makes the system a versatile tool for remote sensing data analysis in a broad range of applications, including critical infrastructure monitoring and assessment.Метою роботи є розробка та впровадження методів та моделей локалізації сцен зображень дистанційного зондування на основі композитних нейронних мереж, здатної ефективно вирішувати проблеми точного виявлення сцен об’єктів та їх пошкоджень. Пропоновані моделі та методи спрямовані на подолання існуючих обмежень традиційних нейронних мереж у завданнях аналізу зображень великої роздільної здатності, де необхідно обробляти різні об’єкти на різних масштабах і з високою точністю. Головна увага приділяється задачам, які виникають під час аналізу складних сцен дистанційного зондування, де велика кількість об’єктів і змінювані умови зображення роблять традиційні методи малоефективними. Наукова новизна. Наукова новизна роботи полягає у впровадженні нової моделі та методів композитної нейронної мережі які продовжують ідею принципу різнотипності в системах прийняття рішень з високою надійністю, яка поєднує в собі кращі властивості згорткових нейронних мереж (CNN) та трансформерів, зокрема архітектури Swin (shifted window transformer). Це дозволяє мережі одночасно забезпечувати детальну обробку дрібних ознак зображення та захоплювати глобальні контексти сцени, що є важливим для точного виявлення та класифікації об’єктів. У роботі також запропоновано новий підхід до вирішення проблеми обмеженого рецептивного поля, яке характерне для традиційних згорткових мереж. Пропоновані модель і метод впроваджують модуль динамічного масштабування рецептивного поля з увагою (DReAM), що дозволяють моделі адаптивно змінювати свої параметри для ефективної обробки сцен різного розміру та складності. Це забезпечує можливість роботи з великими обсягами даних без втрати якості та точності. Крім того, у роботі вперше застосовано механізм уваги для оптимізації процесу локалізації пошкоджень на зображеннях. Механізм уваги дозволяє мережі фокусуватися на найбільш значущих ділянках зображення, ігноруючи менш важливі або шумові області, що значно підвищує точність виявлення пошкоджень та інших важливих деталей. Цей підхід є інноваційним для задач локалізації сцен та відкриває нові можливості для аналізу даних дистанційного зондування в реальних умовах. Проблематика. Однією з ключових проблем, які вирішуються у цій роботі, є обмежений розмір рецептивного поля у традиційних згорткових нейронних мережах, що суттєво впливає на здатність захоплювати важливі контексти великих сцен. У згорткових мережах рецептивне поле збільшується поступово з глибиною мережі, проте це зростання є недостатнім для обробки великих зображень, де необхідно одночасно враховувати як дрібні деталі, так і глобальні взаємозв'язки між об'єктами. Наприклад, при аналізі зображень дистанційного зондування з різними об’єктами інфраструктури, мережа повинна мати змогу захоплювати взаємодії між об'єктами, що знаходяться на великій відстані один від одного, а також детально опрацьовувати локальні пошкодження, що може бути неефективно при використанні традиційних методів. Крім того, у задачах локалізації сцен часто виникає проблема обробки об'єктів, що мають різні масштаби та форми, що значно ускладнює завдання класифікації та виявлення. Для вирішення цих проблем необхідно впровадження методів, які можуть адаптивно змінювати своє рецептивне поле для роботи з різними масштабами та забезпечувати високу точність обробки даних. Запропоноване вирішення. Для вирішення цих проблем у роботі запропоновано нову архітектуру композитної нейронної мережі, що поєднує CNN та трансформери, зокрема Swin-трансформери, з використанням динамічного масштабування рецептивного поля з увагою (DReAM). Цей метод дозволяє значно розширити або зменшити рецептивне поле мережі, що забезпечує можливість одночасної обробки як локальних, так і глобальних ознак зображення. Завдяки цьому модель може ефективно розпізнавати об'єкти різних масштабів і забезпечувати точну локалізацію пошкоджень навіть у складних сценах з великою кількістю об’єктів. Метод уваги, який інтегровано у модель, забезпечує можливість фокусування на найбільш релевантних ділянках зображення, що дозволяє мережі зменшувати вплив шуму та підвищувати точність класифікації. Мережа автоматично виділяє ті області, які є найбільш значущими для завдання локалізації або виявлення пошкоджень, що значно покращує якість аналізу зображень. Крім того, у роботі запропоновано метод оптимізації обчислювальних ресурсів, що дозволяє моделі ефективно працювати з великими обсягами даних дистанційного зондування без втрати продуктивності. Запропонована архітектура мережі дозволяє адаптивно змінювати параметри моделі залежно від типу даних та умов, що забезпечує високу гнучкість моделі та можливість її застосування в різних галузях. Експериментальні результати. Розроблена модель була протестована на великому обсязі даних зображень та показала значні покращення в точності та швидкості обробки порівняно з існуючими методами. Зокрема, модель продемонструвала високу ефективність у завданнях локалізації та класифікації пошкоджень об'єктів інфраструктури, таких як мости, дороги та будівлі. Завдяки використанню метода уваги та модулів DReAM модель досягла високої точності навіть у випадках, коли традиційні підходи виявлялися неефективними через обмежені можливості захоплення глобальних контекстів або дрібних деталей. Висновки. Запропонована модель локалізації сцен зображень на основі композитних нейронних мереж є ефективним рішенням для задач автоматизації аналізу великих обсягів даних. Вона вирішує проблему обмеженого рецептивного поля у традиційних згорткових мережах за допомогою інтеграції адаптера розміру рецептивного поля в залежності від складності сцени, а також підвищує точність виявлення та класифікації об'єктів за рахунок використання механізму уваги. Це робить модель універсальним інструментом для аналізу даних дистанційного зондування в широкому спектрі завдань, зокрема моніторингу та оцінки стану критичних інфраструктурних об'єктів.