Зелінський, Сергій ВячеславовичСергій ВячеславовичЗелінськийБойко, Юрій Володимирович2025-09-192025-09-192025-07-16Зелінський С. В. Мультимодальна взаємодія та аналіз поведінки користувачів з використанням відстеження погляду, жестів та виразів обличчя : дис. ... доктора філософії : 123 Комп’ютерна інженерія. Київ, 2025. 139 с.УДК 004.5https://ir.library.knu.ua/handle/15071834/7759Зелінський С.В. Мультимодальна взаємодія та аналіз поведінки користувачів з використанням відстеження погляду, жестів та виразів обличчя. — Кваліфікаційна наукова праця на правах рукопису. Дисертація на здобуття наукового ступеня доктора філософії за спеціальністю 123 «Комп’ютерна інженерія». — Київський національний університет імені Тараса Шевченка, Київ, 2025. Робота присвячена дослідженню та розробці нових підходів до мультимодальної безконтактної взаємодії людини з комп’ютером у цифровому середовищі з використанням відстеження погляду, розпізнавання жестів рук та виразів обличчя. Окрему увагу приділено удосконаленню підходів до аналізу поведінки користувачів у веб-середовищі, зокрема дослідженню візуальної уваги, яка традиційно залишається поза межами типових аналітичних інструментів, що ґрунтуються на кліках, журналах подій та записах сесій. У роботі обґрунтовано потребу у створенні доступних засобів як для аналізу поведінки користувачів у веб-середовищі з урахуванням зорової уваги, так і для реалізації безконтактної взаємодії з цифровими об’єктами на основі погляду, жестів і виразів обличчя без використання спеціалізованого обладнання. На основі аналізу наукових джерел сформульовано дослідницькі прогалини, які охоплюють відсутність доступних інструментів для аналізу поведінки користувачів у веб-середовищі із врахуванням зорової уваги, обмежене використання поєднання погляду та жестів у браузерній взаємодії, а також нерозкритий потенціал виразів обличчя як засобу управління. У дисертації реалізовано три взаємопов’язані напрями дослідження: 1. Інтеграція відстеження погляду із записом веб-сесій — реалізовано кросплатформне розширення для веб-браузера, що забезпечує запис змін інтерфейсу та дій користувача із синхронізованим відображенням зорової уваги, без потреби у попередній зміні коду веб-сторінок. 2. Безконтактна взаємодія на основі поєднання погляду та жестів рук —реалізовано систему для маніпулювання об’єктами (перетягування, масштабування, обертання), яка поєднує вибір об’єкта за допомогою погляду та трансформацію за допомогою жестів, що імітують природні дії користувача. 3. Використання виразів обличчя для безконтактної взаємодії — запропоновано та реалізовано підхід, у якому дії задаються через налаштовувані комбінації мімічних форм змішування. Це дозволяє створювати гнучкий інтерфейс для взаємодії без потреби у фізичних пристроях введення. Ефективність запропонованих рішень оцінено експериментально із залученням користувачів, які виконували типові завдання в цифровому середовищі. Результати дослідження засвідчили позитивну динаміку навчання, високу зацікавленість у використанні безконтактної взаємодії та практичну придатність запропонованих методів у реальних умовах. Наукова новизна дисертаційної роботи полягає у комплексному підході до розробки мультимодальних засобів безконтактної взаємодії з цифровими інтерфейсами та аналізу поведінки користувачів на основі використання погляду, жестів і виразів обличчя із застосуванням стандартного обладнання. Вперше реалізовано кросплатформний інструмент аналізу поведінки користувачів у веб-середовищі, який поєднує запис сесій взаємодії з відображенням зорової уваги користувача без необхідності модифікації коду веб-сторінок чи використання спеціалізованого обладнання. Вперше запропоновано та реалізовано систему безконтактної взаємодії у веб-браузері, яка поєднує вибір об’єктів за допомогою погляду та їх трансформацію за допомогою жестів рук, що імітують природні дії користувача. Крім того, вперше у веб-середовищі реалізовано підхід до безконтактної взаємодії на основі виразів обличчя, де дії задаються шляхом налаштовуваних комбінацій мімічних форм змішування. Усі запропоновані рішення функціонують у веб-браузері із використанням лише стандартного обладнання та орієнтовані на широке практичне використання без потреби у спеціалізованому програмному чи апаратному забезпеченні. Практична цінність роботи полягає у розробці доступних і гнучких засобів для безконтактної взаємодії та аналізу поведінки користувачів, які працюють у сучасних веб-браузерах без потреби у спеціалізованому обладнанні. Запропоновані рішення мають потенціал для впровадження у сферах допоміжних технологій, освіти, промисловості, медицини, а також у дослідженнях користувацького досвіду та інших прикладних контекстах. Перспективи подальших досліджень передбачають підвищення точності розпізнавання погляду, жестів і виразів обличчя, адаптацію систем до індивідуальних особливостей користувачів, впровадження методів машинного навчання для автоматичного аналізу поведінки, а також інтеграцію розроблених підходів у практичні середовища, де безконтактна взаємодія є критично важливою.Zelinskyi S.V. Multimodal interaction and user behavior analysis using eye tracking, gestures, and facial expressions. — A qualification scientific work in the form of a manuscript. Dissertation for the degree of Doctor of Philosophy in specialty 123 «Computer Engineering». — Taras Shevchenko National University of Kyiv, Kyiv, 2025. This dissertation focuses on the investigation and development of new approaches to multimodal hands-free human–computer interaction in digital environments, based on eye tracking, hand gesture recognition, and facial expressions. Particular attention is given to improving approaches for analyzing user behavior in web environments, specifically by studying visual attention, which traditionally remains beyond the scope of standard analytical tools based on clicks, event logs, and session recordings. The dissertation substantiates the need for accessible solutions for both the analysis of user behavior in web environments with consideration of visual attention and for hands-free interaction with digital objects based on gaze, gestures, and facial expressions, without the use of specialized hardware. Based on the analysis of scientific sources, key research gaps have been identified, including the lack of accessible tools for user behavior analysis in web environments that account for visual attention, the limited use of gaze–gesture interaction in browser-based systems, and the underexplored potential of facial expressions as a means of control. The dissertation comprises three interrelated research directions: 1. Integration of eye tracking with web session recording — a cross-platform browser extension was developed to record interface changes and user actions with synchronized visualization of gaze data, without requiring modifications to the web page source code. 2. Hands-free interaction using combined gaze and hand gestures — a system was implemented for manipulating objects (dragging, scaling, rotating) by combining gaze-based selection with gesture-based transformation, imitating natural user behavior. 3. Facial expression–based hands-free interaction — a novel approach was proposed and implemented in which actions are triggered through configurable combinations of facial blendshape activations, allowing the construction of flexible interaction interfaces without the need for physical input devices. The effectiveness of the proposed solutions was evaluated experimentally by involving users in typical digital tasks. The results demonstrate a positive learning curve, strong interest in hands-free interaction, and the practical applicability of the developed methods in real-world scenarios. The scientific novelty of this dissertation lies in a comprehensive approach to the development of multimodal hands-free interaction tools for digital interfaces and the analysis of user behavior, based on the use of gaze, hand gestures, and facial expressions with standard consumer-grade hardware. For the first time, a cross-platform user behavior analysis tool has been implemented, combining session recording with synchronized visualization of gaze data in web environments, without requiring modifications to web page code or the use of specialized equipment. Additionally, a browser-based hands-free interaction system has been proposed and implemented, enabling object selection through gaze and manipulation through hand gestures that imitate natural user behavior. Furthermore, for the first time in web environments, a facial expression–based interaction approach has been implemented, in which actions are triggered through configurable combinations of facial blendshape activations. All the proposed solutions operate within web browsers using only standard consumer-grade hardware and are designed for broad practical application without the need for specialized software or hardware. The practical value of the work lies in the development of accessible and flexible tools for hands-free interaction and user behavior analysis that operate in modern web browsers without the need for specialized equipment. The proposed solutions have potential applications in assistive technologies, education, industrial and clinical settings, and user experience research, among other applied contexts. Future research directions include improving the accuracy of gaze, gesture, and facial expression recognition; adapting systems to individual user characteristics; applying machine learning methods for automated behavior analysis; and integrating the proposed approaches into practical environments where hands-free interaction is critically important.ukмультимодальна взаємодіябезконтактна взаємодіявідстеження поглядурозпізнавання жестіввирази обличчязапис веб-сесійлюдино-комп’ютерна взаємодіяаналіз поведінки користувачівкомп’ютерний зірмашинне навчанняінтерфейси користувачадопоміжні технологіївеб-застосунки.multimodal interactionhands-free interactioneye trackinggesture recognitionfacial expressionsweb session recordinghuman–computer interactionuser behavior analysiscomputer visionmachine learninguser interfacesassistive technologiesweb applications.Мультимодальна взаємодія та аналіз поведінки користувачів з використанням відстеження погляду, жестів та виразів обличчяMultimodal interaction and user behavior analysis using eye tracking, gestures, and facial expressionsДисертація