Інтелектуальний модуль розпізнавання емоцій за голосом

[APA 7] Іларіонов, О. Є., Астахов, А., Красовська, Г. В., & Доманецька, І. М. (2021). Інтелектуальний модуль розпізнавання емоцій за голосом. Сучасні інформаційні технології, (1 (1)), 46–52. https://doi.org/10.17721/AIT.2021.1.06

[ДСТУ] Інтелектуальний модуль розпізнавання емоцій за голосом / О. Є. Іларіонов та ін. Сучасні інформаційні технології. 2021. № 1 (1). С. 46—52. DOI: 10.17721/AIT.2021.1.06 (дата звернення: 25.07.2026).

Для людей мовлення є основним способом комунікації, причому люди з мовлення можуть отримувати не тільки семантичну, а й емоційну інформацію. Розпізнавання емоцій за голосом є актуальним для таких галузей, як надання психологічної допомоги, розробка систем безпеки, виявлення брехні, аналіз зв’язків з клієнтами, розробка відеоігор. Оскільки розпізнавання емоцій людиною є суб’єктивним, а отже неточним, та потребує багато часу, існує необхідність у створенні програмного забезпечення, яке могло б вирішити цю задачу. В статті було розглянуто стан проблеми розпізнавання емоцій людини за голосом. Проаналізовано сучасні публікації, використані в них підходи, а саме моделі емоцій, набори даних, методи вилучення ознак, класифікатори. Визначено, що існуючі розробки мають середню точність близько 0,75. Проаналізовано загальну структуру системи розпізнавання емоцій людини за голосом, спроектовано та розроблено відповідний інтелектуальний модуль. За допомогою уніфікованої мови моделювання UML (від англ. “Unified Modeling Language”) створено діаграму компонентів та діаграму класів. В якості наборів даних обрано датасети RAVDESS і TESS для урізноманітнення навчальної вибірки. Використано дискретну модель емоцій (радість, смуток, гнів, відраза, страх, здивування, спокій, нейтральна емоція), метод MFCC (мел-частотні кепстральні коефіцієнти від англ. “Mel Frequency Cepstral Coefficients”) для вилучення ознак, згорткову нейронну мережу для класифікації. Нейронна мережа розроблена з використанням бібліотек для машинного навчання TensorFlow і Keras. Побудовано спектрограму та графіки аудіосигналу, а також графіки точності та похибки розпізнавання. За результатами програмної реалізації інтелектуального модуля розпізнавання емоцій за голосом збільшено точність валідації до 0,8.

Ключові слова :

розпізнавання емоцій за голосом нейронні мережі глибинне навчання згорткові нейронні мережі. recognition of emotions by voice neural networks deep learning convolutional neural networks

Галузі знань та спеціальності :

12 Інформаційні технології

Галузі науки і техніки (FOS) :

Комп'ютерні та інформаційні науки

Файл(и) :

Завантажити

Формат :

Adobe PDF

Розмір :

1.67 MB

Контрольна сума :

(MD5):e98de98d5a2646f8d9dc153b7509fb33

Якщо не вказано інше, ця робота розповсюджується на умовах ліцензії Creative Commons Attribution-NoDerivatives 4.0 International