Параметри
Інтелектуальний модуль розпізнавання емоцій за голосом
Тип публікації :
Стаття
Дата випуску :
4 листопада 2021 р.
Автор(и) :
Мова основного тексту :
Ukrainian
eKNUTSHIR URL :
Журнал :
Випуск :
1 (1)
ISSN :
2788-6603
Початкова сторінка :
46
Кінцева сторінка :
52
Цитування :
О. Іларіонов, А. Астахов , Г. Красовська, І. Доманецька “Інтелектуальний модуль розпізнавання емоцій за голосом”, Сучасні інформаційні технології, vol.1, p. 46–52, 2021.
Для людей мовлення є основним способом комунікації, причому люди з мовлення можуть отримувати не тільки семантичну, а й емоційну інформацію. Розпізнавання емоцій за голосом є актуальним для таких галузей, як надання психологічної допомоги, розробка систем безпеки, виявлення брехні, аналіз зв’язків з клієнтами, розробка відеоігор. Оскільки розпізнавання емоцій людиною є суб’єктивним, а отже неточним, та потребує багато часу, існує необхідність у створенні програмного забезпечення, яке могло б вирішити цю задачу. В статті було розглянуто стан проблеми розпізнавання емоцій людини за голосом. Проаналізовано сучасні публікації, використані в них підходи, а саме моделі емоцій, набори даних, методи вилучення ознак, класифікатори. Визначено, що існуючі розробки мають середню точність близько 0,75. Проаналізовано загальну структуру системи розпізнавання емоцій людини за голосом, спроектовано та розроблено відповідний інтелектуальний модуль. За допомогою уніфікованої мови моделювання UML (від англ. “Unified Modeling Language”) створено діаграму компонентів та діаграму класів. В якості наборів даних обрано датасети RAVDESS і TESS для урізноманітнення навчальної вибірки. Використано дискретну модель емоцій (радість, смуток, гнів, відраза, страх, здивування, спокій, нейтральна емоція), метод MFCC (мел-частотні кепстральні коефіцієнти від англ. “Mel Frequency Cepstral Coefficients”) для вилучення ознак, згорткову нейронну мережу для класифікації. Нейронна мережа розроблена з використанням бібліотек для машинного навчання TensorFlow і Keras. Побудовано спектрограму та графіки аудіосигналу, а також графіки точності та похибки розпізнавання. За результатами програмної реалізації інтелектуального модуля розпізнавання емоцій за голосом збільшено точність валідації до 0,8.
Галузі знань та спеціальності :
12 Інформаційні технології
Галузі науки і техніки (FOS) :
Комп'ютерні та інформаційні науки
Тип зібрання :
Publication
Файл(и) :
Вантажиться...
Формат
Adobe PDF
Розмір :
1.67 MB
Контрольна сума:
(MD5):e98de98d5a2646f8d9dc153b7509fb33
Ця робота розповсюджується на умовах ліцензії Creative Commons CC BY-ND
10.17721/AIT.2021.1.06