Параметри
Інтелектуальна система обробки звуку на основі машинного навчання для радіотехнічних пристроїв
Дата випуску :
2024
Автор(и) :
Мартинюк Стефан Володимирович
Науковий(і) керівник(и)/редактор(и) :
Анотація :
Об’єкт розроблення – система стиснення аудіосигналів з використанням нейронних мереж.
Мета роботи – розробка модифікованих методів машинного навчання для стиснення аудіосигналів з високою точністю та нижчою вимогливістю до обчислювальних ресурсів.
У роботі розглянуто сучасні підходи до стиснення аудіосигналів за допомогою глибоких нейронних мереж. Зокрема, представлено аналіз проблем, з якими зустрічаються існуючі методи, такі як артефакти, що виникають під час синтезу, та велика вимогливість до обчислювальних ресурсів. Розроблені покращення включають використання нової функції активації Snake для кращого узагальнення періодичних сигналів, оптимізацію архітектури дискримінатора для точнішої роботи зі спектрограмами, та вдосконалення методів векторного квантування для зниження ресурсоємності.
Було розроблено модифіковану архітектуру нейронного аудіокодека, яка інтегрує удосконалені методи, та проведено тренування моделі на базі датасетів MUSDB18 та Common Voice.
Результати показали покращення коефіцієнта стиснення та зниження необхідної обчислювальної потужності порівняно з існуючими рішеннями, такими як SoundStream.
Мета роботи – розробка модифікованих методів машинного навчання для стиснення аудіосигналів з високою точністю та нижчою вимогливістю до обчислювальних ресурсів.
У роботі розглянуто сучасні підходи до стиснення аудіосигналів за допомогою глибоких нейронних мереж. Зокрема, представлено аналіз проблем, з якими зустрічаються існуючі методи, такі як артефакти, що виникають під час синтезу, та велика вимогливість до обчислювальних ресурсів. Розроблені покращення включають використання нової функції активації Snake для кращого узагальнення періодичних сигналів, оптимізацію архітектури дискримінатора для точнішої роботи зі спектрограмами, та вдосконалення методів векторного квантування для зниження ресурсоємності.
Було розроблено модифіковану архітектуру нейронного аудіокодека, яка інтегрує удосконалені методи, та проведено тренування моделі на базі датасетів MUSDB18 та Common Voice.
Результати показали покращення коефіцієнта стиснення та зниження необхідної обчислювальної потужності порівняно з існуючими рішеннями, такими як SoundStream.
Бібліографічний опис :
Мартинюк С. В. Інтелектуальна система обробки звуку на основі машинного навчання для радіотехнічних пристроїв : 172 Телекомунікації та радіотехніка / наук. кер. М. В. Кононов. Київ, 2024. 58 с.
Файл(и) :
Вантажиться...
Формат
Adobe PDF
Розмір :
3.02 MB
Контрольна сума:
(MD5):e6e80c05575288da5887bca3fd5401bf
Ця робота розповсюджується на умовах ліцензії Creative Commons CC BY-NC