A method for determining formant frequencies using spectral decomposition of the speech signal

Зибін, С.С.ЗибінБєлозьорова, Я.Я.БєлозьороваA method for determining formant frequencies using spectral decomposition of the speech signalМетод визначення формантних частот із використанням спектрального розкладання мовного сигналуКиївський національний університет імені Тараса Шевченка2023speech signalformant frequenciesspectral decompositioncomputational algorithmwavelet analysisмовний сигнал (МС)формантні частотиспектральна декомпозиціяобчислювальний алгоритмвейвлет-аналізMy UniversityMy University2026-03-172026-03-172023-03-29ukСтаття[APA 7] Зибін, С., & Бєлозьорова, Я. (2023). Метод визначення формантних частот із використанням спектрального розкладання мовного сигналу. Безпека інформаційних систем і технологій, (1(6)), 51–60. https://doi.org/10.17721/ISTS.2023.1.51-60[ДСТУ] Зибін С., Бєлозьорова Я. Метод визначення формантних частот із використанням спектрального розкладання мовного сигналу. Безпека інформаційних систем і технологій. 2023. № 1(6). С. 51—60. DOI: 10.17721/ISTS.2023.1.51-60 (дата звернення: 25.07.2026).УДК 004-2610.17721/ISTS.2023.1.51-60https://ir.library.knu.ua/handle/15071834/12603Creative Commons Attribution 4.0 Internationalhttps://creativecommons.org/licenses/by/4.0/Formants are one of the main components of speaker identification systems and the accuracy of formant determination is the basis for the efficiency of speaker identification systems. Improving existing speech recognition systems will significantly simplify human-computer interaction when the use of classic interfaces is not possible, as well as make such work more comfortable and efficient. The necessity for research on this topic is due to unsatisfactory results of existing systems with low signal-to-noise ratio, the dependence of the result on humans, as well as low speed of such systems. The following four main formant trackers were used for comparison with the proposed method: PRAAT, SNACK, ASSP and DEEP. There are a number of studies concerning the comparison of formant trackers, but among them it is impossible to single out the one that has the best efficiency. The selection of formants is accompanied by a number of problems associated with their dynamic change in the language process. The complexity is also caused by a number of problems related to the close location of the peaks in the analysis of spectrograms and the problems of correctly determining the peaks of the formant maxima on the spectrogram. Determining the location of the formant on the spectrograms of the vocal signal is quite easy to perform by man, but the automation of this process causes some difficulties. The selection of frequency formants was proposed to be performed in several stages. The result of the review of approaches to the determination of formant frequencies has been the algorithm consisting of the following nine stages. The segmentation of vocal signal into vocalized fragments and pauses is performed by estimating changes in fractal dimension. Obtaining the spectrum of the vocal signal has been performed using a complex Morlet wavelet based on the Gaussian window function. PRAAT, SNACK, ASSP and DEEP formant trackers have been considered for the study. Each of them has been configured on the basis of a set of default parameters set by the developers of these trackers. A set of settings for each of the trackers has been used for comparison. In the study, trackers independently have been performed segmentation into vocalized fragments and pauses using the VTR-TIMIT dataset. The comparative analysis has been showed a fairly high accuracy in determining the formant frequencies in comparison with existing formant trackers.Форманти є одним з основних компонентів систем ідентифікації мовця, а точність визначення формант – це основа ефективності систем ідентифікації мовця. Поліпшення існуючих систем розпізнавання мови дозволить істотно спростити взаємодію людини з комп'ютером у тому випадку, коли використання класичних інтерфейсів неможливо, а також зробити подібну роботу комфортнішою та ефективною. Необхідність досліджень із цієї тематики пояснюється незадовільними результатами наявних систем при низькому співвідношенні сигнал/шум, залежністю результату від людини, а також невисокою швидкістю роботи подібного виду систем. Для порівняння із запропонованим методом використовували такі чотири основні формант-трекери: PRAAT, SNACK, ASSP та DEEP. Існує багато досліджень, що стосуються порівняння формант-трекерів, однак серед них не можна виокремити такий, що має найкращу ефективність. Виокремлення формант супроводжує цілий ряд проблем, пов'язаних з їхньою динамічної зміною у процесі мовлення. Складність також викликають проблеми, пов'язані з близьким розташуванням піків під час аналізу спектрограм і проблеми правильного визначення піків максимумів формант на спектрограмі. Розташування формант на спектрограмах мовного сигналу достатньо легко визначає людина, але автоматизація цього процесу викликає деякі труднощі. Виокремлення формантних частот запропоновано виконувати у декілька етапів. Результатом проведеного огляду підходів до визначення формантних частот став алгоритм, що складається з дев'ятьох таких етапів. Сегментація мовного сигналу на вокалізовані фрагменти та паузи виконується методом оцінювання змін фрактальної розмірності. Отримання спектра мовного сигналу виконувалось із використанням комплексного вейвлету Морле на основі віконної функції Гаусса. Для дослідження розглядалися формант-трекери PRAAT, SNACK, ASSP і DEEP. Налаштування кожного з них здійснювали на основі набору параметрів за замовчуванням, що закладено розробниками цих трекерів. Набір налаштувань для кожного з трекерів використовували для порівняння. У дослідженні трекери самостійно виконували сегментацію на вокалізовані фрагменти і паузи, застосовуючи датасет VTR-TIMIT. Проведений порівняльний аналіз показав достатньо високу точність визначення формантних частот порівняно з існуючими формант-трекерами.