Автореферат РОЗРОБКА АДАПТИВНИХ МЕТОДІВ КОРЕКЦІЇ МОВНИХ СИГНАЛІВ НА ОСНОВІ АВТОРЕГРЕСИВНОЇ МОДЕЛІ ГОЛОСОВОГО ТРАКТУ

Автореферат - РОЗРОБКА АДАПТИВНИХ МЕТОДІВ КОРЕКЦІЇ МОВНИХ СИГНАЛІВ НА ОСНОВІ АВТОРЕГРЕСИВНОЇ МОДЕЛІ ГОЛОСОВОГО ТРАКТУ

Загрузка...

ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ

НАЦІОНАЛЬНА АКАДЕМІЯ НАУК УКРАЇНИ

ІНСТИТУТ ГІДРОМЕХАНІКИ

Семенов Василь Юрійович

УДК 534.78, 621.391

РОЗРОБКА АДАПТИВНИХ МЕТОДІВ КОРЕКЦІЇ МОВНИХ СИГНАЛІВ

НА ОСНОВІ АВТОРЕГРЕСИВНОЇ МОДЕЛІ ГОЛОСОВОГО ТРАКТУ

01.04.06 – акустика

Автореферат

дисертації на здобуття наукового ступеня

кандидата фізико-математичних наук

Київ – 2004

Дисертацією є рукопис.

Робота виконана в Інституті гідромеханіки НАН України.

Науковий керівник:

доктор фізико-математичних наук

Калюжний Олександр Якович,

державне науково-виробниче підприємство “Дельта”,

заступник директора з наукової роботи.

Офіційні опоненти:

доктор фізико-математичних наук, професор

Вовк Ігор Володимирович,

Інститут гідромеханіки НАН України,

провідний науковий співробітник;

кандидат фізико-математичних наук, старший науковий співробітник

Мельникова Світлана Семенівна,

Інститут кібернетики ім. В.М. Глушкова НАН України,

старший науковий співробітник.

Провідна установа:

Національний технічний університет України

“Київський політехнічний інститут” Міністерства освіти і науки України,

кафедра акустики та акустоелектроніки.

Захист відбудеться “20” травня 2004 р. о 14 годині на засіданні спеціалізованої вченої ради Д26.196.01 в Інституті гідромеханіки НАН України за адресою: 03057, м. Київ, вул. Желябова, буд. 8/4.

З дисертацією можна ознайомитись у бібліотеці Інституту гідромеханіки НАН України за адресою: 03057, м. Київ, вул. Желябова, буд. 8/4.

Автореферат розісланий 10 квітня 2004 р.

Вчений секретар спеціалізованої вченої ради Д26.196.01

доктор технічних наук, професор С.І. Криль

ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ

Актуальність теми. Останні десятиліття характеризуються стрімким розвитком мовних технологій. Системи розпізнавання мови, кодування мови, верифікації та ідентифікації людини за голосом знаходять усе більше застосування у повсякденному житті.

Успішний розвиток даних технологій став можливим завдяки впровадженню зручної у практичній реалізації авторегресивної (АР) моделі утворення мови, що враховує фізичні механізми генерування мовних сигналів. Однак використання АР моделі наштовхується на певні труднощі при наявності зовнішніх шумів або при спотворенні мовного сигналу внаслідок впливу акустичного середовища та характеристик каналу зв'язку. Ці фактори приводять до погіршення характеристик систем обробки мови, особливо у задачах розпізнавання, кодування, ідентифікації диктора тощо.

Для усунення зазначених спотворень застосовуються системи попередньої корекції, що забезпечують відновлення початкового мовного сигналу. Однак, відомі до теперішнього часу методи корекції мають істотні недоліки. По-перше, традиційні методи оцінювання АР параметрів мови критичні до наявності навіть відносно невеликого рівня фонових шумів. Ця проблема стосується також й існуючих методів ідентифікації і компенсації передаточної функції (ПФ) середовища, у якому генеруються і передаються мовні повідомлення. Іншою істотною проблемою існуючих підходів є складність практичної реалізації. Наприклад, найбільш ефективні в даний час методи калманівської фільтрації не узгоджені з ідеологією побудови сучасних систем цифрової обробки сигналів (ЦОС), у яких використовується блокова організація даних. Така неузгодженість приводить до високих обчислювальних витрат, що змушує використовувати нетотожні модифікації фільтраційних алгоритмів, які мають нижчу якість роботи.

Таким чином, розробка нових, більш ефективних методів відновлення мовного сигналу є актуальним науково-технічним завданням, що має важливе прикладне значення.

Зв'язок роботи з науковими програмами, планами, темами. Робота виконувалася відповідно до наукового плану роботи Інституту гідромеханіки НАН України. Результати дисертації були використані в ДКР “Центавр-Д” (“Розробка низькошвидкісного мовоперетворюючого пристрою”, державний реєстраційний номер 0101U000031, 09.2000-03.2002), що проводилась державним науково-виробничим підприємством “Дельта”. У даній роботі використані наступні розроблені автором методи:

алгоритм оцінювання авторегресивних параметрів мови, стійкий до впливу шумів;

завадостійкий метод обчислення періоду основного тону мовних сигналів;

метод обчислення і кодування лінійних спектральних частот.

Крім того, результати роботи впроваджені в ряді інших науково-дослідних і дослідно-конструкторських робіт, проведених ДНВП “Дельта”.

Мета і задачі дослідження. Метою роботи є розробка нових, більш ефективних методів корекції мовного сигналу, що враховують моделі його генерації і узгоджуються з принципами побудови сучасних систем цифрової обробки мови.

У дисертаційній роботі вирішуються такі основні задачі:

- побудова алгоритму блокової калманівської фільтрації, що реалізує обробку мовного сигналу неперетинними блоками довільної довжини і враховує його фізичні особливості;

- розробка завадостійкого методу оцінювання параметрів АР моделі утворення мови;

- розробка стійкого до впливу шумів методу “сліпого” оцінювання передаточних характеристик акустичного середовища і каналів зв'язку з метою деконволюції мовних сигналів;

- обчислювальна оптимізація запропонованих алгоритмів з метою їх більш ефективної реалізації в системах реального часу.

Об'єктом дослідження є акустичні мовні сигнали.

Предметом дослідження є методи обробки спотворених мовних сигналів засобами сучасної цифрової техніки.

Методи дослідження. Для наукового обґрунтування розроблених у роботі методів корекції мовних сигналів використані положення фізіологічної акустики. При розробці запропонованого в роботі алгоритму блокової калманівської фільтрації застосовані методи теорії оцінювання і теорії випадкових процесів. Для побудови запропонованого методу завадостійкого оцінювання АР параметрів мови використані методи теорій прийняття рішень, випадкових процесів, теорії інформації і кодування (при побудові кодових книг АР параметрів). При побудові методу деконволюції використані деякі положення теорії автоматичного керування. Крім того, на різних етапах роботи застосовувалися методи цифрової обробки сигналів. Для експериментальної перевірки розроблених алгоритмів використані реальні і штучні мовні сигнали.

Наукова новизна отриманих результатів. У дисертації отримані наступні нові результати.

1. Розроблено алгоритм блокової калманівської фільтрації мовних сигналів, що забезпечує: обробку даних неперетинними блоками довільної довжини; врахування властивості квазістаціонарності мови; зниження похибки фільтрації у порівнянні з традиційним підходом до калманівської фільтрації мовних сигналів; зниження кількості обчислень у порівнянні з традиційним фільтром Калмана (ФК); узгодженість з розробленою процедурою оцінювання АР параметрів мови та архітектурою сучасних обчислювальних засобів.

Запропоновано новий, ефективний у практичній реалізації і більш стійкий до впливу шумів у порівнянні з існуючими підходами метод оцінювання АР параметрів мови, заснований на ідеях векторного квантування і блоковій моделі мовного сигналу у просторі станів.

Розроблено завадостійкий метод “сліпої” деконволюції, що забезпечує усунення впливу акустичного середовища та каналу зв'язку на характеристики мовних сигналів.

Запропоновано ефективний алгоритм обчислення лінійних спектральних частот (ЛСЧ) мовних сигналів, заснований на розробленому в роботі методі повного чисельного розв’язання трансцендентних рівнянь.

Практичне значення отриманих результатів. Отримані в дисертації результати можуть бути основою створення нових, більш ефективних систем обробки мовних сигналів для сучасних засобів зв'язку й автоматичного керування з мовним інтерфейсом.

Зокрема, метод блокової калманівської фільтрації відкриває можливість побудови високоефективних систем очищення мовних сигналів від шуму з використанням сучасних цифрових сигнальних процесорів.

Розроблений метод оцінювання параметрів АР моделі утворення мови в присутності шумів може бути використаний для побудови більш ефективних у порівнянні з існуючими методів кодування мови в системах цифрової телефонії, зокрема, системах мобільного зв'язку. Даний метод також є корисним для удосконалювання систем мовного введення інформації.

Запропонований метод сліпої деконволюції становить інтерес для розв’язку задачі дереверберації мовного сигналу і корекції впливу каналу зв'язку в системах автоматичної ідентифікації і верифікації дикторів. Даний метод також може бути використаний при реставрації історичних фонограм.

Запропоновані методи одержали практичну реалізацію при розробці низькошвидкісного (1200/2400 біт/сек) вокодеру, створеного ДНВП “Дельта” у рамках ДКР “Центавр-Д”.

Особистий внесок здобувача. У роботах, опублікованих у співавторстві, автору належать наступні результати.

У роботах [1, ] – побудова й експериментальна перевірка двоетапного методу оцінювання АР параметрів мови в сукупності з запропонованим алгоритмом блокової фільтрації. Крім того, у роботі [1] проведено аналіз існуючих методів цифрового очищення мовних сигналів від шуму.

У роботі [3] – ідея ідентифікації ПФ середовища за допомогою ЛСЧ, побудова завадостійкого методу селекції полюсів ПФ та процедури відновлення сигналу.

У роботі [5] – обчислювальна оптимізація розроблених процедур блокової фільтрації й обчислення функціонала правдоподібності, створення кодових книг АР коефіцієнтів мови і експериментальне тестування запропонованих алгоритмів на реальних мовних сигналах.

У роботі [6] – розробка блокової моделі мовного сигналу в просторі станів, перевірка ефективності ФК, заснованого на даній моделі, перевірка ідеї про можливість оцінювання параметрів голосового тракту на обмеженій множині квантів АР коефіцієнтів.

У роботі [8] – розробка методу розв’язання трансцендентних рівнянь, дослідження його застосування до пошуку ЛСЧ, порівняння з існуючими підходами.

Апробація результатів дисертації. Результати проведених досліджень доповідалися на міжнародній конференції з мовних технологій SST (Канберра, Австралія, 4-7 грудня 2000 р.), міжнародних конференціях з питань оптимізації обчислень (Кацивелі, Україна, 2001 р., 2003 р.). Роботи здобувача були включені в програми й опубліковані в працях міжнародної конференції з обробки мовних сигналів ICSLP (США, Денвер, 10-13 вересня 2002 р.) і міжнародної конференції з акустики, мови і сигнальної обробки ICASSP (Гонконг, 6-10 квітня 2003 р.).

Публікації. За результатами дисертаційної роботи опубліковано 8 праць, у тому числі 3 статті у фахових наукових журналах, 2 статті у наукових збірниках та 3 доповіді у трудах наукових конференцій.

Структура дисертації. Дисертація складається зі вступу, п'яти глав, висновків, списку літератури і додатків. Робота містить 131 сторінку основного тексту, 22 рисунки, 17 таблиць. Додатки займають 18 сторінок. Список літератури складається з 70 найменувань та займає 7 сторінок.

ОСНОВНИЙ ЗМІСТ РОБОТИ

У Вступі розкривається сутність і стан науково-технічної проблеми, показана її значимість для підвищення ефективності систем обробки мовних сигналів, а також дана загальна характеристика роботи.

У першому розділі “Огляд робіт, присвячених системам цифрової корекції мовних сигналів” показана актуальність задачі корекції спотворених мовних сигналів і подано огляд існуючих методів розв’язання цієї проблеми.

Успішний розвиток сучасних мовних технологій став багато в чому можливий завдяки впровадженню АР моделі генерування мови. Відповідно до даної моделі, мовний сигнал утворюється в результаті проходження збуджувального процесу через авторегресивний (полюсний) фільтр , робота якого описується у різницевій формі:

, (1)

де - АР коефіцієнти, що визначають форму голосового тракту;

- коефіцієнт підсилення, що характеризує рівень звукового сигналу.

Суть АР моделі утворення мови відображена на рис. 1.

Збуджувальний процес моделює потік повітря на виході голосової щілини. У даній моделі він являє собою білий шум у випадку вимовляння недзвінких звуків або послідовність імпульсів, що йдуть друг за другом з періодом основного тону, у випадку дзвінких звуків.

Полюсний фільтр моделює форму голосового тракту. Назва “полюсний” пояснюється тим, що його ПФ містить тільки полюси (що визначають резонанси голосового тракту), не маючи при цьому нулів. Відсутність у даної передаточної функції чисельника важливо тим, що спектральні піки є більш важливими для сприйняття мови, ніж спектральні нулі. Порядок АР моделі вибирається, як правило, у межах від 8 до 20. Внаслідок відносно повільної зміни форми голосового тракту з часом, можна вважати, що параметри АР моделі мови залишаються незмінними на відрізках довжиною 15-30 мс (властивість квазістаціонарності).

Однак спотворення, що вводяться внаслідок проходження через акустичне середовище або канал зв'язку, приводять до відхилень мовного сигналу від моделі (1), що спричиняє істотне погіршення характеристик систем обробки мови. Тому виникає необхідність у використанні систем попередньої корекції мовних сигналів, що забезпечують усунення чи зведення до прийнятного рівня вказаних спотворень.

Постановка задачі відображена на рис. 2. Мовний сигнал зазнає впливу ПФ середовища, тобто відбувається його згортка з невідомою імпульсною перехідною характеристикою (ІПХ) . Подібним чином можна представити типові спотворення, які вносяться аналоговими каналами зв'язку, аналоговими записуючими пристроями, реверберацією приміщення та інші. Перетворений таким чином сигнал спотворюється джерелом адитивних шумів (наприклад, вимірювальними шумами, шумами каналів зв'язку, акустичними шумами побутових приладів тощо).

Завдання полягає у відновленні мовного сигналу за спотвореними спостереженнями . Виходячи з вищесказаного, рішення даної задачі можна розбити на наступні етапи:

оцінювання параметрів АР моделі утворення мови;

оцінювання параметрів ПФ середовища і фонових шумів;

застосування фільтраційної процедури на основі отриманих оцінок параметрів, що забезпечує відновлення вихідного сигналу.

Існуючі методи корекції мовних сигналів мають істотні недоліки. По-перше, традиційні методи оцінювання АР параметрів мови мають, як правило, ітераційну структуру, що складається з поперемінного відновлення сигналу та оцінювання його параметрів. Внаслідок цього їхня ефективність у значній мірі залежить від початкового наближення для оцінки АР параметрів, надійних методів для вибору якого у даний час не існує. При цьому найбільш ефективні з існуючих методів характеризуються високими обчислювальними витратами, що змушує використовувати їхні спрощені модифікації, які знижують якість роботи.

По-друге, у даний час відсутні ефективні методи розв’язання задачі сліпої деконволюції мовних сигналів (усунення впливу ПФ середовища). Методи, що використовувалися дотепер в акустиці, базуються на багатоканальному прийомі сигналу у декількох точках акустичного середовища (не менше двох). У той же час, у більшості практичних ситуацій для обробки доступний лише один канал. Головними недоліками існуючих методів одноканальної сліпої деконволюції є непристосованість до роботи в умовах присутності фонового шуму і високі обчислювальні витрати.

По-третє, існуючі фільтраційні підходи погано пристосовані до практичної реалізації у сучасних системах цифрової обробки, де використовується, як правило, блокова організація вхідних даних. Так, традиційні методи калманівської фільтрації вимагають переобчислення усіх внутрішніх змінних алгоритму при надходженні кожного нового спостереження, що призводить до необхідності виконання значної кількості обчислень. У той же час, відомі економічні модифікації можуть знижувати точність до неприйнятного рівня. Крім того, традиційні методи калманівської фільтрації не використовують ефективно властивість квазістаціонарності мови.

В другому розділі “Розробка методології блокової калманівської фільтрації мовних сигналів” пропонується алгоритм блокової фільтрації, що забезпечує обробку спостережень неперетинними блоками довільної довжини.

Основу пропонованого фільтраційного методу складає розроблена блокова модель мовного сигналу в просторі станів (ПС):

(2)

де - вектор стану даної моделі ( - розмір блоку);

, , - вектори збуджувального процесу, спостережень і шуму, що визначаються аналогічним чином.

На відміну від традиційного представлення мовного сигналу (1) у ПС, вектор стану даної моделі містить довільне число дискретних значень сигналу і, крім того, суміжні за часом вектори не перекриваються.

У роботі отримані співвідношення, що зв'язують елементи перехідної і підсилювальної матриць даної моделі і з параметрами АР моделі мови (1). Крім того, одержано ряд важливих властивостей цих матриць, що описують їхній взаємозв'язок з блоковою матрицею, що здійснює усунення формантної структури мовного фрагменту. Знайдені властивості дозволили побудувати ефективну і зручну обчислювальну реалізацію ФК, заснованого на запропонованій блоковій моделі в ПС.

Зокрема, показано, що обернена матриця похибок має -діагональну структуру, тобто всі її ненульові елементи зосереджені на центральних діагоналях. Виходячи з цього, алгоритм блокової фільтрації представлено як послідовність етапів:

1. відновлення оберненої матриці похибок ;

2. обчислення блоку сигнальних оцінок шляхом розв’язання розрідженої лінійної системи з матрицею .

Відновлення сигнальних оцінок виконується тільки при надходженні чергового блоку з вимірювань, що відповідає принципам побудови сучасних систем ЦОС.

Також у роботі пропонується економічна процедура “зворотного ходу” блокового ФК, що дозволяє поліпшити відновлення мовного сигналу на границях суміжних блоків за рахунок використання одного майбутнього блоку спостережень. Застосування цієї процедури спричиняє введення затримки, не більшої ніж 20-25 мс, що є припустимим у сучасних системах ЦОС.

Запропонований блоковий ФК був перевірений експериментально стосовно задачі очищення мовних сигналів від шуму, записаного усередині салону автомобіля при різних відношеннях сигнал/шум (ВСШ). В експериментах використовувалися фонетично збалансовані речення, дискретизовані з частотою Гц, що вимовлялися шістьма дикторами. АР параметри мовних сигналів визначалися за допомогою автокореляційного методу на фреймах довжиною 20 мс. Порядок АР моделі був обраний рівним . Параметри шуму (апроксимованого АР моделлю восьмого порядку) визначалися за ділянками сигналу з найменшою енергією.

Для очищення сигналів застосовувалися традиційний ФК (ТФК); модифікації блокового ФK (БФК) з довжинами блоків від до ( - період квазістаціонарності); результат комбінації БФК із розробленою процедурою зворотного ходу (ЗХ). У табл. 1 приведені відповідні сегментні ВСШ, обчислені за ділянкам сигналів, що містили мовну активність.

Таблиця 1

Сегментні відношення сигнал/шум (дБ), що відповідають різним фільтраційним підходам

Початковий сигнал | -10.61 | -5.61 | -0.61 | 4.39 | 9.39 | 14.39

ТФК | 2.00 | 3.60 | 5.85 | 8.73 | 12.19 | 16.10

БФК (l=10) | 1.97 | 3.59 | 5.90 | 8.86 | 12.35 | 16.25

БФК (l=20) | 2.23 | 3.90 | 6.21 | 9.13 | 12.56 | 16.41

БФК (l=40) | 2.43 | 4.14 | 6.44 | 9.32 | 12.71 | 16.52

БФК (l=80) | 2.53 | 4.27 | 6.58 | 9.43 | 12.79 | 16.57

БФК (l=160) | 2.61 | 4.36 | 6.65 | 9.48 | 12.83 | 16.60

БФК (l=160)+ЗХ | 2.65 | 4.40 | 6.67 | 9.49 | 12.83 | 16.60

Як випливає з табл. 1, середня похибка блокового ФК спадає при збільшенні довжини блоку, що пояснюється залученням у фільтраційну процедуру більшого числа спостережень. Максимальна перевага перед традиційним ФК складає від 0.50 дБ при вхідному ВСШ, рівному 20 дБ, до 0.80 дБ при вхідному ВСШ, рівному 5 дБ. Найкращу якість відновлення сигналу забезпечує додатковий зворотний хід БФК. Він має перевагу перед прямим ходом БФК не тільки у поліпшенні об'єктивних показників, але й у поліпшенні суб'єктивного сприйняття відновленого сигналу завдяки маскуванню перехідних ділянок між суміжними квазістаціонарними інтервалами. Показано, що перевага БФК перед ТФК досягає 2-3 дБ при інших спектральних складах шумів.

Розроблений алгоритм оперує винятково з оберненими матрицями похибок, тому відсутність прямих матричних обернень зумовлює високу економічність обчислень. Встановлено, що обчислювальні витрати БФК практично завжди є спадною функцією довжини блоку. Це означає, що мінімальна кількість обчислень припадає на максимально можливу довжину блоку, тобто коли довжина блоку збігається з періодом квазістаціонарності мови. Показано, що розроблений алгоритм забезпечує економію обчислювальних витрат від 2.4 до 6 разів (при різних характерних порядках мовного сигналу та шуму) у порівнянні з традиційним ФК і від 5.5 до 11.1 разів у порівнянні з двонаправленим ФК, що використовує майбутні спостереження.

Застосування розроблених алгоритмів блокової калманівської фільтрації вимагає знання оцінок АР параметрів вихідного мовного сигналу, що не містить шуму. Тому в розділі “Розробка методів оцінювання авторегресивних параметрів мови в присутності шуму” пропонується новий завадостійкий підхід до оцінювання АР параметрів, заснований на ідеях векторного квантування.

Запропонований підхід полягає в оцінюванні АР параметрів мови шляхом максимізації функціонала правдоподібності (ФП) на обмеженій множині АР квантів . На кожному фреймі сигналу здійснюється вибір кванта (типового спектру), що максимізує ФП. Таким чином, задача оцінювання зводиться до прямого перебору скінченої кількості гіпотез.

Розглянемо процедуру формування квантів АР параметрів мови. Попередньо формується база навчальних мовних сигналів. По квазістаціонарних інтервалах даної бази визначаються відповідні їм АР параметри за допомогою стандартних методів лінійного прогнозування. Отримані набори коефіцієнтів перетворюються в кванти АР параметрів за допомогою кластерного алгоритму К-середніх, що застосовується в задачах розпізнавання образів і векторного квантування. Важливим моментом при формуванні квантів (кодової книги) є вибір міри відмінності мовних сигналів. З позицій рішення поставленої задачі, у роботі обґрунтована доцільність використання міри Ітакури-Саіто. Оскільки при великій кількості квантів даний метод може привести до істотних обчислювальних витрат, в роботі запропоновано економічний спосіб обчислення ФП, заснований на розробленій блоковій моделі мовного сигналу (2).

Інший спосіб скорочення кількості обчислень (і також підвищення ефективності оцінювання) полягає в застосуванні двоетапного алгоритму. На першому етапі результат прямої максимізації ФП на невеликій кількості квантів використовується в якості початкового наближення. Точне значення оцінки визначається за допомогою відомого методу EM (expectation maximization), що складається в поперемінному відновленні сигналу за допомогою рівнянь калманівського згладжування і визначенні АР коефіцієнтів шляхом розв’язання модифікованих рівнянь Юла-Уокера. Внаслідок громіздкості і високих обчислювальних витрат даного методу, у роботі запропоновано ефективний спосіб його реалізації, заснований на розвинутих ідеях блокового представлення мовного сигналу.

Описаний комбінований підхід дозволяє зменшити загальну похибку оцінювання в порівнянні з прямою максимізацією ФП завдяки зниженню систематичної компоненти похибки. Крім того, він вирішує важливу проблему ітераційних підходів до оцінювання АР параметрів, пов'язану з вибором початкового наближення.

Структурна схема алгоритму, що пропонується, представлена на рис. 3.

Розроблена методологія завадостійкого оцінювання АР параметрів була експериментально перевірена при роботі з реальними сигналами. На попередньому етапі була сформована база тестових мовних сигналів, по якій за допомогою алгоритму К-середніх були отримані кодові книги АР параметрів з 4, 16, 64 і 256 квантів. Порядок АР моделі був обраний рівним 10.

В експериментах використовувалися фонетично збалансовані речення, що належали дикторам, які не приймали участі у формуванні кодових книг. Ці сигнали були змішані з автомобільними шумами. Оцінювання АР параметрів виконувалося на неперетинних фреймах довжиною 20 мс.

На рис. 4 представлений графік усередненої міри Ітакури-Саіто похибки оцінювання в залежності від числа квантів при різних вхідних ВСШ. Як видно, ефективність запропонованої процедури за значеннями міри Ітакури-Саіто зростає при збільшенні розміру кодової книги. Аналогічні залежності від числа квантів отримані для міри Ітакури і результуючого сегментного ВСШ.

Також досліджено ефективність запропонованої двоетапної процедури оцінювання. Розглянуто залежності від числа квантів середньої міри Ітакури-Саіто і підсумкового сегментного ВСШ (при відновленні сигналу розробленим блоковим ФК з довжиною блоку 20 мс). Показано, що задовільна ефективність двоетапної процедури оцінювання по сукупності об'єктивних і суб'єктивних показників забезпечується вже при використанні на першому етапі 16 квантів.

На рис. 5 представлені середні значення міри Ітакури-Саіто для методу EM при стандартному способі ініціалізації, а також модифікації запропонованого методу, що відповідає шістнадцятьом квантам. Порівняння відповідних результуючих сегментних ВСШ (при відновленні сигналу розробленим блоковим ФК) наведено на рис. 6.

З рис. 5 випливає, що у всьому діапазоні вхідних ВСШ запропонований метод має перевагу перед методом EM. Поліпшення міри Ітакури-Саіто при цьому складає від 0.03 одиниць при вхідному ВСШ, що дорівнює 20 дБ, до 0.26 одиниць при вхідному ВСШ, що дорівнює 5 дБ.

Як випливає з рис. 6, запропонований метод оцінювання АР параметрів мови забезпечує перевагу перед методом EM. Максимальний приріст сегментного ВСШ складає 2.00 дБ (при вхідному ВСШ, що дорівнює 0 дБ). У всьому діапазоні вхідних ВСШ запропонований метод характеризується більшою природністю звучання та меншим рівнем так званих “музичних” шумів (артефактів, які часто спостерігаються при цифровій обробці мовних сигналів).

Компенсація впливу передаточної функції середовища розглянута в розділі “Розробка алгоритму сліпої деконволюції мовних сигналів, заснованого на аналізі лінійних спектральних частот”. Метод, що пропонується, засновано на припущенні, що ПФ середовища не має нулів:

, (3)

де - коефіцієнти знаменника ПФ ( - порядок ПФ);

- полюси ПФ.

Таке припущення може бути обґрунтовано тим, що основні лінійні спотворення, що вносяться акустичним середовищем чи каналом зв'язку, зводяться до появи в мовному сигналі сторонніх резонансів, що визначаються полюсами ПФ (3). Крім того, спектральні піки мовного сигналу, зумовлені полюсами z-перетворення, є більш важливими для сприйняття звуків, ніж спектральні “провали”, зумовлені нулями.

Неспотворений мовний сигнал, як відзначалося вище, добре описується АР моделлю (1), що також відповідає полюсному фільтру. При цьому АР параметри мови змінюються значно швидше ніж параметри ПФ середовища. Це дозволяє виділити полюси ПФ серед всіх полюсів спотвореного сигналу шляхом накопичення полюсних гістограм на великих проміжках часу.

Запропонований метод завадостійкого відбору стаціонарних полюсів базується на використанні ЛСЧ , що є альтернативним спектральним зображенням коефіцієнтів АР моделі (1). Важливою властивістю ЛСЧ є їхній взаємозв'язок з формантами. На рис. 7 показана спектральна обвідна мовного фрагменту і нанесені відповідні ЛСЧ. Видно, що кожна форманта оточена декількома ЛСЧ, у той час як ширина смуги відповідного резонансу залежить від їх близькості.

Це мотивує до побудови критерію детектування сторонніх резонансів, заснованого на розгляді різниць суміжних ЛСЧ: Показано, що наявність на фреймі спотвореного сигналу пари ЛСЧ, віддалених між собою менш ніж на деяке критичне значення , свідчить про наявність резонансу між цими частотами. Експериментально встановлено, що в якості такого граничного значення доцільно прийняти =125 Гц. Відібраний таким чином резонанс може відноситися як до мовного сигналу, так і до ПФ середовища. Однак при накопиченні усіх відібраних полюсів, ті з них, що відповідають корисному сигналу, не будуть помітні на загальному тлі (завдяки нестаціонарності мови).

Таким чином, алгоритм виявлення конволюційних спотворень виконує на кожнім фреймі сигналу наступні дії:

одержання оцінки АР коефіцієнтів згортки сигналу з невідомою ІПХ шляхом застосування розробленої стійкої до впливу шуму двоетапної процедури;

перетворення коефіцієнтів у набір ЛСЧ за алгоритмом, запропонованим у п'ятому розділі роботи;

виділення серед отриманих ЛСЧ пар , віддалених менш ніж на ;

перетворення наборів у пари резонансних полюсів за формулами

; .

Отримані полюси виводяться на гістограму.

На завершальній стадії з отриманої гістограми відбираються найбільш помітні на загальному тлі полюси, що потім перетворюються в оцінки коефіцієнтів знаменника ПФ .

Уведене правило відбору полюсів виключає з розгляду паузи і ділянки мовного сигналу зі слабо вираженою резонансною структурою, що підвищує надійність процедури оцінювання. На противагу цьому, традиційні методи побудови полюсних гістограм обчислюють комплексні корені АР поліномів на усіх без винятку фреймах, що ускладнює детектування впливу ПФ. Крім цього, запропонований метод здійснює побудову полюсних гістограм, оминаючи обчислення комплексних коренів рівнянь і обмежуючись обчисленням ЛСЧ, що відповідає принципово меншим обчислювальним витратам. Варто помітити, що запропонований метод виконує ідентифікацію порядку ПФ.

На рис. 8 представлена полюсна гістограма, отримана в результаті застосування розробленого методу до аналізу історичної фонограми, яку було дискретизовано з частотою Гц. Аналіз виконувався при порядку АР моделі і довжині фрейму 20 мс.

З рис. випливає присутність стаціонарних полюсів на частоті Гц, що визначають ПФ записуючого пристрою. Послідуюча фільтрація сигналу за допомогою фільтру, зворотного до ідентифікованого, у комбінації з фільтрацією шуму блоковим ФК, дозволили усунути “металеве” звучання, викликане стороннім резонансом, і підвищити суб'єктивну якість сигналу завдяки зниженню рівня шуму.

Обчислення ЛСЧ, що є складовою частиною пропонованого алгоритму сліпої деконволюції, є етапом багатьох сучасних систем кодування мовних сигналів, алгоритмів розпізнавання мови й ідентифікації диктора. Однак існуючі методи пошуку ЛСЧ вирішують, як правило, компроміс між точністю і кількістю обчислень. Тому у розділі “Розробка ефективного алгоритму обчислення лінійних спектральних частот” пропонуються нові алгоритми обчислення ЛСЧ, засновані на розробленому методі повного чисельного розв’язання трансцендентних рівнянь, що не мають кратних коренів. У результаті тестування на реальних мовних сигналах відібрана оптимальна за обчислювальними витратами модифікація методу та показана перевага за критеріями середньої і максимальної кількості операцій перед поширеним методом Кабала-Рамачандрана. Середня економія обчислень склала 35 % операцій при локалізації ЛСЧ, а також до 57 % операцій при їх точному обчисленні. На відміну від існуючих алгоритмів, у запропонованому підході точності обчислення ЛСЧ не залежать між собою і можуть варіюватися в залежності від вимог задачі.

У розділі “Висновки” наведено основні результати дисертації.

ОСНОВНІ РЕЗУЛЬТАТИ І ВИСНОВКИ

1. Розроблено алгоритм блокової калманівської фільтрації, що реалізує обробку мовного сигналу неперетинними блоками довільної довжини і заснований на АР моделі утворення мови. Основу алгоритму складає розроблена блокова модель мовного сигналу в просторі станів. Вектор стану даної моделі містить довільне число сигнальних елементів і, крім того, суміжні за часом вектори не перекриваються. Отримано ряд властивостей матриць розробленої моделі, що дозволило побудувати ефективну в обчислювальному плані реалізацію блокового ФК. Основу алгоритму складає доведена властивість розрідженої структури оберненої матриці похибок. Відновлення сигнальних оцінок виконується тільки при надходженні чергового блоку вимірювань, що відповідає принципам роботи сучасних систем ЦОС.

2. Встановлено, що обчислювальні витрати розробленого алгоритму практично завжди є спадною функцією довжини блоку. Показано, що блоковий ФК забезпечує економію обчислень від 2.4 до 6 разів (при різних характерних порядках АР моделей сигналу та шуму) у порівнянні з традиційним ФК і від 5.5 до 11.1 разів у порівнянні з двонаправленим ФК, що використовує майбутні спостереження.

3. Показано, що середнє значення похибки БФК спадає при збільшенні довжини блоку. Таким чином, оптимальним за похибкою фільтрації та кількістю операцій є використання довжини блоку, що дорівнює періоду квазістаціонарності. Максимальна перевага за критерієм сегментного ВСШ перед традиційним ФК може досягати 2-3 дБ у залежності від спектрального складу шумів.

4. Розроблено завадостійкий підхід до оцінювання АР параметрів мови, заснований на максимізації ФП на обмеженій множині квантів АР параметрів. Описано спосіб формування кодових книг АР параметрів і обґрунтовано доцільність використання міри Ітакури-Саіто. Розроблено економічний спосіб обчислення ФП, заснований на блоковій моделі мовного сигналу.

5. Розроблено двоетапний алгоритм оцінювання АР параметрів мови: на першому етапі виконується пряма максимізація ФП на невеликій кількості квантів, на другому етапі оцінка АР параметрів уточнюється за допомогою ітераційної процедури. Запропоновано ефективну реалізацію двоетапного алгоритму на основі ідей блокового представлення мовного сигналу.

6. У результаті тестування на реальних мовних сигналах показано, що ефективність одноетапної процедури за критеріями мір Ітакури-Саіто, Ітакури, сегментного ВСШ зростає при збільшенні розміру кодової книги. У результаті експериментальної перевірки двоетапної процедури оцінювання показано, що другий етап оцінювання забезпечує істотне поліпшення об'єктивних показників при використанні на першому етапі всього 16 квантів, що є важливим з погляду економії обчислень і ресурсів пам'яті. У всьому діапазоні вхідних ВСШ запропонований метод забезпечує природність звучання і низький рівень “музичних” шумів у відновленому мовному сигналі.

7. Розроблено метод сліпої деконволюції мовних сигналів в умовах присутності фонових шумів. Показано доцільність ідентифікації полюсів ПФ шляхом аналізу ЛСЧ. Запропоновано правило відбору полюсів, засноване на порівнянні різниць ЛСЧ із критичним значенням. Це правило виключає з розгляду ділянки сигналу зі слабкою резонансною структурою, що підвищує надійність процедури оцінювання. Запропонований метод здійснює побудову полюсних гістограм, оминаючи процес обчислення комплексних коренів АР поліномів і обмежуючись обчисленням ЛСЧ, що відповідає істотно меншим обчислювальним витратам. Ефективність запропонованого методу перевірена на реальних мовних сигналах.

8. Запропоновано новий спосіб обчислення ЛСЧ, заснований на розробленому методі повного чисельного рішення трансцендентних рівнянь, що не мають кратних коренів. Відібрана оптимальна за обчислювальними витратами модифікація методу та показана перевага за середньою і максимальною кількістю операцій перед методом Кабала-Рамачандрана.

СПИСОК ОПУБЛІКОВАНИХ РОБІТ

1. Калюжный А.Я., Семенов В.Ю. Экономичный метод очистки речи от шума, основанный на блочном представлении сигнала в пространстве состояний и векторном квантовании // Акуст. вісн. – 2002. – Т. 5, №3. - C. 28-34.

2. Семенов В.Ю. Новый метод вычисления линейных спектральных частот речевых сигналов, основанный на универсальном алгоритме решения трансцендентных уравнений // Акуст. вісн. – 2002. – Т. 5, №4. – C. 38–50.

3. Калюжный А.Я., Семенов В.Ю. Метод слепой деконволюции речевых сигналов, основанный на анализе линейных спектральных частот // Акуст. вісн. – 2003. – Т. 6, №3. – C. 34–43.

4. Семенов В.Ю. Экономичный способ калмановской фильтрации, основанный на блочной модели в пространстве состояний // Комп’ютерна математика. Оптимізація обчислень: Зб. наук. пр. – Київ. – 2001. – Т.1. – С. 334–344.

5. Калюжный А.Я., Семенов В.Ю. Адаптивная калмановская фильтрация речевых сигналов, основанная на блочной модели в пространстве состояний и векторном квантовании авторегрессионных параметров // Электроника и связь. – 2001. – №11. – C. 14–17.

6. Kovtonyuk A., Kalyuzhny A., Semenov V. Adaptive Kalman filtering of speech signals based on a block model in the state space and vector quantization of autoregressive features // Proc. Int. Conf. Speech Science Technology. – Canberra (Australia). – 2000. – P. 262–267.

7. Semenov V., Kovtonyuk A., Kalyuzhny A. Computationally efficient method of speech enhancement based on block representation of signal in state space and vector quantization // Proc. Int. Conf. Spoken Language Proces. – Denver (USA). – 2002. – P. 2509–2512.

8. Semenov V., Kalyuzhny A., Kovtonyuk A. Efficient calculation of line spectral frequencies based on new method for solution of transcendental equations // Proc. Int. Conf. Acoust. Speech Signal Proces. –Kong. – . – Vol. 2. ––460.

АНОТАЦІЯ

Семенов В.Ю. Розробка адаптивних методів корекції мовних сигналів на основі авторегресивної моделі голосового тракту. – Рукопис.

Дисертація на здобуття вченого ступеня кандидата фізико-математичних наук за спеціальністю 01.04.06 – Акустика. – Інститут гідромеханіки НАНУ, Київ, 2004 р.

Мета роботи - розробка методів корекції мовного сигналу на основі авторегресивної (АР) моделі його утворення.

Розроблено економічний алгоритм блокової калманівської фільтрації мовного сигналу неперетинними блоками довільної довжини. Покращення сегментного відношення сигнал/шум перед традиційними методами калманівської фільтрації мови складає до 3 дБ. Скорочення кількості операцій становить від 2.4 до 11.1 разів.

Розроблено завадостійкий підхід до оцінювання АР параметрів мови, заснований на векторному квантуванні. Метод складається з вибору АР кванту, що максимізує функціонал правдоподібності, та ітераційного уточнення. Показано, що для ефективної реалізації підходу достатньо 16 квантів.

Запропоновано метод сліпої деконволюції мовних сигналів в присутності шуму, що використовує лінійні спектральні частоти (ЛСЧ). Розроблено метод обчислення ЛСЧ, що має переваги перед існуючими підходами.

Ключові слова: корекція мовних сигналів, авторегресивна модель, фільтр Калмана, векторне квантування, функціонал правдоподібності, сліпа деконволюція, лінійні спектральні частоти.

АННОТАЦИЯ

Семенов В.Ю. Разработка адаптивных методов коррекции речевых сигналов на основе авторегрессионной модели голосового тракта. – Рукопись.

Диссертация на соискание ученой степени кандидата физико-математических наук по специальности 01.04.06 – Акустика. – Институт гидромеханики НАНУ, Киев, 2004 г.

Целью работы является разработка эффективных методов коррекции речевого сигнала, основанных на авторегрессионной (АР) модели речеобразования.

Разработан алгоритм блочной калмановской фильтрации, реализующий обработку речевого сигнала неперекрывающимися блоками произвольной длины. Основу алгоритма составляет разработанная блочная модель речи в пространстве состояний. Получен ряд свойств матриц данной модели, описывающих их взаимосвязь с отбеливающей матрицей. Построена экономичная реализация фильтра Калмана (ФК), основанного на предложенной модели. Основу алгоритма составляет доказанное свойство разреженной структуры обратной матрицы ошибок. Обновление сигнальных оценок выполняется только при поступлении очередного блока измерений, что соответствует принципам построения современных систем сигнальной обработки. Построены экономичные модификации блочного ФК, улучшающие показатели качества восстановленной речи на границах смежных блоков.

Установлено, что вычислительные затраты разработанного алгоритма практически всегда являются убывающей функцией длины блока. Показано, что блочный ФК обеспечивает экономию вычислительных затрат от 2.4 до 11.1 раз (при различных характерных порядках сигнала и помехи) по сравнению с традиционным ФК. Показано, что среднее значение ошибки блочного ФК убывает при увеличении длины блока. Преимущество перед традиционным ФК в плане сегментного отношения сигнал/помеха может достигать 2-3 дБ в зависимости от спектрального состава шума.

Предложен новый помехоустойчивый подход к оцениванию АР параметров речевых сигналов, основанный на максимизации функционала правдоподобия (ФП) на ограниченном множестве квантов АР параметров речи. Показан способ формирования кодовых книг АР параметров и обоснована целесообразность использования меры Итакуры-Саито. Разработан экономичный способ подсчета ФП, основанный на блочной модели речи.

Разработан двухэтапный алгоритм оценивания АР параметров, на первом этапе которого выполняется прямая максимизация ФП на небольшом количестве квантов. На втором этапе оценка АР параметров речи уточняется с помощью итерационной процедуры, эффективно реализованной исходя из идей блочного представления речевого сигнала. В результате экспериментального тестирования показано, что второй этап обеспечивает существенное улучшение объективных показателей (мер Итакуры_Саито, Итакуры, сегментного отношения сигнал/помеха) при использовании на первом этапе всего 16 квантов, что является важным с точки зрения экономии вычислений и ресурсов памяти. Продемонстрировано преимущество в плане объективных и субъективных показателей качества перед известным методом EM (expectation maximization).

Разработан помехоустойчивый метод слепой деконволюции речевых сигналов. Показана целесообразность идентификации полюсов передаточной функции среды путем анализа линейных спектральных частот (ЛСЧ). Предложено правило отбора полюсов, основанное на сравнении разностей ЛСЧ с критическим значением. С целью обеспечения помехоустойчивости алгоритма идентификации разработана двухэтапная процедура оценивания АР коэффициентов свертки речевого сигнала с импульсной переходной характеристикой среды. В результате тестирования на реальных речевых сигналах показана эффективность работы предложенного метода.

Предложен новый подход к вычислению ЛСЧ, основанный на разработанном методе полного численного решения трансцендентных уравнений, не имеющих кратных корней. В результате тестирования на реальных речевых сигналах отобрана оптимальная по вычислительным затратам модификация метода. Показано преимущество в плане среднего и максимального количества операций перед распространенным методом Кабала-Рамачандрана.

Ключевые слова: коррекция речевых сигналов, авторегрессионная модель, фильтр Калмана, векторное квантование, функционал правдоподобия, слепая деконволюция, передаточная функция, линейные спектральные частоты.

ABSTRACT

Semenov V.Yu. Development of adaptive speech enhancement methods based on autoregressive model of vocal tract. – Manuscript.

Ph.D. thesis for speciality 01.04.06 – Acoustics. – Institute of Hydromechanics of National Academy of Sciences of Ukraine, Кyiv, 2004.

The goal of thesis: development of speech enhancement methods based on autoregressive (AR) model of speech.

Efficient algorithm of block Kalman filtering (KF) is developed. Processing of speech is performed by non-overlapping blocks of arbitrary length. Segmental signal-to-noise ratio in comparison with traditional approach to KF of speech is improved up to 3 dB.

Сторінки: 1 2

��
��...

Наступні 7 робіт по вашій темі:

▪ Економіко-математичне моделювання формування основних показників діяльності банківських установ - Автореферат - 20 Стр.
▪ ТІЛЕСНА САМОІДЕНТИФІКАЦІЯ В УМОВАХ КУЛЬТУРНИХ ТРАНСФОРМАЦІЙ - Автореферат - 27 Стр.
▪ МОДЕЛЮВАННЯ ЕЛЕМЕНТІВ БІОТЕХНІЧНОЇ СИСТЕМИ БАГАТОКАНАЛЬНОЇ ПУЛЬСОМЕТРІЇ ТА РОЗРОБЛЕННЯ ПРИСТРОЮ ФОРМУВАННЯ ПУЛЬСОВИХ СИГНАЛІВ - Автореферат - 29 Стр.
▪ СОЦІАЛЬНО-ФІЛОСОФСЬКІ ІДЕЇ: ПРОБЛЕМА ПЕРСОНІФІКАЦІЇ ТА РЕАЛІЗАЦІЇ (за матеріалами творів Ф.М.Достоєвського) - Автореферат - 15 Стр.
▪ ФОРМУВАННЯ СЕНСОЖИТТЄВИХ ЦІННІСНИХ ОРІЄНТАЦІЙ СТАРШОКЛАСНИКІВ У ПРОЦЕСІ ВИВЧЕННЯ СУСПІЛЬСТВОЗНАВЧИХ ДИСЦИПЛІН - Автореферат - 26 Стр.
▪ МЕЖІ КРИМІНАЛЬНОЇ ВІДПОВІДАЛЬНОСТІ - Автореферат - 24 Стр.
▪ ДИНАМІКА ЕЛЕКТРОННОГО ПОТОКУ В МАГНЕТРОННІЙ ГАРМАТІ З ХОЛОДНИМ ВТОРИННО-ЕМІСІЙНИМ КАТОДОМ - Автореферат - 22 Стр.