Автореферат ВИКОРИСТАННЯ ВЕЙВЛЕТ-ПЕРЕТВОРЕНЬ ТА НЕЙРОННИХ МЕРЕЖ ДЛЯ ОБРОБКИ ТА ПОКРАЩАННЯ РОЗПІЗНАВАННЯ МОВНИХ СИГНАЛІВ

Автореферат - ВИКОРИСТАННЯ ВЕЙВЛЕТ-ПЕРЕТВОРЕНЬ ТА НЕЙРОННИХ МЕРЕЖ ДЛЯ ОБРОБКИ ТА ПОКРАЩАННЯ РОЗПІЗНАВАННЯ МОВНИХ СИГНАЛІВ

Загрузка...

Автореферат дисертації НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ

“ЛЬВІВСЬКА ПОЛІТЕХНІКА”

Гудим Володимир Васильович

УДК 621.391.19+681.142.37

ВИКОРИСТАННЯ ВЕЙВЛЕТ-ПЕРЕТВОРЕНЬ ТА НЕЙРОННИХ МЕРЕЖ ДЛЯ ОБРОБКИ ТА ПОКРАЩАННЯ РОЗПІЗНАВАННЯ МОВНИХ СИГНАЛІВ

05.12.13 – Радіотехнічні пристрої та засоби телекомунікацій

АВТОРЕФЕРАТ

дисертації на здобуття наукового ступеня

кандидата технічних наук

Львів - 2003

Дисертацією є рукопис.

Робота виконана в Національному університеті “Львівська політехніка”

Міністерства освіти і науки України.

Науковий керівник:

кандидат технічних наук, доцент

Романишин Юрій Михайлович,

Національний університет “Львівська політехніка”,

доцент кафедри електронних засобів інформаційно-комп’ютерних технологій

Офіційні опоненти:

доктор технічних наук, доцент

Тимченко Олександр Володимирович,

Національний університет “Львівська політехніка”,

професор кафедри телекомунікацій

доктор технічних наук, професор

Воробель Роман Антонович,

Фізико-механічний інститут ім. Г.В. Карпенка НАН

України (м. Львів), завідувач відділу

Провідна установа: Національний технічний університет України “Київський політехнічний інститут” Міністерства освіти і науки України, кафедра радіоконструювання та виробництва радіоелектронної апаратури

Захист відбудеться 5 листопада 2003 р. о 16 год. на засіданні спеціалізованої вченої ради Д 35.052.10 в Національному університеті “Львівська політехніка” (79013, м. Львів, вул. С. Бандери, 12)

З дисертацією можна ознайомитися у бібліотеці Національного університету “Львівська політехніка” (79013, м. Львів, вул. Професорська, 1).

Автореферат розісланий 30 вересня 2003р.

Вчений секретар

спеціалізованої вченої ради Бондарєв А. П.

ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ

Актуальність теми. Існуючі засоби цифрової обробки мовних сигналів мають ряд недоліків внаслідок обмеженості використовуваних методів та алгоритмів, а також нестаціонарності мовних сигналів. Тому необхідно вдосконалювати існуючі та розробляти нові методи обробки мовних сигналів з метою отримання параметрів, менш чутливих до мінливості мовних сигналів, враховуючи особливості утворення та слухового сприйняття сигналів, які забезпечували б високу швидкодію та якість їх обробки.

Проведена велика робота в найбільших наукових лабораторіях і компаніях світу, таких як IBM, AT&T, Oregon Institute, MITS, Dragon, Philips та ін., дозволила за останні десятиріччя перейти від теоретичних розробок і лабораторних систем до практичних продуктів обробки мовних сигналів (управління голосом, диктування, забезпечення доступу) з задовільними показниками.

Розв’язання таких проблем можливе на основі використання вейвлет-перетворень і побудови вейвлет-функцій. Вейвлет-перетворення можна використати для розв’язання задач стискання, зменшення рівня шуму, виділення параметрів та розпізнавання смислових елементів цифрових мовних сигналів з високою точністю і швидкодією. Тому згадані задачі є складовою загальної проблеми цифрової обробки сигналів і на сучасному етапі є важливі та актуальні.

Протягом останніх років ведуться інтенсивні дослідження, спрямовані на удосконалювання методології застосування прихованих Марковських моделей (ПММ) і розробку високоточних інтелектуальних (нейронних) систем розпізнавання мови та ідентифікації диктора. Використання статистичних методів на основі ПММ дозволяє описувати часову й акустичну мінливість мовних сигналів. Для більш ефективного представлення часової й акустичної мінливості мови необхідно враховувати статистичні залежності між сусідніми фрагментами мовних сигналів.

У зв'язку з цим розробка методів і алгоритмів обробки мовних сигналів та удосконалення структури штучних нейронних мереж є подальшим розвитком апарату цифрової обробки та моделювання мовних сигналів.

Зв’язок роботи з науковими програмами, планами, темами. Дисертаційна робота пов'язана з планами науково-дослідних робіт кафедри електронних засобів інформаційно-комп’ютерних технологій Національного університету "Львівська політехніка", зокрема з науково-технічною програмою Міносвіти України „Розробка теоретичних основ побудови багаторівневих інтегральних систем з включенням складових керуючих і обчислювальних комплексів, роботи і роботехнічні системи інформації”. Окремі етапи роботи пов’язані з держбюджетною темою кафедри ”Перспективні технології, прилади комплексної автоматизації, системи зв’язку”, що виконувалася згідно з координаційними планами НДР за фаховим напрямком „Радіотехніка та електроніка”.

Мета і задачі досліджень. Метою роботи є покращання ефективності розпізнавання мовних сигналів та їх компресії за допомогою засобів цифрової обробки, розроблених на основі апарату вейвлет-перетворень та штучних нейронних мереж.

Досягнення поставленої мети вимагало розв’язання таких задач:

1. Аналіз математичних моделей формування та сприйняття мовних сигналів для задач їх цифрової обробки.

2. Виділення та побудова еталонів мовних сигналів для подальшого їх використання як вхідних параметрів у структурах штучних нейронних мереж.

3. Вибір вейвлет-функцій та порівняння апарату вейвлет-перетворень з перетвореннями Фур’є для використання у засобах цифрової обробки мовних сигналів.

4. Дослідження та чисельна реалізація прямого та оберненого неперервного вейвлет-перетворення (НВП).

5. Компресія та зниження рівня шумів на основі апарату дискретних вейвлет-перетворень (ДВП) з врахуванням психоакустичних принципів сприйняття сигналів.

6. Побудова і вибір структури та параметрів нейронної мережі для розпізнавання елементів мовних сигналів та аналіз функціонування нейронної мережі при наявності шумових факторів.

7. Виконання комп’ютерних експериментів, їх аналіз та порівняння отриманих результатів з відомими.

Об’єктом дослідження є сигнали, що відповідають звукам мови.

Предметом дослідження є засоби цифрової обробки мовних сигналів на основі апарату вейвлет-перетворень та штучних нейронних мереж.

Методи досліджень. Теорія сигналів та методи їх цифрової обробки: кореляційні, спектральні, кепстральні, неперервні та дискретні вейвлет-перетворення; методи математичного моделювання; апарат штучних нейронних мереж; теорія імовірностей та статистичного аналізу.

Наукова новизна отриманих результатів.

1. На основі аналізу спектральних характеристик елементів мовних сигналів вдосконалено метод попередньої сегментації сигналів, який відрізняється від відомих тим, що базується на кореляційному аналізі спектральних сегментів (вікон) і дозволяє точніше виділяти межі елементів мовних сигналів для подальшої їх цифрової обробки та аналізу.

2. Запропоновано нові (для мовних сигналів) параметри спектрально-часової невизначеності та ентропії спектру часового вікна з нелінійною (логарифмічною) шкалою частот, які, порівняно з відомими параметрами, зокрема формантами, відзначаються більшою стабільністю для елементів мовного сигналу, що дозволяє використовувати ці параметри, разом з відомими, для побудови ефективніших систем розпізнавання мовних сигналів.

3. Розроблено нову методику застосування неперервних вейвлет-перетворень для цифрової обробки та аналізу мовних сигналів, яка відрізняється від існуючих тим, що базується на попередньому виборі вейвлет-функції за критерієм мінімальної ентропії коефіцієнтів вейвлет-перетворення та частотно-часової локалізації вейвлет-функції, що дозволило підвищити якість розпізнавання складових елементів мовного потоку та зменшити обчислювальні затрати.

4. Модифіковано та адаптовано до цифрової обробки мовних сигналів метод дискретного вейвлет-перетворення на основі вибору ортонормованого вейвлет-базису за критерієм мінімальної ентропії коефіцієнтів вейвлет-розкладу на масштабованих рівнях розкладу, що дозволило, порівняно з існуючими методами, підвищити коефіцієнт компресії мовного сигналу та відношення сигнал/шум при відповідній якості відтворення сигналу.

5. Подальший розвиток отримало застосування штучних нейронних мереж для обробки, класифікації та розпізнавання елементів мовних сигналів на основі введення нових, запропонованих та досліджених складових вектора вхідних параметрів мережі, що дозволило покращити якість розпізнавання складових мовного сигналу.

Практичне значення одержаних результатів.

1. Реалізовано процедури сегментації та формування параметрів спектрально-часової невизначеності та ентропії віконного спектру з нелінійною шкалою частот мовних сигналів для використання у системах цифрової обробки мовних сигналів.

2. Програмно реалізовано алгоритми вибору та побудови вейвлет-функцій для обробки мовних сигналів, а також алгоритми аналізу квазіперіодичності мовного сигналу та оберненого неперервного вейвлет-перетворення.

3. Програмно реалізовано алгоритми зниження рівня шумів, компресії та декомпресії для зберігання та передачі мовних сигналів на основі дискретного вейвлет-перетворення.

4. Програмно реалізована структура нейронної мережі для класифікації та розпізнавання мовних сигналів з використанням алгоритмів попередньої обробки та відомих і запропонованих параметрів мовних сигналів.

5. Розроблено додатковий набір функцій пакету прикладних програм MATLAB для цифрової обробки мовних сигналів.

Реалізація та впровадження результатів роботи. Результати дисертаційної роботи впроваджені у ВАТ “Укртелеком” (м.Львів) та знайшли застосування при розробці інформаційно-довідкової системи. Розроблені теоретичні положення і пакети прикладних програм використовуються у лекційних курсах та лабораторних заняттях кафедри електронних засобів інформаційно-комп'ютерних технологій Національного університету “Львівська політехніка”.

Особистий внесок здобувача. Особистий внесок здобувача полягає у самостійному виконанні теоретичної і експериментальної частин роботи та інтерпретації одержаних результатів. Усі основні положення, викладені в дисертації, отримано автором особисто. В роботах, написаних у співавторстві, автору належить: [1, 9] – вибір та розрахунок часових, спектральних та кепстральних параметрів мовних елементів для побудови шаблонів; [2, 3, 7] - обчислення, дослідження та аналіз спектрально-часової невизначеності елементів мовного сигналу; [4, 6, 8] - порівняння вейвлет-функцій за критерієм мінімального значення ентропії, компресія та зниження рівня шумів у мовних сигналах на основі дискретних вейвлет-перетворень; [5] - побудова нейронної мережі для обробки мовних сигналів, її дослідження та аналіз функціонування при наявності шуму у мовному сигналі; [10] - порівняння спектрально-часових властивостей вейвлет-функцій. Аналіз результатів окремих досліджень та аспектів прикладних застосувань проведено у співавторстві.

Апробація результатів дисертації. Основні результати виконаних досліджень були представлені на наступних науково-технічних конференціях:

Міжнародна науково-технічна конференція "Проблеми фізичної та біомедичної електроніки". - Київ, 1999.

3-я міжнародна науково-технічна конференція "Математичне моделювання в електротехніці та електроенергетиці". - Львів, 1999.

Міжнародна конференція "Сучасні проблеми засобів телекомунікації, комп'ютерної інженерії та підготовки кадрів" (TCSET 2000). - Львів-Славсько, 2000.

VI міжнародна науково-технічна конференція "Досвід розробки та застосування приладо-технологічних САПР в мікроелектроніці" (CADSM 2001). - Львів-Славсько, 2001.

Міжнародна науково-технічна конференція "Інформаційно-комп'ютерні технології 2002". - Житомир, 2002.

2-а науково-практична інтернет-конференція "Україна наукова 2002". – Дніпропетровськ, 2002.

Публікації. Результати дисертаційної роботи опубліковані у 10 наукових працях, у тому числі 6 статтях у фахових виданнях з переліку, затвердженого ВАК України, та 4 збірниках матеріалів науково-технічних конференцій.

Структура та обсяг роботи. Дисертація складається зі вступу, п'яти розділів, висновків, списку використаних джерел (173 найменування на 14 с.) та трьох додатків (16 с.). Загальний обсяг дисертації становить 188 с., обсяг основного тексту 150 с., дисертація містить 48 ілюстрацій на 30 с. та 14 таблиць на 12 с.

ОСНОВНИЙ ЗМІСТ ДИСЕРТАЦІЙНОЇ РОБОТИ

У вступі обґрунтовано актуальність проблеми покращання розпізнавання мовних сигналів та їх цифрової обробки, сформульовані мета та задачі досліджень, наведені відомості про наукову новизну, практичну цінність та апробацію отриманих результатів, публікацію матеріалів дисертації та впровадження її результатів.

У першому розділі наведено огляд наукових публікацій вітчизняних і зарубіжних авторів з проблем формування та математичного моделювання мовних сигналів, психоакустичних принципів їх сприйняття, особливостей представлення у часовій і спектральних областях, методів цифрової обробки мовних сигналів з метою вирішення практичних задач. Розглянуто основні методи цифрової обробки мовних сигналів у часовій та спектральних областях. Проведено порівняння і аналіз основних методів компресії та розпізнавання мовних сигналів з використанням різних методів їх обробки.

На основі аналізу стану проблеми встановлено, що необхідно проводити дослідження в області розробки нових та вдосконалення існуючих методів цифрової обробки мовних сигналів для ефективного використання їх у прикладних задачах.

У другому розділі розглянуто методи побудови еталонів мовних сигналів та їх дослідження.

Запропонований метод попередньої сегментації базується на порівнянні спектрів короткотривалих вікон аналізу цифрового мовного сигналу. Спектральний діапазон ділиться на дві частотні смуги: 1) 0.02-2.5 кГц та 2) 2.5-15 кГц. Ці діапазони вибрані виходячи з того, що спектр вокалізованих звуків, як правило, зосереджений в діапазоні 0.02-2,5 кГц, а невокалізованих - у діапазоні 2.5-15 кГц. Попередньо проводиться нормування енергії сигналів часових вікон. Порівняння спектрів проводилося методом кореляції спектрів у відповідних частотних діапазонах. Для прийняття рішення про наявність звукового сигналу вводиться порогове значення на рівні 20% максимальної короткочасної енергії сигналу. При цьому паралельно з поелементним часовим поділом мовного потоку відбувається відділення вокалізованих та невокалізованих мовних елементів, що є основною перевагою над існуючими методами.

За спектральною характеристикою визначаються параметри, що дозволяють значною мірою ідентифікувати мовний сигнал. До таких параметрів належить абсолютна ширина спектра , що визначається частотним діапазоном, в якому зосереджена основна частина енергії сигналу: . Середні значення абсолютної ширини спектра () для кількості вибірки 80 голосних звуків відображені у табл. 1. Для ідентифікації мовних сигналів використовуються також частоти формант, яким відповідають максимуми спектра.

Якщо параметри різних вікон вважати незалежними один від одного, то губиться інформація про динаміку мовних параметрів. Для врахування динамічної поведінки мовних сигналів використовуються дельта-параметри. Отримані в такий спосіб величини, що є похідними від основних параметрів, дозволяють підвищити інформативність сукупності параметрів сигналу. Вектор, сформований з основних та дельта-параметрів в кепстральній області, звичайно використовують як вектор вхідних параметрів в існуючих системах розпізнавання мови.

Еталонами у кепстральній області є перші (більш високі коефіцієнти практично нечутливі до змін у сигналі) кепстральні коефіцієнти (КК), які характеризують мовний сигнал, а також дельта-параметри - перша та друга похідні у часі від кадру до кадру.

Ефективна тривалість сигналу та ефективна ширина його спектру є самостійними параметрами, а їх добуток характеризує спектрально-часову невизначеність сигналу. Для квазіперіодичних мовних сигналів спектрально-часова невизначеність визначається для одного квазіперіоду. Для обчислення цих величин використовуються перший та другий моменти (в дискретному представленні):

; ; (1)

; , (2)

де - ефективна середина сигналу; - ефективна центральна частота; –відліки сигналу в дискретні моменти часу ; - крок часу; - крок частоти; сигнал нормований за питомою енергією.

Значення параметра сигналів, що відповідають класу голосних звуків та розраховані для еталонних звуків з частотою основного тону (ОТ) 120 Гц, наведені в табл. 1. За шириною смуги частот сигнали звуків "о" і "у", а також "е" і "и" мало відрізняються між собою, але суттєво відрізняються за спектрально-часовою невизначеністю (рис. 1), що дозволяє ці параметри використовувати разом.

Як додатковий запропоновано параметр, що базується на використанні ентропії спектру сигналу з нелінійною шкалою частот. Для отримання спектру мовних сигналів з нелінійною шкалою частот використовується банк фільтрів. Для кожного -го банку фільтрів обчислюється параметр як сума квадратів модулів вихідного спектру у відповідній смузі частот. Відповідно до моделі нелінійних принципів сприйняття отримана інтегральна спектральна енергетична характеристика апроксимується функцією:

, (3)

де – центральна частота в Гц спектральної складової .

Отримані значення нелінійного спектру нормуються так, щоб , що є умовою використання ентропії, де - кількість спектральних складових. Оцінка нелінійного спектру за критерієм ентропії проводиться за формулою:

. (4)

Значення ентропії спектру з нелінійною шкалою частот отримуються для поточного вікна аналізу.

У табл.1 наведені середні значення ентропії mel-спектру для голосних звуків, а також їх середньоквадратичні відхилення .

Ентропія спектру з нелінійною шкалою дозволяє оцінити його кількісно лише одним параметром і не вимагає великих затрат на виконання обчислювальних процедур, що є важливим для роботи у реальному масштабі часі.

Дослідження показали, що параметри і успішно можна використовувати як додаткові у системах розпізнавання мовних елементів, оскільки для відповідних груп мовних сигналів вони мають відносно стабільні значення та діапазони їх змін.

Третій розділ присвячений застосуванню апарату неперервного вейвлет-перетворення для обробки мовних сигналів.

Першою задачею при використанні НВП є вибір вейвлет-функції (ВФ), яка найкраще відображає локальні характеристики мовного сигналу. Цей вибір проводився за критерієм мінімального значення ентропії коефіцієнтів розкладу . Значення нормуються таким чином, щоб забезпечувалася умова: , де - кількість масштабів; - кількість зсувів аргументу. Ентропія множини коефіцієнтів визначається за формулою:

. (5)

Встановлено, що для аналізу мовних сигналів НВП за критерієм мінімального значення ентропії найкраще підходять ВФ Morlet і mexihat, оскільки вони добре відображають локальні властивості мовних сигналів і є подібними до них у часовому представленні.

ВФ при зсувах та зміні масштабу аргументу характеризуються постійною спектрально-часовою невизначеністю, яка характеризує фільтруючі властивості ВФ одночасно в обох областях, тобто визначає як часову локалізацію сигналу, так і спектральну. Значення для вейвлет-функції визначається виразом:

, (6)

де ; вейвлет-функції нормовані за енергією: .

Аналогічно визначається параметр вейвлет-функції в частотній області:

; , (7)

де - спектр вейвлет-функції.

Мінімальне значення параметра спектрально-часової невизначеності ВФ характеризує найкращі локалізуючі властивості в часі та фільтруючі у спектральній області. На основі проведених чисельних експериментів встановлено, що найкращими за даним параметром є ВФ Morlet та mexihat.

Пряме НВП може бути обчислене на основі часового або спектрального представлення. З точки зору обчислювальних затрат порівняльна ефективність залежить від ВФ та кількості дискретних значень сигналу. Для порівняння обчислювальних затрат прямого НВП в часовій (cwt) та спектральній (rwt) областях були проведені чисельні експерименти з різною кількістю дискретних відліків сигналу та двома ВФ: mexihat (рис. 2,а) та Morlet (рис. 2,б). Кількість масштабних коефіцієнтів для двох варіантів реалізації НВП була 40. Обчислення виконувались на ПК з тактовою частотою процесора 350 МГц.

Розроблено чисельний алгоритм реалізації оберненого НВП. На рис. 3 зображений деякий початковий сигнал (1) та результат його реконструкції (2) за допомогою оберненого НВП при використанні ВФ mexihat. Сигнал представляє собою нормований фрагмент мовного сигналу з частотою дискретизації 44,1 кГц та кількістю дискретних відліків 200. Значення масштабів, для яких обчислювалося

а) б)

Рис. 2. Залежність часу виконання НВП від кількості дискретних відліків

пряме НВП та реконструйовувався сигнал за допомогою оберненого НВП, становили: ; ; кількість масштабів ; послідовність масштабів утворює геометричну прогресію зі знаменником .

Кожна ВФ має певну тривалість, центральну псевдочастоту і густину розподілу спектру при відповідному масштабі. З погляду мінімального обсягу обчислень і максимальної інформативності коефіцієнтів розкладу необхідно, щоб спектри масштабованих функцій рівномірно перекривалися в частотній області за рівнем енергії в діапазоні 70–10000 Гц. У такому випадку отримається мінімальна кількість масштабних коефіцієнтів , які рівномірно фільтрують мовний сигнал. Поріг перекриття вибирається на рівні енергії відносно центральної псевдочастоти.

На рис. 4,а наведені спектри ВФ Morlet при двох значеннях масштабних коефіцієнтів (з відповідними центральними псевдочастотами =14 Гц і =28 Гц) з перекриттям спектрів на рівні . Центральні псевдочастоти відповідають масштабам , а та - частоти, що відповідають пороговому значенню енергії. Відомою є перша центральна псевдочастота , тобто нижня межа звукового діапазону частот мовних сигналів. Виходячи з доцільності перекриття спектральних смуг на одному рівні, отримуємо:

; ; . (8)

Таким чином, можна обчислити наступні значення масштабних коефіцієнтів ВФ, знаючи попередні значення масштабу і ширину спектру відносно центральної псевдочастоти на рівні .

На рис. 4,б показані спектри масштабованих вейвлет-функцій, що рівномірно перекриваються на рівні у звуковому діапазоні частот 70-5500 Гц для вейвлет-функції Morlet.

а) б)

Рис. 4. Спектри вейвлет-функцій Morlet (а) та масштабованих ВФ Morlet (б)

Розроблений спосіб вибору кроку масштабних коефіцієнтів забезпечує рівномірне виділення складових мовного сигналу у частотній області фільтрами ВФ та мінімальну кількість масштабних коефіцієнтів, що суттєво впливає на обсяг обчислень, не зменшуючи інформативності коефіцієнтів розкладу мовних сигналів.

Основними недоліками існуючих методів оцінки частоти основного тону є неточний контроль в реальному масштабі часу та громіздкість обрахунків. Використання методів вейвлет-обробки дозволяє проведення локального аналізу мовних сигналів, що дає можливість точного виділення квазіперіодів мовних сигналів за максимальними значеннями коефіцієнтів розкладу, визначення меж вокалізованих ділянок мовних сигналів для наступної їх обробки та інше. НВП для масштабного коефіцієнту, що відповідає частоті ОТ, набуде вигляду:

. (9)

де та - мінімальна та максимальні частоти основного тону; - крок дискретизації мовного сигналу; - центральна псевдочастота ВФ.

На підставі аналізу експериментальних даних можна зробити висновок, що найкращими для аналізу частоти ОТ за критерієм мінімальної ентропії є ВФ Morlet та мexihat. На рис. 5,а показаний мовний сигнал слова “час” з частотою дискретизації 22.5 кГц, а на рис. 5,б його розклад ВФ Morlet при масштабному коефіцієнті, який відповідає середній частоті ОТ 120 Гц. Аналізуючи відстань між максимумами коефіцієнтів розкладу (рис. 5,в) при масштабі , можна у реальному масштабі часу контролювати зміну частоти ОТ з максимальною точністю.

Для розкладу мовних сигналів доцільно будувати ВФ, що відповідають мінімальним смисловим одиницям мови – фонемам або квазіперіодам з погляду максимальної їх подібності до мовних сигналів. Вибір таких ВФ може здійснюватися на стадії попередньої обробки мовних сигналів. Основними перевагами використання фонем є незначна зміна їх тривалості, яка не буде суттєво впливати на результати вейвлет-розкладу, оскільки в цих межах можна змінювати масштабні коефіцієнти. ВФ, що відповідають фонемам відповідних звуків, будуть максимально корельованими з мовним сигналом. Побудовані ВФ на основі фонем з використанням НВП можна використовувати для систем розпізнавання мовних елементів.

У четвертому розділі представлено використання апарату дискретного вейвлет-перетворення (ДВП) для цифрової обробки мовних сигналів.

Однією з першочергових задач при використанні ДВП для цифрової обробки мовних сигналів є вибір базової ВФ. Критерієм такого вибору є, зокрема, мінімальна кількість підрівнів розкладу, яка несе суттєву інформацію про сигнал. Для цього необхідно оцінити кожний підрівень за критерієм мінімального значення ентропії.

При розкладі ДВП отримується набір коефіцієнтів апроксимації та коефіцієнтів деталей . Значення ентропії на кожному підрівні обчислюється окремо, а загальна ентропія на визначеному рівні є сумою цих значень:

, (10)

де - - номер рівня; - кількість коефіцієнтів підрівня.

На основі експериментальних результатів було вибрано за критерієм мінімальної ентропії ВФ сімейства Добеші db4 i db7 на 6-му рівні вейвлет-розкладу.

Для аналізу мовних сигналів найкращим рішенням було б максимально подібне виділення смуг частот ВФ, що відповідають нелінійному сприйняттю по mel-шкалі частот. Було побудовано дерево, яке забезпечує максимальну подібність ДВП до нелінійної mel-шкали. Побудоване дерево розкладу є найкращим для аналізу мовних сигналів з погляду нелінійного сприйняття мовних сигналів. Воно дозволяє визначити необхідні рівні і підрівні розкладу мовного сигналу та мінімізувати обсяг обчислень.

Компресія мовних сигналів з можливістю їх подальшого якісного відтворення є однією з важливих та актуальних задач перетворення мовних сигналів для їх передачі та зберігання. Запропонована процедура компресії та декомпресії мовних сигналів реалізовується у три етапи:

- на першому етапі здійснюється вибір ВФ і рівня , а також обчислення вейвлет-декомпозиції сигналу на рівні ;

- на другому етапі для кожного рівня від 1 до (апроксимацій і деталей), здійснюється вибір порогів коефіцієнтів;

- на третьому етапі реалізовується реконструкція, тобто відновлення сигналу за коефіцієнтами вейвлет-розкладу.

Вибір рівня декомпозиції мовного сигналу ґрунтується на мінімальній смузі частот, що відповідає частоті основного тону, яку охоплює один підрівень розкладу:

, (11)

де - ціла частина; - частота дискретизації мовного сигналу; - частота основного тону.

Для обчислення рівня порогу коефіцієнтів розкладу було використано адаптивний поріг, який визначається виразом:

, (12)

де - коефіцієнт порогу.

Коефіцієнти, що не перевищують значення порогу, вважаються такими, що не несуть інформацію про сигнал і прирівнюються до нуля.

Ефективність компресії характеризується двома основними показниками – рівень стискання та якість відтворення відносно вихідного сигналу.

Показники стискання кількісно характеризуються:

- відносним коефіцієнтом стискання -;

- кількістю ненульових коефіцієнтів у відсотках -;

- швидкістю передачі мовного сигналу -.

Якість стиснутого мовного сигналу характеризується наступними показниками:

- коефіцієнт кореляції між початковим та відновленим сигналом - ;

- середньоквадратична відстань -;

- збережена енергія коефіцієнтів ДВП у відсотках - ;

- відношення сигнал/шум- (дБ).

У табл. 2 наведені результати використання ДВП для компресії та декомпресії мовних сигналів. Для дослідження був вибраний дискретний мовний сигнал, що відповідає слову “частота” при частоті дискретизації 22.5 кГц і кількості рівнів квантування . Тривалість сигналу становила 0.6 сек. Кількість рівнів розкладу .

З експериментальних даних видно, що для компресії та декомпресії даного мовного сигналу найкращою з погляду коефіцієнту стискання (18 разів), якості відтвореного сигналу та з врахуванням обчислювальних затрат є ВФ ”db4”.

Використання дискретних вейвлет-перетворень дозволяє знизити рівень шумів, наявних у цифрових мовних сигналах. Обробка багаторазово записаних шумових сигналів показала, що вони описуються функцією нормального розподілу. Виходячи з цього, для моделювання шумів використовувався генератор псевдо-випадкових чисел з нормальним законом розподілу.

Табл. 2.

Параметри стискання мовних сигналів

Процедура зниження рівня шумів з використанням ДВП здійснюється подібно до процедури компресії та декомпресії. Для обчислення рівня порогу коефіцієнтів розкладу використано два методи. Фіксований поріг для підрівнів розкладу сигналу на рівні знаходиться за співвідношенням:

, (13)

де - середньоквадратичне відхилення передбачуваного шуму; - кількість відліків сигналу.

Адаптивний коефіцієнт порогу обчислюється за співвідношенням:

, (14)

де - коефіцієнт порогу; –коефіцієнти деталей.

Отримавши поріг для кожного підрівня на рівні L, виконуються порівняння коефіцієнтів розкладу з пороговим значенням T. Коефіцієнти, що не перевищують значення порогу, вважаються шумовою складовою сигналу і прирівнюються до нуля.

Оцінити якісно оброблений мовний сигнал можна шляхом експертного слухового сприйняття, а кількісно за такими самими показниками, як для компресії і декомпресії.

У даній роботі експерименти здійснювалися для голосних звуків, на які накладався білий шум з нормальним законом розподілу та нульовим середнім значенням . Результати експериментів наведені у табл. 3. Базовою функцією ДВП для зниження рівня шумів мовного сигналу була вибрана “db4”. Після процедури зниження рівня шумів проводилось порівняння початкового мовного сигналу з обробленим за функцією взаємної кореляції , середньоквадратичною відстанню , збереженою енергією коефіцієнтів ДВП у відсотках - , відношенням сигнал/шум - (дБ), а виділений з сигналу шум оцінювався за середньоквадратичним відхиленням та середнім значенням .

Табл. 3.

Результати експериментів по зниженню рівня шумів у мовних сигналах

За рахунок методу зниження рівня шумів при фіксованому порозі досягаються кращі результати для голосних та частини приголосних мовних сигналів, а адаптивний поріг краще використовувати для шиплячих, вибухових та частини інших приголосних. На слух краще сприймається фільтрований сигнал для фіксованого порогу. Деякий недолік такого підходу полягає у необхідності попередньої оцінки параметра шуму, створюваного середовищем та апаратними засобами формування сигналу. Отже, зменшення шуму у мовних сигналах дозволяє значно покращити ефективність цифрової обробки та сприйняття мовних сигналів.

У п’ятому розділі розглянуто особливості удосконалення та використання структур штучних нейронних мереж (ШНМ) для розпізнавання мовних сигналів.

Для класифікації мовних сигналів важливими є вимоги до ШНМ за ефективністю розпізнавання та часом навчання і роботи , оскільки мережа повинна працювати у реальному масштабі часу. За даними показниками виконано порівняння відомих структур ШНМ, встановлено, що однією з кращих є імовірнісна ШНМ.

Імовірнісна штучна нейронна мережа (ІШНМ) базується на оцінках густини розподілу ймовірності значень, при цьому вважається, що густина підпорядкована деякому закону розподілу (найчастіше – нормальному). Імовірнісна нейронна мережа має єдиний керуючий параметр навчання - відхилення гаусової функції .

Як параметри вхідних векторів існуючі системи розпізнавання мовних сигналів використовують кепстральні коефіцієнти. Запропоновано ввести додаткові вхідні параметри спектрально–часової невизначеності та ентропії з нелінійною шкалою частот.

Для покращання розпізнавання мовних сигналів формується структура ШНМ, яка враховує поведінку мовного сигналу в часі та використовує, крім основних, додаткові параметри. Структура ШНМ, наведена на рис. 6, дозволяє зменшити вплив шумів, реверберації, мінливості мовних сигналів та підвищити ефективність розпізнавання. У векторах вхідних параметрів попереднього і наступного шару нейронів використано похідні першого і другого порядку:

, (15)

, (16)

де P(t) – функція поведінки мовного сигналу в часі; - часовий крок дискретизації функції.

Використання похідних дозволяє ШНМ відтворювати не лише функцію відображення, але й траєкторію часу та перехідні процеси.

Процес розпізнавання мови базується на виділенні з мовного потоку характерних параметрів звуків чи окремих компонент (фонем, букв, слів) і їх групування. Після цього здійснюється співставлення отриманих параметрів звуків з еталонними параметрами звуків алфавіту, в результаті отримується система перетворення мови в текст. Від ефективності класифікації залежить ефективність роботи системи розпізнавання в цілому. Для оцінки функціонування класифікатора, тобто нейронної мережі, будується функція оцінки, яка явно залежить від вихідних сигналів мережі і неявно (через функціонування) - від усіх її параметрів.

В алгоритмах розпізнавання, як міра близькості, звичайно використовується середньоквадратична відстань між даним об'єктом і сукупністю об'єктів , які представляють кожен клас.

Функція класифікації ІШНМ при розпізнаному мовному елементі приймає значення 1, а при нерозпізнаному – 0. Ці значення співставляються з виділеними на слух елементами. Отже у такому випадку доцільно використовувати метод визначення відстані між ознаками, виділеними на слух та ІШНМ, для забезпечення кількісної оцінки якості розпізнавання.

Експериментальне навчання розпізнавання голосних звуків ІШНМ здійснено на основі п’ятдесяти вимовлених диктором речень. Розпізнавання голосних звуків з використанням ІШНМ проводилося для трьох варіантів вектора вхідних параметрів:

- 12 КК та енергія сигналу;

- 12 КК, енергія сигналу та їх перша і друга похідні;

- 12 КК, енергія сигналу, їх перша і друга похідні, параметр спектрально-часової невизна- ченості .

Для трьох вказаних варіантів векторів досліджувалися показники якості розпізнавання, а також час навчання і роботи ІШНМ в режимі розпізнавання голосних звуків. Ці результати наведені у табл. 4. На підставі аналізу експериментальних результатів можна зробити висно- вок, що найвища ефективність розпізнавання отримується при використанні значення енергії сигналу, 12 КК, їх дельта-пара- метрів та параметра спектрально–часової невизначеності .

Основним недоліком використання запропонованого вектора вхідних параметрів нейронної мережі є більший час навчання і роботи у порівнянні з першим та другим варіантами, але при цьому покращується ефективність розпізнавання.

Дослідження впливу шуму на процес розпізнавання ШНМ здійснено шляхом додавання нормально розподіленого шуму до мовного сигналу. На рис. 7 наведено залежність якості розпізнавання (%) ІШНМ мовних сигналів від середньоквадратичного відхилення , яке змінювалося у межах від 0,001 до 0,0055. З отриманих залежностей видно, що ІШНМ ефективно розпізнає звук для середньоквадратичного відхилення модельованого шуму до 0.0024 і цілком не розпізнає для >0.0044. Отже, для підвищення якості розпізнавання доцільно попередньо провести процедури зменшення рівня шумів використанням апарату ДВП.

ВИСНОВКИ

У дисертаційній роботі розвинуто підходи вирішення задач цифрової обробки мовних сигналів з використанням апарату вейвлет-перетворень і нейронних мереж для розпізнавання та компресії мовних сигналів. Нижче перераховані основні висновки та результати дисертаційної роботи:

1. Вдосконалено метод попередньої сегментації мовних сигналів на основі аналізу спектральних характеристик їх елементів, який відрізняється від відомих тим, що базується на кореляційному аналізі спектрів сусідніх сегментів і дозволяє точніше виділяти межі елементів мовних сигналів.

2. Запропоновано нові параметри спектрально-часової невизначеності та ентропії спектру часового вікна мовних сигналів з логарифмічною шкалою частот, використання яких разом з відомими параметрами дозволило на 2-6% підвищити ефективність розпізнавання голосних звуків.

3. Розроблено методику вибору вейвлет-функцій для задач цифрової обробки та аналізу мовних сигналів на основі критеріїв мінімальної ентропії коефіцієнтів розкладу та показника частотно-часової локалізації вейвлет-функцій.

4. Розроблено та обґрунтовано методику вибору кроку масштабних коефіцієнтів НВП з точки зору рівномірного перекриття частотного діапазону мовних сигналів масштабованими вейвлет-функціями, що дозволило ефективніше аналізувати мовні сигнали та зменшити об'єм обчислень, проводити аналіз та контроль зміни частоти основного тону.

5. Розроблені чисельні алгоритми побудови вейвлет-функцій, що відповідають фонемам звуків, та реалізації оберненого НВП, які дозволяють реалізувати процедури вейвлет-фільтрації мовних сигналів для виявлення тонкої частотної структури мовних сигналів з метою ідентифікації відповідних смислових елементів.

6. Модифіковано та адаптовано до цифрової обробки мовних сигналів метод дискретного вейвлет-перетворення на основі вибору ортонормованого вейвлет-базису за критерієм мінімальної ентропії коефіцієнтів на масштабованих рівнях розкладу та врахування особливостей слухового сприйняття, що дозволило знизити рівень шумів та підвищити коефіцієнт компресії мовного сигналу до 18-20 разів при задовільній якості відтворення.

7. Побудована ШНМ дозволяє враховувати, крім основних параметрів, додаткові та їх динаміку у часі, за рахунок чого підвищилася ефективність розпізнавання нейронною мережею елементів мовних сигналів на 2-6%. На роботу ШНМ негативно впливають шумові складові мовного сигналу, внаслідок чого для забезпечення ефективного розпізнавання елементів мовного потоку доцільно попередньо використовувати процедури зниження рівня шумів за рахунок використання апарату ДВП.

СПИСОК ОПУБЛІКОВАНИХ ПРАЦЬ ЗА ТЕМОЮ ДИСЕРТАЦІЇ

1. Романишин Ю.М., Гудим В.В. Часові та спектральні характеристики мовних елементів для побудови шаблонів // Електроніка та зв'язок. Тематичний випуск журналу. - 1999. - № 6. - Т. 1. - С. 227-230.

2. Смердов А., Романишин Ю., Гудим В., Крижанівський В. Спектрально-часова невизначеність двополярних сигналів / Вісник Державного університету "Львівська політехніка", № 367. Серія “Радіоелектроніка та телекомунікації”. - Львів, 1999. - С. 18-22.

3. Романишин Ю., Гудим В. Цифрова обробка мовних сигналів / Вісник Державного університету “Львівська політехніка”, № 387. Серія “Радіоелектроніка та телекомунікації”. - Львів, 2000. - С. 319-323.

4. Романишин Ю., Гудим В. Компресія мовних сигналів на основі дискретних хвильових перетворень / Вісник Національного університету “Львівська політех-ніка”, № 428. Серія “Радіоелектроніка та телекомунікації”. - Львів, 2001. – С. 22-27.

5. Гудим В.В., Романишин Ю.М. Побудова нейронної мережі для обробки мовних сигналів / Вісник Житомирського інженерно-технологічного інституту. Технічні науки. Спеціальний випуск - 2002.- Житомир, 2002. - С. 186-191.

6. Романишин Ю.М., Гудим В.В. Розрахунок двополюсних резистивних структур прямокутної форми методом конформних перетворень / Вісник Державного університету "Львівська політехніка", № 352. Серія “Радіоелектроніка та телекомунікації”. - Львів, 1998. - С.101-104.

7. Romanyshyn Yu., Gudym V. Digital Processing and Identification of Speech Signals /Proceedings of International Conference on Modern Problems of Telecommunications, Computer Science and Engineering Training. - Lviv-Slavsko, Ukraine, 2000. – P. 136–137.

8. Romanyshyn Yu., Hudym V. Wavelet Transforms Applications for Speech Signals Processing / The Experience of Designing and Application of CAD Systems in Microelectronics. Proceedings of the VI-th International Conference CADSM 2001. - Lviv-Slavsko, Ukraine, 2001. – P. 297–298.

9. Романишин Ю., Гудим В. Особливості спектральних характеристик мовних сигналів / Тези доповідей 3-ї міжнародної науково-технічної конференції "Математичне моделювання в електротехніці та електроенергетиці". - Львів: ДУ "ЛП", 1999. - С. 234.

10. Романишин Ю.М., Гудим В.В., Данчишин І.В., Романишин О.І. Порівняння спектрально-часових властивостей хвильових функцій / Матеріали 2-ї науково-практичної інтернет-конференції “Україна наукова 2002”, т. 12. Дніпропетровськ: Наука і освіта, 2002 - С. 21-24.

АНОТАЦІЯ

Гудим В.В. Використання вейвлет-перетворень та нейронних мереж для обробки та покращання розпізнавання мовних сигналів – Рукопис.

Дисертація на здобуття наукового ступеня кандидата технічних наук за спеціальністю 05.12.13 – радіотехнічні пристрої та засоби телекомунікацій – Національний університет “Львівська політехніка”, Львів, 2003.

Дисертаційна робота присвячена вирішенню важливої й актуальної задачі покращання ефективності розпізнавання мовних сигналів та їх компресії за допомогою засобів цифрової обробки, розроблених на основі апарату вейвлет-перетворень та штучних нейронних мереж.

Для досягнення поставленої мети проведено аналіз математичних моделей формування та сприйняття мовних сигналів і використання цих моделей у задачах цифрової обробки. Вдосконалено метод попередньої сегментації сигналів. Запропоновано нові (для мовних сигналів) параметри спектрально-часової невизначеності та ентропії спектру часового вікна з нелінійною (логарифмічною) шкалою частот. Побудовано новий принцип застосування НВП для цифрової обробки та аналізу мовних сигналів. Проведено попередній вибір ВФ за критерієм мінімальної ентропії коефіцієнтів вейвлет-перетворення та частотно-часової локалізації ВФ. Модифіковано та адаптовано метод ДВП для задач компресії, декомпресії та зниження рівня шумів. Подальший розвиток отримало застосування ШНМ для обробки та розпізнавання елементів мовних сигналів на основі введення нових, запропонованих та досліджених складових вектора вхідних параметрів.

Проведено комп’ютерні експерименти, їх аналіз та порівняння з відомими результатами. Результати теоретичних досліджень підтверджено експериментально.

Ключові слова: мовні сигнали, вейвлет-функції, вейвлет-перетворення, ентропія, штучні нейронні мережі, компресія, декомпресія, зниження рівня шумів.

АННОТАЦИЯ

Гудым В.В. Использование вейвлет-преобразований и нейронных сетей для обработки и улучшения распознавания речевых сигналов – Рукопись.

Диссертация на соискание ученой степени кандидата технических наук по специальности 05.12.13 – радиотехнические устройства и средства телекоммуникаций – Национальный университет “Львовская политехника”, Львов, 2003.

Диссертационная работа посвящена решению важной и актуальной задачи улучшения эффективности распознавания речевых сигналов и их компрессии средствами цифровой обработки, разработанными на основе аппарата вейвлет-преобразований и искусственных нейронных сетей.

Для достижения поставленной цели проведен анализ математических моделей формирования и восприятия речевых сигналов и использования этих моделей в задачах цифровой обработки. Усовершенствован метод предварительной сегментации сигналов. Предложены новые (для речевых сигналов) параметры спектрально-временной неопределенности и энтропии спектра временного окна с нелинейной (логарифмической) шкалой частот. Построен новый принцип применения непрерывного вейвлет-преобразования для цифровой обработки и анализа речевых сигналов. Проведен предварительный выбор вейвлет-функций (ВФ) по критерию минимальной энтропии коэффициентов вейвлет-преобразования и частотно-временной локализации ВФ. Модифицирован и адаптирован метод дискретного вейвлет-преобразования для задач компрессии, декомпрессии и снижения уровня шумов. Последующее развитие получило применение искусственных нейронных сетей для обработки, классификации и распознавания элементов речевых сигналов на основе введения новых, предложенных и исследованных составляющих вектора входных параметров.

Проведены компьютерные эксперименты, их анализ и сравнение с известными результатами. Результаты теоретических исследований подтверждены экспериментально.

Ключевые слова: речевые сигналы, вейвлет-функции, вейвлет-преобразование, энтропия, искусственные нейронные сети, компрессия, декомпрессия, снижение уровня шумов.

ANNOTATION

Gudym V.V. The use of wavelet transformations and neural networks for processing and improvement of recognition of speech signals – Manuscript.

The dissertation on gaining the scientific degree of candidate of the engineering sciences in speciality 05.12.13 – radiotechnical devices and telecommunication facilities – Lviv Polytechnic National University, Lviv, 2003.

The dissertation work is devoted to the decision of the important and actual task of improvement

Сторінки: 1 2

��
��...

Наступні 7 робіт по вашій темі:

▪ ЕМФІТЕВЗИС У РИМСЬКОМУ ПРАВІ ТА ЙОГО РЕЦЕПЦІЯ У ПРАВІ УКРАЇНИ - Автореферат - 27 Стр.
▪ ВПЛИВ МОДИФІКАТОРІВ (HgSe, Cu2Se) НА ФІЗИЧНІ ВЛАСТИВОСТІ СКЛОПОДІБНОГО ДИСЕЛЕНІДУ ГЕРМАНІЮ - Автореферат - 21 Стр.
▪ СТРАТЕГІЧНЕ ПЛАНУВАННЯ СІЛЬСЬКОГОСПОДАРСЬКОГО ВИРОБНИЦТВА У СИСТЕМІ ДЕРЖАВНОГО УПРАВЛІННЯ - Автореферат - 27 Стр.
▪ ФЕНОМЕН ТРАНСГРЕСІЙ МОДЕРНУ: СОЦІАЛЬНО-ФІЛОСОФСЬКИЙ АНАЛІЗ - Автореферат - 40 Стр.
▪ СИСТЕМА СОЦІАЛЬНО-МОРАЛЬНОЇ РЕГУЛЯЦІЇ У ЗБРОЙНИХ СИЛАХ УКРАЇНИ: СОЦІАЛЬНО-ФІЛОСОФСЬКИЙ АНАЛІЗ - Автореферат - 25 Стр.
▪ ВЗАЄМОДІЯ КОМПОНЕНТІВ У СИСТЕМАХ U–{Co, Ni, Cu}–In ТА СПОРІДНЕНИХ ДО НИХ - Автореферат - 24 Стр.
▪ ПСИХОЛОГІЧНІ ЧИННИКИ ФОРМУВАННЯ ЕТНІЧНОЇ СВІДОМОСТІ У ЮНАЦЬКОМУ ВІЦІ - Автореферат - 26 Стр.