Автореферат РОЗРОБКА МЕТОДІВ АНАЛІЗУ, РОЗПІЗНАВАННЯ ТА СТИСНЕННЯ НЕСТАЦІОНАРНИХ ЗВУКОВИХ СИГНАЛІВ

Автореферат - РОЗРОБКА МЕТОДІВ АНАЛІЗУ, РОЗПІЗНАВАННЯ ТА СТИСНЕННЯ НЕСТАЦІОНАРНИХ ЗВУКОВИХ СИГНАЛІВ

Загрузка...

МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ

НАЦІОНАЛЬНИЙ АВІАЦІЙНИЙ УНІВЕРСИТЕТ

ПРОКОПЕНКО КОСТЯНТИН ІГОРОВИЧ

УДК 621.391:519.72 (043.3)

РОЗРОБКА МЕТОДІВ АНАЛІЗУ, РОЗПІЗНАВАННЯ

ТА СТИСНЕННЯ НЕСТАЦІОНАРНИХ ЗВУКОВИХ СИГНАЛІВ

05.13.06 – Автоматизовані системи управління

та прогресивні інформаційні технології

Автореферат дисертації на здобуття наукового ступеня

кандидата технічних наук

Київ – 2006

Дисертацією є рукопис.

Робота виконана в Національному авіаційному університеті Міністерства освіти і науки України.

Науковий керівник:

Давлет’янц Олександр Іванович, доктор технічних наук, професор, Національний Авіаційний університет

Офіційні опоненти:

Баранов Георгій Леонідович, доктор технічних наук, професор, лауреат Державної премії України в галузі науки і техніки, заступник директора ЦНДІ "Навігація і управління"

Шелевицький Ігор Володимирович, доктор технічних наук, доцент кафедри економічної кібернетики Криворізького економічного інституту Київського національного економічного університету

Провідна установа:

Одеський державний політехнічний університет Міністерства освіти і науки України

Захист відбудеться 10 жовтня 2006 р. о 14 годині на засіданні спеціалізованої вченої ради Д26.062.01 при Національному авіаційному університеті за адресою: 03680, м. Київ, проспект Космонавта Комарова, 1.

З дисертацією можна ознайомитись у бібліотеці Національного авіаційного університету за адресою: 03680, м. Київ, проспект Космонавта Комарова, 1.

Автореферат розісланий 8 вересня 2006 р.

Учений секретар спеціалізованої вченої ради,

к.т.н., доцент |

В.С. Єременко

Загальна ХАРАКТЕРИСТИКА роботи

Актуальність теми. Дисертаційна робота присвячена розробці методів ефективної обробки нестаціонарних сигналів звукового діапазону частот з метою вирішення задачі сегментації звукових сигналів на фрагменти стаціонарності, задачі розпізнавання мовних сигналів та задачі стиснення звукових сигналів у цифрових системах зв’язку, зокрема в каналах обміну мовними повідомленнями автоматизованих систем управління повітряним рухом (АСУ ПР) (рис.1).

Рис. 1. Структурна схема АСУ ПР. Д1, Д2…- датчики.

Актуальність теми підтверджує велика кількість наукових досліджень та винаходів в галузі обробки звукових сигналів. Сфера застосування таких методів містить в собі досить багато прикладних напрямків, пов’язаних з обробкою звукових сигналів. Це, наприклад, передача каналами зв’язку, вимірювання, фільтрація, розпізнавання, стиснення, захист від несанкціонованого доступу. В свою чергу, кожен з цих прикладних напрямків висуває ряд задач, які або зовсім не вирішені, або потребують суттєвої оптимізації. Наприклад, задача розпізнавання мовних сигналів (мовних команд), незважаючи на велику кількість наукових та практичних робіт, на сьогодні є вирішеною лише частково, і з суттєвими обмеженнями. Вагомі результати в цій галузі отримані відомими фахівцями, такими як Вінцюк Т.К, Загоруйко М.Г., Величко В.Г., Карпов О.М., та інші.

Задачі обробки сигналів звукового діапазону частот виникають також в метеорадіолокації при обробці допплерівських сигналів, відбитих від метеоутворень. В цьому напрямку успішно працюють такі фахівці, як Яновський Ф.Й., Лігхард Л.П., Прокопенко І.Г.

В інформаційних системах, що використовуються в цивільній авіації, для мовної передачі метеоінформації, документування диспетчерських мовних повідомлень, документування переговорів у каналі „борт-земля” багато уваги приділяється проблемам реєстрації, автоматичного розпізнавання і зберігання великого обсягу повідомлень.

Зазначені напрямки вимагають створення ефективних алгоритмів розпізнавання і стиснення сигналів звукового діапазону.

В дисертації розв’язується актуальна науково-технічна задача, спрямована на створення нових ефективних методів і алгоритмів сегментації, розпізнавання та стиснення нестаціонарних звукових сигналів.

При розробці методів і алгоритмів обробки нестаціонарних звукових сигналів використовується апарат теорії ймовірностей і математичної статистики.

Зв’язок роботи з науковими програмами, планами, темами. Участь в НДР.

Робота виконувалася згідно з планами науково-дослідних робіт, пов’язаних з розробкою інформаційних систем та охоронних систем:

№12/057 “Розробка автоматизованої системи інформування пасажирів транспортних комплексів і документування мовних повідомлень”, № Держреєстрації 0102U00358;

№448-ГТ93 “Розробити і впровадити в одному із аеропортів України систему контролю шуму від літаків на місцевості”, № Держреєстрації 194U27175;

№10-ДБ03 “Розробка цифрової системи відеоспостереження та її впровадження на прикладі спостереження за об’єктами на території НАУ”, № Держреєстрації 0103U000691.

Метою дослідження дисертаційної роботи є розробка методів і алгоритмів обробки звукових сигналів для підвищення ефективності використання цифрових каналів зв’язку та апаратно-програмних засобів реєстрації і аналізу сигналів звукового діапазону частот в інформаційних системах.

Основні задачі дослідження:

1. Побудова математичної моделі нестаціонарного звукового сигналу;

2. Розробка методів і синтез алгоритмів оцінювання моментів зміни характеристик нестаціонарного звукового сигналу (моментів розладки);

3. Розробка методів і синтез алгоритмів розпізнавання звукових сигналів;

4. Розробка методів і синтез алгоритмів стиснення звукових сигналів;

5. Розробка апаратно-програмного комплексу реєстрації, аналізу та обробки звукових сигналів;

6. Проведення експериментальних досліджень сигналів мови, шумів авіаційних двигунів, акустичних сигналів в охоронних та інших системах.

Об’єктом дослідження є нестаціонарні звукові сигнали в цифрових системах обробки і передачі інформації, зокрема в каналах обміну мовними повідомленнями АСУ ПР, системах зв’язку та охоронної сигналізації, системах акустичного моніторингу.

Предметом дослідження є методи і алгоритми оцінювання моментів зміни характеристик нестаціонарного звукового сигналу, а також методи і алгоритми аналізу, розпізнавання та стиснення звукових сигналів.

Методи наукового аналізу. При розв’язанні задач використано методи теорії сигналів, теорії ймовірностей, математичної статистики, методи імітаційного моделювання, а також сучасні комп’ютерні технології. Результати теорії було підтверджено експериментальними дослідженнями.

Наукова новизна дисертаційної роботи:

1. Запропоновано нову математичну модель нестаціонарного звукового сигналу, що представляє нестаціонарний звуковий сигнал як марківську послідовність відрізків реалізацій стаціонарних випадкових процесів випадкової тривалості;

2. Вперше запропоновано метод виявлення моментів розладки нестаціонарного звукового сигналу, заснований на інваріантній до потужності сигналу статистиці;

3. Вперше запропоновано метод виявлення моментів розладки нестаціонарного звукового сигналу, заснований на інваріантній до закону розподілу ранговій статистиці;

4. Запропоновано новий метод розпізнавання нестаціонарних звукових сигналів, що базується на короткочасному перетворенні Фур’є та застосуванні методу максимальної правдоподібності у спектральній області;

5. Запропоновано модифікацію методу адаптивного стиснення звукових сигналів, що базується на логарифмічній дельта-модуляції;

6. Запропоновано новий метод адаптивного стиснення звукових сигналів із використанням розкладання за базисними функціями на бінарному розбитті реалізації звукового сигналу.

Практична цінність матеріалів дисертаційної роботи. Методи та алгоритми адаптивного стиснення нестаціонарних звукових сигналів, що запропоновані в дисертаційній роботі, дозволяють створювати програмні та апаратні засоби для підвищення ефективності використання каналів зв’язку в АСУ ПР, системах автоматичного розпізнавання звукових сигналів, системах акустичного моніторингу та охоронних системах.

На основі запропонованих методів розроблені алгоритми і реалізуючі їх програми для ефективного стиснення сигналів. Алгоритми і програми можуть бути використані в інформаційних системах для ущільнення цифрових каналів зв'язку, а також в апаратурі реєстрації (документування) звукових сигналів.

За результатами проведених досліджень розроблене алгоритмічне і програмне забезпечення лабораторних робіт, а також методичні вказівки по їхньому виконанню.

Розроблено та впроваджено алгоритми вимірювання характеристик шумового забруднення в зоні аеропорту і розпізнавання типів літаків.

Розроблено та впроваджено алгоритм двовимірної фільтрації та стиснення цифрових рентгенівських зображень в системах комп’ютерної флюорографії.

Особистий внесок здобувача. Основні положення і результати дисертаційної роботи отримані автором самостійно. У наукових працях, опублікованих у співавторстві, дисертантом зроблене наступне: розроблено метод представлення НЗС у вигляді розкладу за власними функціями кореляційного оператора [2], розроблено алгоритм двовимірної фільтрації і розпізнавання сигналів [4], розроблено програмно-апаратний комплекс обробки звукових сигналів [3], запропоновано ефективні алгоритми виявлення турбулентних зон та метеоутворень в атмосфері [1,7,8,12,13], розроблено метод аналізу рівня шумового забруднення навколишнього середовища [6], запропоновано модель мовних повідомлень в мережах стільникового зв’язку [9], обґрунтовано апроксимацію розподілу експериментальних даних [10].

Апробація результатів роботи. Основні результати роботи доповідались та обговорювались на міжнародних і республіканських, конференціях і семінарах, у тому числі: на III міжнародної науково-технічної конференції, АВИА-2001 (Київ, 2001); IV міжнародної науково-технічної конференції, АВИА-2002 (Київ, 2002); V міжнародної науково-технічної конференції, АВИА-2003 (Київ, 2003),V міжнародної науково-технічної конференції, АВИА-2004 (Київ, 2004), Міжнародній науково-технічній конференції "Теорія і методи обробки сигналів", 18 – 20 травня 2005 г. (Київ, 2005), семінарах кафедр інформаційно-вимірювальних систем ІІДС та радіоелектроніки НАУ (Київ, 2002 - 2005).

Структура і обсяг роботи. Дисертація складається із вступу, 5 розділів, висновків, списку літератури і додатків, містить 120 сторінок основного тексту, 5 таблиць, 51 малюнок і перелік використаних джерел із 98 найменувань на 8 сторінках.

ЗМІСТ ДИСЕРТАЦІЙНОЇ РОБОТИ

В першому розділі дисертаційної роботи проаналізовано характеристики властивостей різних типів звукових сигналів. Проведено аналіз звукових сигналів в системах передачі мовних повідомлень, акустичного моніторингу, метеорадіолокаційного спостереження та охоронних системах. Показано, що в більшості випадків нестаціонарний звуковий сигнал можна вважати локально-стаціонарним на відносно коротких проміжках часу (10..20 мс).

Розглянуто лінійну модель мовотворення Фанта, де мовні сигнали розглядаються як нестаціонарні випадкові процеси. Історично однією з перших моделей мовного сигналу є стаціонарний гаусівський вузькосмуговий процес. В цій моделі використовуються усереднені по часу характеристики мовного потоку. Оскільки мова містить багато пауз, то більш точною моделлю буде негаусівський випадковий процес, одновимірна щільність якого складається з двох складових, одна з яких відповідає паузам, а друга – голосу.

В розділі наведено характеристику та класифікацію основних задач обробки звукових сигналів - задача сегментації, задача ідентифікації та задача стиснення акустичних подій та мовних повідомлень в цифрових каналах зв’язку та системах документування.

Побудова математичної моделі нестаціонарного звукового сигналу (НЗС). Математична модель НЗС будується як локально-стаціонарний випадковий процес.

Нехай - випадкові стаціонарні процеси, що відповідають набору елементарних звукових складових (ЕЗС). Відомо, що функція розподілу одновимірного випадкового процесу x(t) описується виразом:

а функція розподілу багатовимірного випадкового процесу записується у

вигляді:

де n – кількість відліків процесу у дискретні моменти часу.

Термін „стаціонарний процес” позначає процес, що відповідає наступній умові:

, для будь-яких значень .

Елементарною звуковою складовою (ЕЗС) вважається стаціонарний випадковий процес, що характеризується своєю функцією розподілу. Тоді нестаціонарний мовний сигнал X(t) можна представити у наступному вигляді:

, (1)

де l(t) – номер ЕЗС або - керуючий випадковий процес (марківський ланцюг із дискретною множиною значень {1..m}), - індикаторна функція.

Іншими словами, нестаціонарним звуковим сигналом вважається послідовність ЕЗС у часі, причому процес зміни ЕЗС задається реалізацією марківського ланцюга l(t).

Згідно визначенню моделі (1), l(t) змінює свій стан у моменти часу t=n, 2n, 3n,..., тобто через рівномірні проміжки часу. Як марківський процес, l(t) характеризується матрицею ймовірностей переходів .

Модель ЕЗС. Кожна з m ЕЗС, як випадковий стаціонарний процес, характеризується n-вимірною функцією розподілу ймовірностей. ЕЗС є гаусівськими випадковими процесами, які відрізняються своїми коваріаційними функціями.

де - двовимірна гаусівська щільність розподілу випадкового процесу.

Багатовимірна щільність вибірки гаусівського процесу, що моделює l-ту ЕЗС, визначається виразом:

де – коваріаційна матриця, що відповідає l-й фонемі, - визначник коваріаційної матриці, - елементи матриці, оберненої до коваріаційної матриці.

Другий розділ дисертаційної роботи присвячений розробці методів і алгоритмів сегментації нестаціонарних звукових сигналів. Згідно з моделлю (1), в межах однієї ЕЗС спектри фрагментів, з яких складається реалізація цієї ЕЗС, змінюються в невеликих межах, в той час як зміна ЕЗС призводить до істотної зміни спектральних характеристик. В дисертаційній роботі запропоновані методи пошуку моментів переходу, що базуються на оцінці статистичних характеристик спектру при рівномірному розбитті звукового сигналу на часові інтервали. Для цього розроблено комп’ютерну модель звукових сигналів і досліджено розподіли ймовірностей потужності спектральних складових сигналу. Показано, що для ефективного вирішення задачі сегментації логарифми щільностей потужності при певних обмеженнях можуть бути апроксимовані гаусівським законом розподілу ймовірностей.

Синтезовано інваріантний алгоритм сегментації нестаціонарного звукового сигналу, виходячи з гаусівської моделі розподілу логарифмів спектральних характеристик ЕЗС. При синтезі алгоритму використовуються два послідовних ковзних вікна, в яких запам’ятовуються вибірки . Відносно цих вибірок перевіряється статистична гіпотеза H0 про рівність двох коваріаційних матриць Rx i Ry .

Відомо, що алгоритм перевірки гіпотези H0 про рівність двох коваріаційних матриць Rx i Ry полягає у обчисленні відношення середньо-геометричного і середнього арифметичного детермінантів вибіркових коваріаційних матриць , збудованих по вибірках :

є достатніми статистиками для коваріаційних матриць Rx i Ry. Тобто, вони містять всю необхідну інформацію для задачі перевірки гіпотези . На практиці отримання значень детермінантів вибіркових коваріаційних матриць пов’язано із значною кількістю обчислень, тому у більшості випадків цей метод не є ефективним. Як відомо, значення коваріаційної функції взаємооднозначно пов’язані з енергетичним спектром сигналу через пряме і обернене перетворення Фур’є. З цього випливає, що оцінки енергетичного спектру, побудовані по вибірках також містять всю необхідну інформацію для вирішення задачі перевірки гіпотези H0. Цей факт надає можливість суттєво скоротити кількість операцій завдяки обчисленню оцінок енергетичного спектру замість детермінантів матриць . В другому розділі досліджено закон розподілу значень логарифмів оцінок потужностей спектральних складових НЗС

де

і .

За методом Монте-Карло поставлено і проведено експеримент. За критерієм показано, що на етапі синтезу алгоритму сегментації можна прийняти гіпотезу про нормальність розподілу логарифму потужностей спектральних складових ЕЗС.

Розглянуто дві альтернативні статистичні гіпотези:

- розподіли значень логарифмів оцінок потужності спектральних складових звукового сигналу в сусідніх вікнах аналізу співпадають;

- розподіли значень логарифмів оцінок потужності спектральних складових звукового сигналу в сусідніх вікнах аналізу відрізняються параметром зсуву .

Наступним кроком отримано вираз для вирішувального правила:

. (2)

Оскільки зсув може приймати як додатні так і від’ємні значення, двостороннє вирішувальне правило визначається порівнянням модуля статистики (2) з порогом прийняття рішення Vp

(3)

Проведено аналіз ефективності інваріантного алгоритму. Для цього як проміжний результат доведено, що дисперсія логарифмічного перетворення випадкової величини не залежить від зміни масштабу. За цим фактом виводиться аналітичний вираз для розрахунку порогу прийняття рішення:

, (4)

де , - оцінки потужності спектральних складових в двох сусідніх ковзних вікнах, - квантиль рівня нормованого гаусівського розподілу, - імовірність хибної тривоги,

Структурна схема пристрою, що реалізує алгоритм виявлення розладки мовного сигналу, наведена на рис. 2.

В другому розділі дисертаційної роботи також проводиться синтез непараметричного рангового алгоритму виявлення розладки випадкового процесу для оцінювання моментів зміни ЕЗС. У загальному випадку, розподіли спектральних коефіцієнтів в суміжних вікнах невідомі, тому для синтезу алгоритму необхідно скористатися методами непараметричної статистики.

Задача виявлення розладки нестаціонарного звукового сигналу полягає в перевірці непараметричних статистичних гіпотез відносно розподілів коефіцієнтів розкладу відрізків сигналу на суміжних ділянках. Для синтезу непараметричної процедури організується (p+1) вікон і в кожному обчислюється амплітудний спектр. Значення оцінок амплітуд утворюють матрицю А з (n/2+1)-го векторів-стовпчиків.

Рис.2. Структурна схема інваріантного алгоритму сегментації

Координати -го вектора є оцінками амплітуди -ї гармоніки, що отримані в (p+1) вікнах. Гіпотеза H0 полягає в тому, що розподіли спектральних коефіцієнтів в k -му і в (k-1),...,(k-p)-му вікнах співпадають

Гіпотеза H1 полягає в тому, що розподіли спектральних коефіцієнтів в k -му і в (k-1),...,(k-p)-му вікнах різні

Для перевірки непараметричних гіпотез H0 і H1 про розподіл елементів матриці А запропоновано використовувати рангову статистику

де - ранг оцінки амплітуди і-ї гармоніки в k-му вікні по відношенню до оцінок амплітуди цієї ж гармоніки , отриманих в попередніх p вікнах.

Алгоритм виявлення моменту розладки полягає в обчисленні статистики L(A) і порівнянні її з порогом прийняття рішення - . У випадку перевищення порога статистикою L(А) алгоритм генерує одиницю, що означає прийняття гіпотези H1. В протилежному випадку приймається гіпотеза H0.

Проведено розрахунок порогу прийняття рішення:

де - квантиль рівня 1-/2 нормованого гаусівського розподілу.

Ефективність непараметричного алгоритму досліджено експериментально. Характеристика виявлення зображені на рис.3.

Застосування методів сегментації для радіолокаційного виявлення турбулентних зон в метеоутвореннях. Складні метеоумови значно впливають на безпеку польотів повітряних суден (ПС). Одним з найнебезпечніших і найбільш поширених метеорологічних факторів, що впливає на політ ПС, є атмосферна турбулентність.

Рис. 3. Характеристика виявлення моменту розладки НЗС

Більшість небезпечних атмосферних турбулентних зон розміщується усередині або поблизу хмар та опадів, які можна виявити за допомогою радіолокаторів. Вважається, що турбулентні вихорі захоплюють радіолокаційні розсіювачі в свій рух, тому турбулентність викликає збільшення дисперсії швидкості гідрометеорів в об’ємі, що розсіює. Це, в свою чергу, веде до розширення допплерівського спектра, який залежить від розподілу радіальних швидкостей гідрометеорів, зваженого на їхню відбиваність та функцію форми роздільного об’єму. Спектр відбитого сигналу має складну форму, яка залежить від розподілу відбивачів по розмірах і від структури турбулентності. Спектр сигналу на виході детектора в допплерівських метеорологічних радіолокаторах знаходиться в області звукових частот [1,7,8].

Для метеорологічної РЛС TARA, що розроблена в Делфтському технічному університеті (Нідерланди), з несучою частотою 3 GHz ширина допплерівського спектру, обумовленого турбулентністю в метеоутвореннях, може сягати 200 Гц.

Для сегментації простору спостереження на зони з різною турбулентністю застосовано алгоритм сегментації (3), який виявляє зміни спектру потужності сигналу [7,8]. Розроблений алгоритм (3) виявлення турбулентних зон був використаний для обробки даних, отриманих за допомогою атмосферного радіолокатора TARA, який є допплерівським поляриметричним радаром з несучою частотою 3 ГГц.

Третій розділ дисертаційної роботи присвячений розробці методів і синтезу алгоритмів розпізнавання НЗС. В цьому розділі пропонуються статистичні методи розпізнавання, що ґрунтуються на дослідженні розподілів ймовірностей характерних ознак об’єктів розпізнавання. Як такі характерні ознаки пропонується розглядати спектральні характеристики сигналів. Аналіз НЗС відбувається на розбитті вхідної реалізації на рівномірні фрагменти аналізу довжиною 20-30 мс (розділ 1). Задача розпізнавання ЕЗС полягає в ідентифікації ЕЗС із заданої множини із m ЕЗС на поточному фрагменті реалізації НЗС.

Для розпізнавання ЕЗС використовується багатоальтернативний статистичний аналіз, згідно з яким для прийняття однієї з m статистичних гіпотез H1,...,Hm обчислюється m-1 відношення правдоподібності

і вибирається максимальне , яке порівнюється з порогом Vp .

У випадку перевищення порогу Vp приймається рішення про прийняття гіпотези . В протилежному випадку приймається гіпотеза .

Обчислення відношень правдоподібності для гаусівських корельованих вибірок вимагає обчислення коваріаційних матриць, обернених коваріаційних матриць і їх визначників. Ці обчислювальні труднощі можуть бути значно зменшені, якщо перейти до перетворення Фур’є.

Послідовності значень m сигналів, що відповідають m ЕЗС, представляються у вигляді розкладу за гармонічними функціями :

де коефіцієнти розкладу обчислюються за формулою

Коефіцієнти розкладу є координатами сигналу в просторі ознак. З метою забезпечення інваріантності рішень до потужності (енергії) сигналу для кожного з m сигналів обчислюються нормовані коефіцієнти розкладу в ряд Фур’є. Коефіцієнти розкладу є комплексними значеннями і містять інформацію про амплітуду і фазу -ї гармоніки -го сигналу. Для представлення основних характеристик НЗС можна обмежитись спектром потужності, тобто послідовністю нормованих спектральних потужностей його гармонік

при цьому розмірність простору ознак зменшується в два рази.

Для синтезу алгоритму розпізнавання обґрунтовується припущення про нормальність закону розподілу логарифмів квадратів модулів коефіцієнтів розкладу звукових сигналів і їх некорельованість (Розділ 2). Вводиться позначення .

Умовні щільності розподілу логарифмів спектральних потужностей реалізації звукового сигналу записуються так:

де - логарифми нормованих спектральних потужностей реалізації сигналу. Вони і є координатами реалізації в просторі ознак.

Вважається, що всі ЕЗС мають рівні імовірності. Тоді оптимальне розбиття простору ознак на m областей, що відповідають m сигналам, визначається за наступним правилом: приймається рішення, що присутній сигнал , якщо для вибірки, що спостерігається - ,

при всіх , та для даного l;

присутній сигнал якщо для всіх .

В наведених співвідношеннях - це відношення правдоподібності

Після тотожних перетворень виводиться вираз для логарифму відношення правдоподібності

Алгоритм розпізнавання m звукових ЕЗС являє собою обчислювач нормованого амплітудного спектру , i=0,…, n/2, (m-1)–канальний обчислювач логарифмів відношення правдоподібності і пристрій вибору рішення.

В третьому розділі дисертаційної роботи розроблений метод та запропонований алгоритм сегментації НЗС шляхом аналізу сонограми. Нехай - послідовність відліків реалізації мовного сигналу, що розбита на M інтервалів аналізу, кожен з яких має тривалість n відліків. На -му інтервалі виконується перетворення Фур’є послідовності і обчислюються логарифми квадратів модулів коефіцієнтів розкладу

де - циклічна частота, - інтервал дискретизації у часі, - номер інтервалу аналізу.

Множина коефіцієнтів утворює матрицю з M рядків та (n/2+1) стовпчиків, яка називається матрицею двовимірної сонограми мовного сигналу. В загальному випадку, в системах розпізнавання команд за допомогою аналізу сонограми, робота починається з процедури навчання. Дикторові пропонується промовити множину команд, які мають зберігатися в системі. За реалізаціями цих голосових команд будуються матриці сонограми, що нормуються та заносяться до пам’яті системи як шаблони.

Нехай - матриці сонограми базових шаблонів, L– кількість базових шаблонів. - матриця голосової команди, яку система отримала під час діалогу із користувачем.

Критерій порівняння вхідної матриці із множиною шаблонів команд може бути записаний у вигляді виразу:

Номер команди , на якій досягається мінімум такого критерію, обирається згідно виразу: . Таким чином, команда обирається серед інших команд словника базових команд.

Четвертий розділ дисертаційної роботи присвячений розробці методів та синтезу алгоритмів стиснення НЗС. Алгоритми, що розроблено в цьому розділі, базуються на нелінійних перетвореннях сигналу з метою зменшення динамічного діапазону і, відповідно, зменшення розрядності представлення даних. Алгоритми лінійної та логарифмічної дельта-модуляції. В дисертаційній роботі проведено аналіз розподілу значень реалізації НЗС, та запропоновані алгоритми адаптивної лінійної та логарифмічної дельта-модуляції, які дозволяють істотно зменшити кількість даних, яку необхідно передавати каналами зв’язку, у порівнянні із стандартними загальновідомими алгоритмами дельта-модуляції.

В четвертому розділі запропонований метод розкладання звукового сигналу за ортогональним базисом на бінарному розбитті інтервалу аналізу. Нехай - вектор-вибірка вхідного сигналу, яка є елементом n - вимірного евклідового простору, де необхідною умовою є умова . Процедура бінарного розкладу послідовності з n елементів складається з (P-1) рівнів, де .

На нульовому рівні розкладу множина базисних функцій набуває вигляду:

На першому рівні ця множина набуває вигляду:

На другому рівні розкладу множина всіх базисних векторів складається вже з чотирьох матриць .

В загальному випадку, можна позначити номер поточного рівня літерою s. На s-му рівні послідовність розбивається на фрагментів.

На рис. 4. зображено схему процедури бінарного розкладу.

Рис. 4. Схема бінарного розкладу мовного сигналу

Рекурсивна процедура послідовних перетворень реалізації звукового сигналу. На нульовому рівні розкладу вектор вхідних значень розкладається за базисом . Серед отриманих коефіцієнтів розкладу обирається максимальний коефіцієнт

Послідовність нульового рівня представляється у вигляді суми:

, (5)

де та - вектори-залишки розкладу на лівому та правому напівінтервалах нульового рівня.

На наступному, першому рівні розкладу, перетворенню, аналогічному до (5), підлягають залишки та , отриманих на попередньому рівні розкладу.

Залишки , , , також підлягають аналогічному до (5) розкладу.

Згідно з рівністю Парсеваля, при використанні розкладу за ортогональними базисами сума енергій залишків на кожному рівні розкладу s зменшується у порівнянні з сумою енергій залишків попереднього рівня розкладу:

(6)

Таким чином, згідно (6), для повного розкладу вхідної послідовності , процедура рекурсивного поглиблення (6) має повторюватись до виконання умови нульових залишків на поточному рівні розкладу:

Як приклади, наведені застосування ортогональних базисів Хаара, Фур’є та косинусного перетворення.

В розділі запропонований метод розкладання НЗС за базисом власних функцій кореляційного оператора (базис Карунена-Лоева). Як відомо, найбільш компактне представлення стаціонарного випадкового сигналу за критерієм найменшої середньоквадратичної похибки досягається в базисі власних функцій, які отримуються шляхом розв’язання інтегрального рівняння Фредгольма 2-го роду

(7)

де - коваріаційна функція сигналу, - власні числа, - власні функції інтегрального оператора з ядром . В цифрових системах обробки сигнал представляється у вигляді послідовності відліків, взятих з певним інтервалом дискретизації Цю послідовність називають вибіркою і позначають . Дискретним аналогом інтегрального рівняння (7) є матричне рівняння

, (8)

де - коваріаційна матриця розмірністю , - власні числа, =-власні вектори матриці .

Система власних векторів утворює ортонормований базис у - вимірному векторному просторі. Власні числа дають розподіл енергії реалізації вибірки по власних векторах.

Власні вектори можуть бути упорядковані згідно з упорядкуванням власних чисел

(9)

Реалізація сигналу довжиною відліків може бути представлена розкладом по системі власних векторів . Коефіцієнти розкладу утворюють вектор , який обчислюється згідно з виразом

В розділі наведений порівняльний аналіз запропонованих методів стиснення та наведені результати практичного експерименту. Критерієм, що найчастіше використовується для порівняння результатів роботи алгоритмів, є критерій оцінки якості відтвореного НЗС за відносним середньоквадратичним відхиленням:

де xi – оригінальний сигнал, – відновлений сигнал, n – кількість відліків оригінального сигналу xi.

В задачах стиснення мовних сигналів вважається, що для якісного відтворення мовного повідомлення необхідно витримувати значення R не більшим за 15-20% при параметрах дискретизації 8 кГц, 8 біт. В іншому випадку спостерігаються істотні спотворення якості звуку та розбірливості повідомлення.

В п’ятому розділі описаний програмно-апаратний комплекс “SOFTMODEL”, що був розроблений для проведення експериментальних досліджень. Структуру розробленого комплексу зображено на рис.5.

Комплекс складається з апаратної частини (персональний комп’ютер, обладнаний звуковою платою, акустичною системою виводу звуку та мікрофоном), і програмної частини (програмний модуль SoftModel). Комплекс має широкий набір можливостей для роботи із дискретизованим сигналами у звуковому діапазоні, а саме: надає можливість зчитувати та записувати дані у форматі звукових файлів (*.Wav) з таких джерел, як звуковий файл, лінійний вхід звукової плати комп’ютера та мікрофонна система.

Апаратна частина комплексу. Комплекс обладнаний звуковою платою аналого-цифрового і цифро-аналогового перетворювачів фірми “Creative” та мікрофонною системою фірми “Брюль і К’єр”, що забезпечують ввід/вивід сигналів у звуковому діапазоні частот.

Звукова плата та мікрофонна система працюють широких частотному (20-24000 Гц) та динамічному (60дБ) діапазонах і мають підтримку на рівні драйверів плати для різних операційних систем, які надані фірмою–виробником. Програмна частина забезпечує запис і комп’ютерну обробку акустичних сигналів за допомогою різних алгоритмів і оцінку їх ефективності.

За допомогою розробленого комплексу проведено експериментальні дослідження, які підтверджують справедливість аналітичних результатів, отриманих в дисертаційній роботі а також підтверджують працездатність і ефективність запропонованих методів і алгоритмів обробки НЗС.

У додатках містяться матеріали, які ілюструють можливість застосування отриманих алгоритмів в різних інформаційно-вимірювальних системах, наведено акти про впровадження та використання результатів досліджень.

ВИСНОВКИ

У дисертації теоретично узагальнено і розв’язано наукове завдання, яке має важливе значення для побудови інформаційних систем і полягає у розробці нових ефективних методів обробки сигналів звукового діапазону.

Найбільш істотні наукові і практичні результати дисертаційної роботи:

1. Запропонована математична модель НЗС є адекватною до реальних об’єктів (мовні повідомлення в каналах зв’язку, звукові сигнали в системах охорони та шумового моніторингу, допплерівські метеорадіолокаційні сигнали) і створює аналітичну базу для побудови ефективних методів та синтезу алгоритмів аналізу та обробки НЗС. Експериментальні дослідження розподілів логарифмів спектральних потужностей НЗС на фрагментах локальної стаціонарності підтверджує обґрунтованість їх апроксимації гаусівським розподілом в моделі ЕЗС.

2. Параметричний та непараметричний ранговий методи сегментації, що розроблені в дисертації, є ефективними для вирішення класу задач, пов’язаних з виявленням моментів розладки. Аналітичні вирази для порогу прийняття рішення, що отримані під час дослідження, дозволяють розрахувати імовірність похибок першого роду.

3. Алгоритм розпізнавання звуків мови, що розроблений в дисертації, забезпечує високу імовірність (не меншу за 90%) правильного розпізнавання при коливаннях частоти основного тону в межах 100-200 Гц. Це дозволяє використовувати його для розробки голосового інтерфейсу.

4. Задача розпізнавання окремих команд та інших складних акустичних подій найбільш ефективно вирішується методом аналізу сонограми. Такий результат досягається, в першу чергу, завдяки урахуванню динаміки зміни частотних характеристик із плином часу, а також завдяки механізмам нормалізації та сегментації реалізації звукового повідомлення.

5. Проаналізовано основні підходи, які використовуються при вирішенні задач стиснення НЗС. Розроблено нові методи стиснення звукових сигналів:

- модифікація методу логарифмічної дельта-модуляції дозволяє стиснення цифрової реалізації НЗС із частотою дискретизації 44 кГц розрядністю 16 біт у 5 разів без істотних втрат якості (не більше 15% похибки за критерієм середньоквадратичного відхилення);

- метод стиснення, заснований на бінарному розбитті інтервалів аналізу і представленні мовного сигналу на підінтервалах розбиття за ортогональними базисами дозволяє стиснення цифрової реалізації НЗС із частотою дискретизації 44 кГц розрядністю 16 біт у 12 разів без істотних втрат якості (не більше 15% похибки за критерієм середньоквадратичного відхилення);

- найбільш ефективним за критерієм середньоквадратичного відхилення є метод представлення мовного сигналу в базисі власних функції кореляційного оператора (базис Карунена-Лоева), проте він вимагає значної кількості складних обчислень, що ускладнює процес побудови програмних та апаратних засобів стиснення НЗС.

6. Розроблений апаратно-програмний комплекс SoftModel дозволяє виконувати наступні операції з НЗС:

- експериментальні дослідження сигналів звукового діапазону та їх статистичних характеристик;

- визначення ділянок локальної стаціонарності та моментів розладки;

- ідентифікація ЕЗС на ділянках локальної стаціонарності;

- розпізнавання акустичних подій шляхом аналізу сонограми;

- стиснення звукових сигналів методами, що запропоновані в дисертаційній роботі.

Комплекс може бути використаний для проведення порівняльного аналізу ефективності методів стиснення, дослідження реальних сигналів і методів їх обробки, а також для проведення лабораторних робіт під час навчального процесу.

СПИСОК ОПУБЛІКОВАНИХ ПРАЦЬ ЗА ТЕМОЮ ДИСЕРТАЦІЇ

1. Прокопенко И.Г., Яновский Ф.Й., Лигхарт Л.П., Прокопенко К.И. Синтез и анализ эффективности инвариантных алгоритмов обработки сигналов турбулентных зон в метеонавигационных РЛС. //Вісник КМУЦА.-1999.-№2.- С.154-160

2. Прокопенко І.Г., Прокопенко К.І. Представлення мовного сигналу в базисі власних функцій //Матеріали IV Міжнародної наук.-техн. конференції “Авіа-2002”, 23-25 квітня 2002 р.-Т.1-К.:НАУ, 2002. -С. 11.17-11.20

3. Прокопенко І.Г., Прокопенко К.І. Програмний комплекс моделювання та обробки сигналів //Вісник НАУ.-2000. №1-2.-С.121-126

4. Прокопенко І.Г., Прокопенко К.І. Детектор зображень заданої форми //Матеріали VI Міжнародної наук.-техн. конференції “Авіа-2004”, 26-28 квітня 2004 р.-К.:НАУ, 2004. -С. 22.19-22.23

5. Прокопенко К.І. Аналіз єфективності методів стиснення звукових сигналів //Матеріали IV міжнародної науково-технічної конференції АВІА-2002. Т.1-С.11.49-11.52

6. Прокопенко К.І. Запорожець О.І., Прокопенко І.Г., Тугай Л.П. Доробка термінала системи контролю шуму від літаків на базі мікрофонних систем ВСШ-101 та фірми "Брюль і К’єр". Звіт з НДР 448-ГТ93 “Розробити і впровадити в одному з аеропортів України систему контроля шуму від літаків на місцевості” (Заключний). 1998 р.

7. Прокопенко К.І. Яновський Ф.Й. Прокопенко І.Г. Робасні алгоритми радіолокаційного виявлення турбулентних зон в атмосфері //Материалы международной научно-технической конференции “Проблемы развития систем аэронавигационного обслуживания и авионики воздушных судов. Аэронавигация и авионика – 98”: – К.: КМУЦА, 1998.- С.50

8. Прокопенко К.І. Яновський Ф.Й. Прокопенко І.Г. Інваріантні алгоритми радіолокаційного виявлення турбулентних зон в атмосфері //XVIII звітна науково-технічна конференція за 1997 рік: Тези доповідей. –К.: КМУЦА, 1998.- С.42

9. Прокопенко І.Г., Кіриченко Є.П., Прокопенко К.І., Чекулаєв М.В. Моделювання мереж стільникового зв’язку //Матеріали VI міжнародної науково-технічної конференції АВІА-2004, 26-28 квіт. 2004 р.-Т.2.-К.:НАУ, 2004.-С.22.9-22.12

10. Прокопенко І.Г., Прокопенко К.І., Ирейфидж Имад Исса Джамиль. Аппроксимация распределения экспериментальных данных усеченными распределениями //Электроника и свіязь. № 17.-2002. С.105-107.

11. K.I. Prokopenko K.I. Some methods of signals compression and analysis of their effectiveness //-K.-Proceedings of the NAU.-№2. 2003. P.23-27

12. I.G. Prokopenko, K.I. Prokopenko, F.J. Yanovsky, L.P. Lighart. Adaptive Algorithms for Doppler Weather Radar. International conference “Microwave-2005”-Paris. – 2005

13. I.Prokopenko, K.Prokopenko. Nonparametric Algorithm for Radar Detection of Moving Target. International Radar Symposium IRS 2006, 24-26 May 2006, Krakov, Poland. Proceedings, P.125-128

Анотації

Прокопенко К.І. “Розробка методів аналізу, розпізнавання та стиснення нестаціонарних звукових сигналів”. - Рукопис. Дисертація на здобуття наукового ступеня кандидата технічних наук за спеціальністю 05.13.06 – автоматизовані системи управління та прогресивні інформаційні технології. – Національний авіаційний університет, Київ, 2005.

Дисертацію присвячено розробці методів та алгоритмів сегментації, розпізнавання та стиснення нестаціонарних звукових сигналів для забезпечення більш ефективного застосування каналів зв'язку, засобів документування мовних сигналів а також систем моніторингу шумового забруднення навколишнього середовища. Проведено аналіз існуючих методів стиснення нестаціонарних звукових сигналів. Запропоновано модель нестаціонарного звукового сигналу, запропоновані параметричний та непараметричний алгоритми сегментації звукових сигналів, розроблені алгоритми розпізнавання мовних сигналів та стиснення нестаціонарних звукових сигналів. Розроблено програмний комплекс, в основу якого покладено запропоновані в роботі обчислювальні схеми та алгоритмі.

Ключові слова: модель нестаціонарного звукового сигналу, сегментація звукових сигналів, стиснення звукових сигналів, розпізнавання мовних сигналів, автоматизована система, канал зв’язку.

Прокопенко К.И. „Разработка методов анализа, распознавания и сжатия нестационарных звуковых сигналов”. Рукопись. Диссертация на соискание научной степени кандидата технических наук по специальности 05.13.06 – автоматизированные системы управления и прогрессивные информационные технологии. Национальный авиационный университет, Киев, 2006.

Диссертация посвящена разработке методов и алгоритмов сегментации, распознавания и сжатия нестационарных звуковых сигналов для обеспечения более эффективного использования каналов связи, средств документирования звуковых сигналов, систем мониторинга шумового загрязнения окружающей среды, а также других систем обработки сигналов в звуковом диапазоне.

Проведен обзор и анализ математических моделей, которые используются при анализе звуковых сигналов в современных информационных системах. Сформулированы основные задачи, которые решаются в диссертационной работе. Это – разработка математической модели нестационарного звукового сигнала, сегментация звукового сигнала на участки локальной стационарности, идентификация элементарных звуковых составляющих на участках стационарности, сжатие звуковых сигналов в цифровых каналах связи.

Предложена математическая модель локально-стационарного случайного процесса, которая представляет нестационарный процесс отрезками стационарных случайных процессов случайной длительности. Последовательность отрезков стационарности формируется марковской цепью с конечным множеством состояний. Исследованы распределения вероятностей мощности спектральных составляющих звукового сигнала. Показано, что закон распределения вероятностей логарифмов оценок мощности спектральных составляющих речевого сигнала может быть аппроксимирован гауссовским законом распределения вероятностей.

Разработан параметрический метод и синтезирован новый инвариантный алгоритм сегментации нестационарного звукового сигнала, исходя из гауссовской модели распределения логарифмов спектральных характеристик звукового сигнала на участках стационарности. Разработан непараметрический метод и синтезирован новый непараметрический алгоритм сегментации с использованием непараметрической ранговой статистики. Получены аналитические выражения для расчета порога принятия решения для инвариантного и непараметрического рангового алгоритма сегментации. Экспериментально исследована эффективность предложенных методов сегментации.

Алгоритм распознавания речевых сигналов, который синтезирован с использованием метода максимального правдоподобия, обеспечивает высокую вероятность правильного распознавания звуков при колебаниях частоты основного тона в пределах 100-200 Гц. Задача распознавания отдельных команд наиболее эффективно решается методом анализа сонограммы. Такой результат достигается, в первую очередь, благодаря учету динамики изменения частотных характеристик с изменением времени, а так же благодаря механизмам нормализации и сегментации звуковой реализации команды.

Проанализированы основные подходы, которые используются при решении задач сжатия звуковых сигналов. Разработаны новые методы сжатия нестационарных звуковых сигналов: а) модификация метода логарифмической дельта-модуляции; б) метод сжатия, основанный на бинарном разбиении интервалов анализа и представления звукового сигнала на подынтервалах разбиения в различных базисах. Проведен сравнительный анализ эффективности предложенных алгоритмов сжатия.

Ключевые слова: модель нестационарного звукового сигнала, сегментация звуковых сигналов, сжатие звуковых сигналов, распознавание речевых сигналов, автоматизированная система, канал связи.

Prokopenko K.I. "Development of methods of the analysis, recognition and compression of non-stationary sound signals". The manuscript.

The dissertation on competition of a scientific degree of Cand.Tech.Sci. on a speciality 05.13.06 - the automated control systems and progressive information technologies. National aviation university, Kiev, 2006.

The dissertation is devoted to development of methods and algorithms of segmentation, recognition and compression of non-stationary sound signals for maintenance more an effective using of telecommunication channels, means of documenting of sound signals, and also systems of monitoring of environmental noise pollutions.

The analysis of existing methods of compression of non-stationary sound signals is carried out. It is offered model of a non-stationary sound signal, parametrical and nonparametric algorithms of sound signals segmentation are offered, algorithms of recognition of speech signals recognition and compression are developed. The software for computing offered algorithms is developed.

Key words: model of a non-stationary sound signal, segmentation of sound signals, compression of sound signals, recognition of the speech signals, the automated system, telecommunication channel.

��
��...

Наступні 7 робіт по вашій темі:

▪ ВИКОРИСТАННЯ ПОКАЗНИКА ФЕНОТИПІЧНОЇ СТАБІЛЬНОСТІ РОСЛИН ЗА ГОСПОДАРСЬКО – ЦІННИМИ ОЗНАКАМИ ПРИ СТВОРЕННІ НОВОГО ВИХІДНОГО МАТЕРІАЛУ ЛЮЦЕРНИ - Автореферат - 21 Стр.
▪ СОЦІАЛЬНО-ПЕДАГОГІЧНІ УМОВИ ОРГАНІЗАЦІЇ СТУДЕНТСЬКОГО САМОВРЯДУВАННЯ У ВИЩИХ НАВЧАЛЬНИХ ЗАКЛАДАХ - Автореферат - 29 Стр.
▪ Сільське господарство в системі макроекономічних пропорцій - Автореферат - 31 Стр.
▪ ГІПЕРГОМОЦИСТЕЇНЕМІЯ У ХВОРИХ З ХРОНІЧНОЮ НИРКОВОЮ НЕДОСТАТНІСТЮ: ЗВ’ЯЗОК З УРАЖЕННЯМ СЕРЦЕВО-СУДИННОЇ СИСТЕМИ, ВІТАМІННИМ СТАТУСОМ ТА ДИСЛІПІДЕМІЄЮ (КЛІНІКО-ЕКСПЕРИМЕНТАЛЬНЕ ДОСЛІДЖЕННЯ) - Автореферат - 25 Стр.
▪ СТАТИСТИЧНИЙ АНАЛІЗ ФОРМУВАННЯ СТРУКТУРИ ТА ДИНАМІКИ ВАЛОВОГО ВНУТРІШНЬОГО ПРОДУКТУ - Автореферат - 23 Стр.
▪ Дарунок та віддяка у контексті християнської та постмодерністської антропологій - Автореферат - 36 Стр.
▪ Управління нестаціонарними транспортними потоками на регульованих перехрестях - Автореферат - 21 Стр.