Автореферат МЕТОДИ ТА ЗАСОБИ КОНТРОЛЮ ЯКОСТІ ПЕРЕДАЧІ МОВИ В ЦИФРОВІЙ ТЕЛЕФОНІЇ

Автореферат - МЕТОДИ ТА ЗАСОБИ КОНТРОЛЮ ЯКОСТІ ПЕРЕДАЧІ МОВИ В ЦИФРОВІЙ ТЕЛЕФОНІЇ

Загрузка...

Міністерство освіти і науки України

МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ

ХАРКІВСЬКИЙ НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ РАДІОЕЛЕКТРОНІКИ

ОМЕЛЬЧЕНКО СЕРГІЙ ВАСИЛЬОВИЧ

УДК 519.68; 681.51

МЕТОДИ ТА ЗАСОБИ КОНТРОЛЮ ЯКОСТІ ПЕРЕДАЧІ МОВИ

В ЦИФРОВІЙ ТЕЛЕФОНІЇ

Спеціальність

05.12.13 - радіотехнічні пристрої та засоби телекомунікацій

АВТОРЕФЕРАТ

дисертації на здобуття наукового ступеня

кандидата технічних наук

Харків 2006

Дисертацією є рукопис.

Робота виконана у Харківському національному університеті радіоелектроніки

Міністерства освіти і науки України.

Науковий керівник: | доктор технічних наук, професор

Пресняков Ігор Миколайович,

Харківський національний університет радіоелектроніки,

завідувач кафедри мереж зв’язку

Офіційні опоненти: | доктор технічних наук, професор

Поляков Петро Федорович,

Українська державна академія залізничного транспорту Міністерства транспорту та зв'язку України, завідувач кафедри "Транспортний зв'язок"

кандидат технічних наук, доцент

Сідоров Геннадій Іванович,

Харківський національний університет радіоелектроніки, завідувач кафедри радіоелектронних систем

Провідна установа | Національний аерокосмічний університет ім. М.Є.Жуковського "Харківський авіаційний інститут", кафедра "Проектування радіоелектронних систем літальних апаратів", Міністерство освіти і науки України, м. Харків

Захист відбудеться “19” грудня 2006 року о 15 годині на засіданні спеціалізованої вченої ради К 64.052.05 Харківського національного університету радіоелектроніки за адресою: 61166, м. Харків, просп. Леніна, 14.

З дисертацією можна ознайомитися в бібліотеці ХНУРЕ за адресою:

61166, м. Харків, просп. Леніна, 14.

Автореферат розісланий “17” листопада 2006 р.

Вчений секретар

спеціалізованої вченої ради Мустецов М.П.

ЗАГАЛЬНА ХАРАКТЕРИСТИКА ДИСЕРТАЦІЙНОЇ РОБОТИ

Актуальність теми. На сьогодні існує багато практично важливих задач, що вирішуються шляхом передачі мовних повідомлень і розпізнавання їх.

Вирішення задачі автоматичної оцінки якості мовного сигналу відкриває нові перспективи - оцінювання розбірливості мови у системах мовного зв'язку, усунення дефектів рідної мови.

Вітчизняні автори - Покровський, Калинцев, у своїх працях з оцінки розбірливості мови не використали методи автоматичного розпізнавання мови. Протягом останніх років у зарубіжній пресі стали з'являтися роботи з автоматичної оцінки якості вивчення іноземної для диктора мови на основі методів розпізнавання. Цій темі присвячені праці таких авторів як Kawai, Franco, Wester, що показує актуальність даної теми. Однак не розглядалася методика оцінки якості мови для систем мовного зв'язку, та оцінки якості мови для російської та української мов на основі розпізнавання слів мови.

Для досягнення поставленої мети спроектовано й реалізовано нові системи автоматичного розпізнавання ізольованих слів. Існуючі алгоритми контролю якості передачі мови розпізнавання слів мови слабко захищені від дії завад, від спотворень сигналу і практично не адаптуються до динаміки зміни завадової обстановки.

Підвищення достовірності вирішень перерахованих вище завдань можна досягти шляхом розробки методів сегментації мови і автоматичного розпізнавання слів мови, які є стійкими до спотворень мовного сигналу і дії завад, характерних для телефонних каналів зв'язку, а також ознак, що враховують статистичні характеристики мовного сигналу.

Найбільш вагомий внесок у наукові досягнення в області розпізнавання мови внесли такі вчені: Дж. M. Уайт, M.Р. Самбур, Дж.Л.Фланаган,
С.Я. Левінсон, Л.Р. Рабінер, Ф. Ітакура, А.І. Розенберг, Р.В.Шафер,
Дж. Д. Маркел, А. Х.Грей, Т.К.Вінцюк і ін.

Вище перераховані завдання сьогодні стали дуже актуальними. Для їх вирішення використовуються різні методи, які часто вимагають додаткових витрат. Ці завдання можна вирішити дуже ефективно за допомогою систем автоматичного розпізнавання мовних повідомлень, переданих у каналах зв'язку в тому числі і в умовах дії завад. При цьому досягнення прийнятної для користувача якості розпізнавання слів і стійкість алгоритмів до дії завад дозволили розширити сферу застосувань алгоритмів розпізнавань слів мови і укріпити довіру користувачів до подібних систем.

Зв’язок роботи з науковими програмами, планами, темами.

Дисертаційні дослідження пов'язані з виконуваною на кафедрі МЗ ХНУРЕ держбюджетною НДР № 0100U003411 “Розробка цифрових технологій перетворення та управління інформаційними потоками в інтелектуальних мережах зв’язку”

Метою дослідження є розробка алгоритмів автоматичного контролю якості передачі мови на основі завадостійких алгоритмів розпізнавання мови у цифровій телефонії.

Для досягнення поставленої мети необхідно вирішити такі задачі дослідження:

- провести аналіз існуючих методів і алгоритмів вимірювання якості мови для систем мовного зв'язку на основі розпізнавання слів мови;

- розробити методи розпізнавання слів мови, стійкі до спотворень мовного сигналу і дії завад, характерних для телефонних каналів зв'язку;

- розробити адаптивні алгоритми автоматичного розпізнавання мови, що враховують статистичні характеристики мовного сигналу та каналів зв’язку;

- розробити методи сегментації мови, що є стійкими до дії завад, характерних для телефонних каналів зв'язку;

- виконати експериментальні дослідження розроблених методів розпізнавання мови.

Об'єкт досліджень – процеси передачі та обробки мовних сигналів в цифровій телефонії.

Предмет досліджень –методи та алгоритми завадостійкого розпізнавання слів мови в телекомунікаційних каналах.

Методи дослідження. В роботі застосовуються методи теорії розпізнавання образів, методи теорії автоматичного розпізнавання мови, методи математичної статистики, математичного програмування, цифрової обробки сигналів (і зокрема мовних сигналів), метод моделювання на ЕОМ випадкових процесів і метод статистичних випробувань на ЕОМ алгоритмів розпізнавання мови.

Наукова новизна роботи. На захист виносяться такі результати, які вперше достатньо докладно розвиті і вперше отримані в роботі:

- розроблений метод розпізнавання слів мови на основі оцінювання дисперсії результатів вибілювання фільтрами авторегресії ковзного-середнього (АРКС), що дозволяє підвищити стійкість алгоритму розпізнавання слів в умовах дії гаусівського білого шуму і вузькосмугових завад за рахунок корекції коефіцієнтів АРКС еталонів в залежності від рівня білого шуму в каналі зв'язку, а також за рахунок попереднього вибілювання мовного сигналу для захисту від вузькосмугових завад;

- розроблено новий метод завадостійкого розпізнавання мови на основі знакових функцій від оцінок тривимірних моментних функцій, що дозволяє підвищити стійкість алгоритму розпізнавання слів в умовах дії гаусівського білого шуму;

- набув подальшого розвитку метод розпізнавання слів мови на основі оцінювання дисперсії результатів вибілювання решітчастих фільтрів, що дозволяє підвищити стійкість алгоритму розпізнавання слів в умовах дії гаусівського білого шуму і вузькосмугових завад за рахунок корекції коефіцієнтів відбиття еталонів у залежності від рівня білого шуму в каналі зв'язку, а також за рахунок попереднього вибілювання мовного сигналу для захисту від вузькосмугових завад;

- набув подальшого розвитку метод розпізнавання мовних повідомлень у просторі оцінок коефіцієнтів відбиття, логарифмів площ перетинів голосового тракту, стійкий до дії корельованих, некорельованих завад за рахунок корекції коефіцієнтів віддзеркалення і логарифмів площ перетинів голосового тракту еталонів залежно від рівня білого шуму в каналі зв'язку, вибору алгоритму ухвалення рішень, а також попередньої обробки (вибілювання) мовного сигналу для захисту від вузькосмугових завад;

- набув подальшого розвитку метод розпізнавання мовних повідомлень за формантними ознаками, що дозволяє підвищити стійкість алгоритмів до дії некорельованих завад за рахунок корекції формантних ознак у залежності від рівня білого шуму в каналі зв'язку, вибору правила ухвалення рішень у вигляді логарифмічних та лінійних мір і пошуку цільової функції за номерами формант і блоками з одночасним прямим і реверсним (зворотним) прочитуванням даних від початку і кінця слова;

- вперше розроблено метод адаптивного розпізнавання слів мовних повідомлень за формантно-смуговими ознаками з двоетапним їх оцінюванням і корекцією в залежності від рівня завад, що дозволяє підвищити завадостійкість і ймовірність правильного розпізнавання слів за рахунок застосувань середніх мір, полігаусівських розподілів і сумішей Коші.

- вперше розроблено алгоритм оцінки якості кодування мови на основі розпізнавання мови за коефіцієнтами відбиття.

Практичне значеня результатів роботи визначається: –

результатами експериментальних досліджень розроблених алгоритмів розпізнавання і сегментації слів мовних повідомлень і їх порівнянням з існуючими світовими аналогами;

- знайденими в роботі експериментальними залежностями, що дозволяють зробити обґрунтований вибір між запропонованими алгоритмами в залежності від вимог до якості алгоритмів розпізнавання, скласти рекомендації за оптимальним вибором параметрів алгоритмів, зокрема порядком моделі, кількістю еталонів;

- розробленими системами автоматичного розпізнавання ізольованих слів, що можуть бути реалізовані в системах оцінки якості передачі мови, зв'язку, мовного управління, оцінки якості передачі мовних повідомлень;

- впровадженням алгоритмів і програмних засобів у навчальний процес ХНУРЕ під час виконання лабораторних робіт курсу “Цифрова обробка", а також під час виконання дипломних робіт.

Впровадження. Результати дисертаційних досліджень впроваджено у навчальний процес ХНУРЕ. Алгоритми формування випадкових процесів, що розроблені в дисертації, використовувалися в навчальному процесі під час створення лабораторних практикумів за курсом “Цифрова обробка", а також під час виконання дипломних робіт.

Обґрунтованість і достовірність основних результатів дисертаційної роботи забезпечується коректним формулюванням задачі дослідження; апробованими підходами і методами; експериментальною перевіркою алгоритмів розпізнавання слів мови на персональному комп’ютері (ПК) із використанням сигналів, отриманих з телефону.

Апробація результатів дисертації. Матеріали дисертації й основні положення дисертаційної роботи, доповідалися та обговорювалися на Міжнародній конференції “Теорія і техніка передачі, прийому та обробки інформації” (Харків-Туапсе, 2001,2002,2004 р), 2-му Міжнародному радіоелектронному форумі “Прикладна радіоелектроніка. Стан і перспективи розвитку” (Харків, 2005) та 1-й Міжнародній науковій конференції "Глобальні інформаційні системи. Проблеми та тенденції розвитку" (Туапсе, 2006).

Публікації . Результати дисертації опубліковано в 10 статтях у фахових наукових журналах, в 5 матеріалах і тезах конференцій, 1 авторському посвідченні.

Основні результати, опубліковані в наукових працях, ідеї і розробки, що подають суть дисертаційної роботи, отримано самостійно, крім постановки.

Співавтори робіт [2-16] брали участь у постановці задач і обговоренні результатів. Науковий керівник роботи брав участь у формулюванні задач, обговоренні отриманих результатів, можливостей їхнього практичного застосування і є співавтором публікацій [1-9,11-16].

Структура та обсяг дисертації. Дисертаційна робота складається з вступу, чотирьох розділів, одного додатку, висновок, списку використаних джерел із 235 найменувань, 84 рисунків і 15 таблиць. Текст дисертації займає 220 сторінок, які ілюструють його рисунки і таблиці - 45 сторінок, список використаних джерел - 25 сторінок.

ОСНОВНИЙ ЗМІСТ РОБОТИ

У вступі наведено загальну характеристику роботи, обґрунтовано актуальність теми дослідження, визначено об'єкт та предмет дослідження, сформульовано його мету і задачі, відзначається наукова новизна і практичне значення отриманих результатів, стисло викладено зміст дисертаційної роботи.

У першому розділі зроблено стислий огляд сучасного стану теорії і практики контролю якості передачі мови у цифровій телефонії, зокрема із застосуванням розпізнавання та сегментації слів дикторів в умовах дії завад.

Проаналізовано хиби існуючих методів розпізнавання мовних слів і практики контролю якості передачі мови у цифровій телефонії. Успішне вирішення проблеми розпізнавання мовних повідомлень потребує вибору адекватної моделі мовного сигналу, що дозволить отримати стійкі в часі характеристики, вибір структури системи для розпізнавання слів мови й оцінки її стійкості.

Зазначено, що задача розпізнавання мовних повідомлень вирішується на основі лінійної моделі, що описує тракт мовотворення. Описано модель мовних сигналів, яку обрано для вирішення задачі розпізнавання мовних повідомлень, у вигляді сукупності генераторів шуму та імпульсного сигналу зі змінним періодом і голосового тракту (лінійної системи з змінними параметрами), що розглядаються незалежно один від одного.

На основі проведеного аналізу вибрано напрямок і сформульовано задачі дисертаційного дослідження.

В другому розділі розглянуто алгоритми сегментації слів дикторів [3]. Сегментація включає рішення задач виявлення мовних повідомлень та оцінювання початку і кінця кожного зі слів.

Апріорна інформація у вигляді еталонів сигналу, необхідна для алгоритмів розпізнавання, задається у вигляді класифікованих навчальних вибірок для кожного з дикторів. Вважається, що час появи слів у мовному сигналі апріорі невідомий. Якість алгоритму визначається показником розміру дисперсії D(s) оцінки часового положення сегментів за відсутності зовнішньої завади та стійкістю алгоритму s до впливу адитивної завади .

Під показником стійкості розуміється дисперсія оцінки часового положення сегментів під час впливу адитивної завади в каналі із заданим відношенням сигнал/шум.

При двоетапній сегментації слів перший етап - це ухвалення рішення про присутність мовного сигналу в заданих вибірках, а другий - оцінювання за сукупністю вибірок часових меж кожного з слів мови. Перший етап може розглядатися як бінарна, або багатоальтернативна задача з наступним прийняттям двоальтернативного рішення.

Якщо мовний сигнал пропустити через фільтр, що вибілює, алгоритм сегментації зводиться до алгоритму часової обробки некорельованих відліків у вибірках. З виявленням мовного сигналу за енергетичними ознаками виноситься рішення про наявність мовної інформації в к-й вибірці, якщо виконується нерівність

, (1)

де поріг , , - i-й відлік k-ї вибірки мовного сигналу.

Ухвалення рішення можливо за мірою близькості, що задається як відстань у гілбертовому просторі між оцінкою та еталоном енергетичного спектра для даного типу мовного сигналу

, (2)

де - оцінки енергетичного спектра, - еталони для паузи та вокалізованих і невокалізованих звуків.

У випадку розпізнавання за формою енергетичного спектра квадратичне правило прийняття рішень (ППР) набуває вигляду:

, (3)

де - нормована оцінка енергетичного спектра мовного сигналу, - ваговий коефіцієнт, - оцінка порога.

В алгоритмах виявлення мовного сигналу виноситься рішення про наявність вокалізованого фрагмента мовного сигналу в к-й вибірці, якщо виконується нерівність , та рішення про наявність невокалізованого фрагмента мовного сигналу, якщо , де , , при цьому - i-а складова оцінки енергетичного спектра для k-ї вибірки, , - вагові коефіцієнти для вокалізованих та невокалізованих вибірок мовного сигналу.

Розглянуто алгоритми сегментації слів[3]: 1)За середньою частотою енергетичного спектра; 2)За різницею енергій у НЧ і ВЧ смугах мовного сигналу; 3)За ознаками нуль-перетинання.

Розглянуто обчислення граничних рівнів , , яке провадиться за результатами визначення локальних мінімумів сусідніх справа і зліва від глобального максимуму гістограми розподілу вирішальних статистик.

Розглянуто алгоритми сегментації слів мови за ознаками корельованості. В алгоритмі виявлення мовного сигналу у вибірках за ознаками періодичної корельоваваності виноситься рішення про його наявність у к-й вибірці, якщо

, (4)

де -i-й відлік k-ї вибірки після нормування за енергією. Часовий зсув t може вибиратися експериментально з метою визначення максимуму функціоналу .

Розглянуто формантний алгоритм сегментації слів мови, що використовує авторегресійне спектральне оцінювання.

На основі первинної сегментації слів за формантними ознаками виноситься рішення про наявність мовної інформації в n-му сегменті у випадку, якщо

, (5)

де - оцінки частот i-ї форманти n-го сегмента; - еталонні оцінки частот i-ї форманти, отримані усередненням оцінок для декількох сегментів, що відповідають паузі мови; - вагові коефіцієнти.

Межі слів обчислюються за принципом часової компактності з виключенням пауз тривалості, яка не більш заданої.

В третьому розділі розглянуто алгоритми розпізнавання слів.

Розглянуто постановку задачі розпізнавання слів диктора в каналах зв’язку. Навчальні вибірки для кожного з дикторів задані у виді класифікованих навчальних вибірок. Вважається, що час появи слова в мовному сигналі апріорі невідомий. Якість алгоритму розпізнавання оцінюється сукупністю показників ефективності розпізнавання сигналів і стійкості алгоритмів до впливу адитивної завади .

Як показник ефективності використовується середня ймовірність правильного розпізнавання при малому рівні завади. Під показником стійкості алгоритмів розуміється значення середньої ймовірності правильного розпізнавання під час впливу адитивної завади в каналі з заданим відношенням сигнал-шум.

Ставиться задача побудувати оптимальний S0 алгоритм, що за даною реалізацією мовного сигналу виносив рішення про приналежність вимовлених слів до заданих класів і забезпечував би максимум у класі робастних алгоритмів, тобто

Синтез алгоритмів розпізнавання виконаний із застосуванням різноманітних алгоритмів оцінювання ознак і різноманітних мір близькості.

Алгоритми попередньої обробки звукових сигналів забезпечують стійкість алгоритмів розпізнавання мови до впливу адитивного гаусівського корельованого шуму. Розглянуто особливості попередньої обробки в умовах дії корельованих та вузькосмугових завад із застосуванням авторегресії ковзного-середнього [9], решітчастих фільтрів [6], та захисту від завад в спектральній області. Дія попередньої обробки зводиться до фільтрації мовного сигналу за результатами оцінювання параметрів фільтрів у паузах між словами. Таким чином відбувається декореляція (вибілювання) сигналу в паузі.

Розглянуто особливості обчислення формантних частот за кепстром

, (6)

де - згладжений кепстр сигналу; вектор оцінок ={, }; - векторна функція, що ставить у відповідність послідовності x1,x2,…,xN упорядковану множину аргументів локальних максимумів.

Розглянуто енергетичний алгоритм обчислення формантних частот

, (7)

де - оцінки кореляційної функції мовного сигналу.

Алгоритм оцінювання формантних частот на основі моделі лінійного передбачення мовних сигналів припускає таку послідовність кроків. За кожною v-ю вибіркою оцінюється кореляційна функція еталонів . У випадку незалежності сигналу і завади кореляційна матриця еталонів обчислюється на етапі розпізнавання , де - вихідна кореляційна матриця; - кореляційна матриця завади. При дії білого шуму високого рівня кореляційна матриця еталона , де - кореляційна матриця еталону; I - одинична матриця, , - дисперсія сигналу на вході пристрою розпізнавання та на етапах навчання та розпізнавання еталона відповідно. Оцінювання коефіцієнтів авторегресії виконують за методом Левінсона. Оцінка формантних частот на основі моделі авторегресії визначається відповідно до виразу

. (8)

Обчислення формантних частот за псевдоформантним (модифікованим АР) методом виконується відповідно до виразу

(9)

де - коефіцієнт близький до одиниці (наприклад, ).

Вектор оцінок формантних частот із застосуванням спектральних оцінок за методом мінімуму дисперсії

, (10)

де коли , та коли ; - дисперсія білого шуму; .

Алгоритм розпізнавання має вигляд

де , - вагові коефіцієнти; пряма та реверсна статистики і побудовані на основі метрик , або логарифмічної міри ; - оцінки частот i-ї форманти n-го сегмента; - оцінки частот i-ї форманти n-го сегмента для l-го еталона; - вагові коефіцієнти.

формантні частоти за формантно-смуговим методом з урахуванням різної завадової обстановки на етапі навчання обчислюють за формулою

, (11)

а на етапі розпізнавання

де - оцінка відношення сигнал-шум на етапі навчання і розпізнавання відповідно; - вагова функція з урахуванням спектра завади і характеристики фільтра попередньої обробки мовного сигналу; де функція =1, якщо , та =0, коли .

На другому етапі процедура обчислення формант виконується із застосовуванням граничних частот , , де - форманти, обчислені на попередньому етапі.

Розпізнавання для v-го сегмента мовного сигналу виконують у вигляді

). (12)

Для міри побудованої в просторі оцінок нормованих амплітуд і частот формант локальна відстань обчислюється як

де r, r1 - параметри міри (експериментально отримано, що найменша ймовірність у змісті мінімуму середньої ймовірності помилки Pпом розпізнавання r=1/2); , - оцінки часових меж початку і кінця u сегмента навчальної вибірки і; , - оцінки часових меж початку і кінця v-сегмента сигналу. Функція g(x) задається як , а для логарифмічної міри - .

Вибір рішення про присутність заданого слова з множини заданих на основі моделі у вигляді суміші полігаусівських розподілів формантних частот приймається з умови

, (13)

де .

Вибір рішення про присутність заданого слова з множини заданих на основі моделі у вигляді суміші розподілів Коші формантних частот приймається з умови

, (14)

де - параметр розподілу Коші, - циклічна смуга частот формант.

Розглянуто розпізнавання слів мови на основі моделі авторегресії ковзного-середнього (АРКС) [9]. Обчислення оцінок коефіцієнтів авторегресії та коефіцієнтів відбиття виконують методом Левінсона з корекцією кореляційної матриці еталонів залежно від рівня завад на етапі розпізнавання. Під час дії білого шуму високого рівня на вході пристрою скоректована кореляційна матриця еталона , де - кореляційна матриця еталона; I - одинична матриця, - дисперсія адитивного білого шуму в суміші на вході пристрою розпізнавання.

Оцінювання помилки передбачення виконується відповідно до алгоритму , де - результат вибілювання фільтром попередньої обробки на етапі навчання.

Далі виконується оцінювання кореляційної функції помилки передбачення і її корекція з урахуванням рівня завад. Оцінки коефіцієнтів ковзного-середнього фільтра обчислюються після нормування кореляційної функції помилки передбачення .

Алгоритм оцінювання результату АРКС фільтрації на етапі розпізнавання описується двома різницевими рівняннями

; .

Розглянуто алгоритми розпізнавання мови на основі результату вибілювання сигналу решітчастими фільтрами. Коефіцієнти відбиття знаходять відповідно до геометричного методу або до методу максимальної ентропії Бурга з навчальних вибірок еталонів. Розглянуто особливості обчислення оцінок коефіцієнтів відбиття методом Левінсона з корекцією кореляційної матриці еталонів.

Рішення для к-го сегмента про наявність заданої мовної одиниці виноситься відповідно до виразу

, (15)

де - оцінка дисперсії сигналу з виходу АРКС фільтра для одного блоку, M- кількість еталонів.

Розглянуто вирішення задачі розпізнавання мови на основі процедур динамічного програмування (ДП). Обчислення відстаней починається від кінців сегментів слів і завершується до їхнього початку. рекурентне рівняння подається в такий спосіб:

(16)

Рішення для к-го сегмента про наявність заданої мовної одиниці приймається за правилом .

Розглянуто алгоритми розпізнавання слів мови за коефіцієнтами відбиття та логарифмами відношень площин перетинів голосового тракту. У випадку, коли відстань задається як середнє для всіх еталонів, то рішення про наявність заданого слова приймається за правилом

, (17)

де S – кількість еталонів на одне слово, - кількість блоків у s-му еталоні v слова.

Відстань із застосуванням коефіцієнтів відбиття

. (18)

Відстань із застосуванням логарифма відношення площ перетинів голосового тракту

, (19)

де - відношення площ перетинів голосового тракту.

Розглянуто вирішення задачі розпізнавання мови з використанням процедур ДП. Обчислення починається від кінців сегментів слів і завершується до їхнього початку. рекурентне рівняння алгоритму подається в такий спосіб:

(20)

Рішення для к-го сегмента про наявність заданої мовної одиниці приймається за правилом

. (21)

Розглянуто алгоритм розпізнавання слів з використанням відмінностей моментних функцій в умовах дії завад. Вибіркові значення оцінок моментних функцій стаціонарних процесів

(22)

Рішення на основі оцінок моментних функцій 3-го порядку визначається як

. (23)

Рішення по середніх мірах приймається на основі оцінок моментної функції

, (24)

де - функція, наприклад , r - параметр відстані.

У четвертому розділі наведено результати експериментального дослідження запропонованих алгоритмів. Із застосуванням пакета для розпізнавання звукових сигналів, створеного із застосуванням середовища візуального програмування "Delphi 4-7", виконано статистичні іспити алгоритмів розпізнавання слів мови. Іспити проводилися на основі даних, введених в ПК з телефону через звуковий інтерфейс із частотою дискретизації 8 кГц. Експериментально отримані результати підтвердили високу ефективність авторегесійоного алгоритму розпізнавання для параметрів =0,8; =1, де середня ймовірність правильного розпізнавання десяти слів склала 0,95. На рис.1 зображена залежність ймовірності правильного розпізнавання від відношення сигнал-шум для випадків: 1 - енергетичного методу оцінювання формант, 2 - авторегресійного (порядок моделі 12), 3- псевдоформантного (порядок моделі 13), 4 та 5 - кепстрального із порядком моделі 12 і 20 відповідно.

Рис.1 Рис.2

Рис.3 Рис.4

Рис.5 Рис.6 Рис.7

У табл.1 наведено результати дослідження 8 варіантів пристроїв розпізнавання слів, що відрізняються типом алгоритму оцінювання формантних ознак, або типом ППР. Варіанти алгоритмів обчислення формантних частот: AР- із застосуванням спектральних оцінок на основі моделі авторегресії; АРМ12- псевдоформантний для порядку моделі 12; КС12 - при кепстральному згладжуванні для порядку моделі 12; КС20- при кепстральному згладжуванні для порядку моделі 20; Е- енергетичного (за корелограмно-періодограмним методом) ; МД- спектральних оцінок мінімуму дисперсії. Варіанти ППР - мір близькості ознак: ЛМ- лінійна міра; М1/2- міра ступеня 1/2; КМ- квадратична міра; ЛОМ- логарифмічна міра. З табл. 1 видно, що варіант оптимального пристрою залежить від вимог стійкості. Якщо задати припустиме значення показника стійкості 0,75, то найкращим показником буде пристрій з алгоритмом обчислення формант за передбаченням і ППР із логарифмічною мірою.

Експериментальні дослідження формантно-смугових алгоритмів розпізнавання слів мови, що відрізняються або типом алгоритму оцінювання ознак, або типом ППР (табл.2), проводилися методом статистичних іспитів на 10-и вибірках для кожного з 10-и слів 3-х дикторів. Варіанти алгоритмів обчислення ознак для розпізнавання слів: ЧАНСП2 - двоетапне визначення кількості нулів у смугах формантних частот і нормованих амплітуд формант; АНСП2 - двоетапне визначення нормованих амплітуд формант; ЧНСП2- двоетапне визначення кількості нулів у смугах формантних частот; ЧНСП - кількість нулів у смугах формантних частот. Варіанти ППР: ЛМ - лінійна міра; М1/2- міра ступеня 1/2; КМ- квадратична міра; ЛОМ- логарифмічна міра. На рис. 2 зображена залежність оцінок ймовірностей правильного розпізнавання слів для формантно-смугових алгоритмів від кількості еталонів s одного диктора для: 1-для мінімальних мір близькості; 2-для середніх мір близькості; 3- для алгоритму у вигляді суміші розподілів Коші. У табл.3 наведено результати дослідження ряду варіантів пристроїв розпізнавання слів із застосуванням двоетапного формантно-смугового оцінювання .

В експерименті за дослідженням впливу помилки сегментації на якість розпізнавання слів до точно обчислених меж початку і кінця слова додавався гаусів білий шум заданої дисперсії ?2. Результати дослідження показали, що розроблені алгоритми мають різну чутливість до помилок сегментації. На рис.3 показана залежність ймовірності правильного розпізнавання від дисперсії оцінки початку і кінця слів для: 1-формантно-смугового алгоритму з діапазоном пошуку по блокам рівним 2 і 2- формантно-смугового алгоритму у вигляді суміші розподілів Коші при усередненні за 2-ма блоками.

На рис. 4 зображена залежність ймовірності правильного розпізнавання Pпр.ср. від відношення сигнал-шум q2 розпізнаваного мовного сигналу формантно-смугового алгоритму у вигляді суміші розподілів Коші при відношенні сигнал-шум еталона: 1- q2=1; 2- q2=2; 3- q2=8. Максимальна ймовірність правильного розпізнавання слів мови для двоетапного формантно-смугового алгоритму оцінювання формант та використання суміші розподілів Коші буде у випадку, коли відхилення відношення сигнал-шум еталона і поточного мовного сигналу мінімальна (рис.4). Оцінка середньої ймовірності правильного розпізнавання десяти слів для алгоритму з використанням суміші розподілів Коші під час застосування для кожного з 100 розпізнавань трьох еталонів була =0,986.

Для алгоритмів розпізнавання слів мови на основі вибілювання сигналу за допомогою решіткових фільтрів при одному еталоні на кожне слово середня ймовірність правильного розпізнавання слів мови 0,91, а під час дії вузькосмугових і некорельованих завад з відношенням сигнал-шум q2=1 ймовірність правильного розпізнавання - 0,88.

На рис. 5 наведена залежність ймовірності розпізнавання від кількості еталонів s для алгоритмів:1 - по оцінках коефіцієнтів відбиття; 2 - за ознаками логарифмів відношення площ перетинів голосового тракту.

Алгоритм розпізнавання слів на основі моделі АРКС дозволив отримати за відсутності завад у каналі зв'язку й одному еталоні на кожне з десяти слів імовірність правильного розпізнавання 0,92, а при трьох еталонах на кожне слово ймовірність правильного розпізнавання - 0,96. Під час дії вузькосмугової завади із центральною частотою 1500 Гц, смугою 100 Гц і відношенням сигнал-шум за потужністю середня ймовірність правильного розпізнавання десяти слів тим же алгоритмом розпізнавання - 0,91.

На рис. 6 показана залежність середньої ймовірності правильного розпізнавання Pп від відношення сигнал-шум q2 для алгоритму розпізнавання з використанням знакових функцій від оцінок тривимірних моментних функцій. При відношенні сигнал-шум q2=0 дБ для цього алгоритму середня ймовірність правильного розпізнавання .

З метою вивчення впливу рівня адитивної завади на результуючі показники якості сегментації експериментально досліджено залежність дисперсії оцінок часу початку і кінця слова від відношення сигнал-шум q.

На рис. 7 наведена залежність дисперсії оцінювання часових меж сегментів слів мови від відношення сигнал шум q для алгоритмів:1-енергетичними ознаками з вибілюванням; 2 - ознаками нуль-перетинання з вибілюванням; 3-за ознаками корельованості для t=1; 4-формант (модифікований) для порядку моделі 12.

Таблиця 4

Алгоритми сегментації слів | D, с2 | D,с2, q=13

За енергетичними ознаками з вибілюванням | 0,00025 | 0,00053

За енергетичними ознаками без вибілювання | 0,0024 | 0,0036

За середньою частотою енергетичного спектра з вибілюванням | 0,00099 | 0,0048

За різницею енергій у НЧ і ВЧ смугах з вибілюванням | 0,00115 | 0,0054

За ознаками нуль-перетинання з вибілюванням | 0,00123 | 0,00354

За ознаками корельованості для t=1 | 0,00063 | 0,00094

Формант (модифікований) для порядку моделі 12 | 0,00206 | 0,0027

У табл.4 наведено результати дослідження 7 варіантів пристроїв сегментації слів, що відрізняються типом алгоритму оцінювання початку і кінця слова. З таблиці видно, що тип пристрою в значенні критерію максимуму дисперсії оцінювання часового положення слів, залежить від вимог стійкості. Якщо задати припустиме значення показника стійкості Ку(s) відповідному відношенню сигнал-шум q=13, то найкращим за показником дисперсії оцінювання часового положення D буде алгоритм сегментації слів за енергетичними ознаками з вибілюванням.

Отримано оцінку якості кодування голосу з використанням кодека GSM6.10 на основі розпізнавання слів мови за коефіцієнтами відбиття де використані еталони оригінальних слів мови, що існували до кодування. Середня ймовірність правильного розпізнавання кодованого та декодованого сигналу кодеком GSM6.10 - 0,95, а для кодеків g721 – 0,6 відповідно.

Для експериментальних досліджень отриманих алгоритмів розпізнавання можна отримати регресійну залежність виду

де a,b,c - вагові коефіцієнти,- середня ймовірність правильного розпізнавання.

У висновку наведено основні результати і сформульовано основні висновки дисертаційної роботи.

ОСНОВНІ РЕЗУЛЬТАТИ ТА ВИСНОВКИ

1. Розроблено метод розпізнавання слів мови на основі оцінювання дисперсії результатів вибілювання сигналу фільтрами АРКС, що дозволяє підвищити стійкість алгоритму розпізнавання слів в умовах дії гаусівського білого шуму і вузькосмугових завад за рахунок корекції оцінок коефіцієнтів АРКС еталонів залежно від рівня білого шуму в каналі зв'язку, а також за рахунок попереднього вибілювання мовного сигналу фільтрами АРКС для захисту від вузькосмугових завад.

Набув подальшого розвитку метод роздільного оцінювання параметрів АР і КС з використанням корекцій кореляційної функції, що включає віднімання залишкового шуму в пристроях придушення завад при сумісній дії гаусівського білого шуму і вузькосмугових завад. показана доцільність застосування вирівнювання спектру сигналу в паузі для збільшення ймовірності правильного розпізнавання слів мови.

Експериментально показано, що ймовірність правильного розпізнавання слів мови на основі вибілювання сигналу фільтрами АРКС у разі використання трьох еталонів на кожне слово буде 0,96.

2. Набув подальшого розвитку метод розпізнавання слів мови на основі оцінювання дисперсії результатів вибілювання мовного сигналу решітчастими фільтрами, що дозволяє підвищити стійкість алгоритму розпізнавання слів в умовах дії гаусівського білого шуму і вузькосмугових завад за рахунок корекції коефіцієнтів відбиття еталонів залежно від рівня білого шуму в каналі зв'язку, а також за рахунок попереднього вибілювання мовного сигналу для захисту від вузькосмугових завад.

Експериментально отримано, що для алгоритмів розпізнавання слів мови на основі вибілювання сигналу за допомогою решітчастих фільтрів при одному еталоні на кожне слово середня ймовірність правильного розпізнавання слів мови не менше 0,91. Показано, що при відношенні сигнал-шум q2=1 і дії вузькосмугових і некорельованих завад ймовірність розпізнавання 0,88.

3. Набув подальшого розвитку метод розпізнавання слів мови, який стійкий до дії корельованих, некорельованих завад на основі оцінок коефіцієнтів відбиття, логарифмів відношення площ перетинів голосового тракту.

Показано можливість розпізнавання десяти слів мови за оцінками коефіцієнтів відбиття при 6 еталонах на кожне слово з ймовірністю правильного розпізнавання 0,975, а з використанням логарифмів відносин площ перетинів голосового тракту при 6 еталонах на кожне слово з ймовірністю правильного розпізнавання 0,94.

4. Набув подальшого розвитку метод розпізнавання мови за формантними ознаками, стійкий до дії некорельованих завад. Запропоновано при розпізнаванні за формантними ознаками використовувати логарифмічні і лінійні міри з одночасним пошуком мінімуму цільової функції за номерами формант і часових зсувів від початку і кінця слова.

Експериментально показано, що найкраща якість розпізнавання мови серед формантних алгоритмів буде у разі оцінювання формант на основі методу лінійного прогнозу під час використання логарифмічних і лінійних мір. При цьому, для такого алгоритму під час використання одного еталону на кожне слово ймовірність правильного розпізнавання 0,95.

5. Розроблено новий метод завадостійкого розпізнавання мови на основі знакових функцій від оцінок тривимірних моментних функцій.

Показано можливість розпізнавання мови за знаковими функціями від три-і чотиривимірних кореляційних функцій під час використання одного еталону на кожне слово з ймовірністю правильного розпізнавання 0,92, а при відношенні сигнал-шум q2=0 дБ з ймовірністю правильного розпізнавання 0,8.

6. Вперше розроблено метод адаптивного розпізнавання слів мови на основі двохетапних формантно-смугових ознак мовних сигналів з імовірнісною мірою у вигляді полігаусівських розподілів і суміші Коші.

Показано, що якнайкраща якість розпізнавання слів мови серед формантно-смугових мають алгоритми з використанням заходів мір 1/2 і лінійних мір. Експериментально показано, що під час використанні одноетапних формантно-смугових алгоритмів найбільша ймовірність розпізнавання 0,95, у разі двоетапних формантно-смугових алгоритмів 0,97.

Експериментально показано можливість розпізнавання слів мови з використанням двоетапних формантно-смугових алгоритмів на основі сумішей Коші з ймовірністю правильного розпізнавання 0,975, а при полігаусівському розподілі з ймовірністю – 0,95.

7. Експериментально показано, що з розроблених алгоритмів оцінювання часових меж слів на основі: ознак перетинів нуля з вибілюванням, енергетичних з вибілюванням, компонентних статистик у рамках моделі ПКСП з вибілюванням, формантних ознак з вибілюванням, якнайкращим за точністю оцінювання є енергетичний алгоритм з вибілюванням, для якого отримано середньоквадратичне відхилення меж слів мови 15 мс за відсутності завад у каналі зв'язку і 23 мс при відношенні сигнал-шум q=13.

8. Запропоновано метод оцінки якості передачі мовного сигналу та досліджено ефективність систем автоматичної оцінки якості мови під час застосування кодеків GSM6.10 та g721. Проведено попередні експерименти, що показують, що усереднена автоматична оцінка якості мови під час розпізнавання мови на основі коефіцієнтів відбиття дозволяє оцінювати якість мови, що передається в мережах зв’язку та поєднати визначення якості мови з визначенням оцінок за МOS.

9. Основні результати роботи знайшли своє застосування в ХНУРЕ.

10. Перспективними напрямами подальших досліджень можуть бути розробка методів розпізнавання мови на основі врахування негаусівських завад та врахування властивостей нестаціонарності мовних сигналів.

СПИСОК ОПУБЛІКОВАНИХ ПРАЦЬ ЗА ТЕМОЮ ДИСЕРТАЦІЇ

1.Омельченко С.В. Выделение стационарных компонент бипериодически коррелированных случайных процессов методом фильтрации// Радиотехника. Научно-технический сборник 2001. №.117 С. 58 -62.

2. Пресняков І.М., Омельченко А.В., Омельченко С.В. Автоматическое распознавание речи в каналах передачи// Радиоэлектроника и информатика. научно-технический журнал 2002. №1.С.26-31.

3. Пресняков І.М., Омельченко С.В. Помехоустойчивые алгоритмы сегментации речи в системах обработки/ Радиотехника. Всеукраинский межведомственный научно-технический сборник. 2003. №131.С. 165-177.

4. Пресняков І.М., Омельченко С.В. Автоматическое распознавание раздельных слов и фонем речи/ Радиоэлектроника и информатика. Научно-технический журнал 2003. №2.С. 41-47.

5. Пресняков І.М., Омельченко С.В. Алгоритмы распознавания фонем речи/ Радиотехника. Всеукраинский межведомственный научно-технический сборник. 2003. №135. С. 180-189.

6. Пресняков І.М., Омельченко С.В. Распознавание речевого сигнала на фоне коррелированной помехи/ Радиотехника. Всеукр. Межвед. Научн.-техн. Сб. 2004. Вып. 137. С. 23 - 30.

7. Пресняков І.М., Омельченко С.В. Алгоритмы распознавания речи/ Автоматизированные системы управления и приборы автоматики. 2004. №126. С. 136 - 145.

8. Пресняков І.М., Омельченко С.В. Распознавание фонем речи/ Радиоэлектроника и информатика. Научно-технический журнал. 2004. №3.
С. 59-63.

9. Пресняков І.М., Омельченко С.В. Распознавание речевого сигнала на фоне белого шума и узкополосной помехи/ Прикладная радиоэлектроника. Научно-технический журнал, 2004. Том 3. № 2. Харьков. С.29-35.

10.Омельченко С.В., Преснякова В.В. Алгоритмы распознавания изображений по спектру// Проблемы бионики. Научно-технический сборник 2004. Вып.60. С. 118 -121.

11. Пресняков І.М., Омельченко А.В., Омельченко С.В. Автоматическое распознавание служебной речевой информации в корпоративных сетях связи. Сборник научных трудов по материалам 7-й международной конференции "Теория и техника передачи, приема и обработки информации ", Харьков, 2001. С.30-31.

12. Пресняков І.М., Омельченко С.В. Помехоустойчивые алгоритмы распознавания речи. Сборник научных трудов по материалам 8-й международной конференции "Теория и техника передачи, приема и обработки информации ", Харьков.2002. С.116-118.

13. Пресняков І.М., Омельченко С.В. Алгоритмы распознавания речи на основе модели линейного предсказания. Сборник тезисов докладов по материалам 10-й Юбилейной международной научной конференции "Теория и техника передачи, приема и обработки информации ". Часть 1. Харьков-Туапсе.2004. С.77-78.

14. Пресняков І.М., Омельченко С.В. Распознавания речи по моментным функциям Сборник научных трудов 2-го Международного радиоэлектронного форума “Прикладная радиоэлектроника. Состояние и перспективы развития”, Харьков, 2005. С.265-268.

15. Омельченко B.А., Омельченко A.В., Омельченко С.В., Безрук В.М. Устройство для выделения признаков при распознавании случайных сигналов Авторское свидетельство СССР №1797134, кл. G 06 K 9/00, 1993.

16. Пресняков І.М., Омельченко А.В., Омельченко С.В. Оценивание качества речи в канале связи. Сборник научных трудов 1-й Международной научной конференции "Глобальные информационные системы. Проблемы и тенденции развития", Туапсе. 2006. С.342-343.

АНОТАЦІЯ

Омельченко С.В. Методи та засоби контролю якості передачі мови в цифровій телефонії. Рукопис.

Дисертація на здобуття наукового ступеня кандидата технічних наук за спеціальністю 05.12.13 - радіотехнічні пристрої та засоби телекомунікацій. - Харківський національний університет радіоелектроніки, Харків, 2006 р.

Дисертацію присвячено питанням контролю якості передачі мови та розпізнавання мовних повідомлень у телекомунікаційних каналах зв’язку. Виконано синтез структури системи розпізнавання слів мови за векторним критерієм з показниками якості ймовірність правильного розпізнавання мовного сигналу та показнику завадостійкості. Розроблено стійкі до впливу гаусова білого шуму і корельованих завад алгоритми розпізнавання слів за формантними ознакам, результатами вибілювань фільтрів на основі авторегресій ковзного-середнього, решіткових фільтрів, коефіцієнтів відбиття, та логарифмів відношень площ зрізів голосового тракту. Розроблено адаптивні алгоритми враховуючі завадову обстановку (корельованість та некорельованість, співвідношення сигнал-шум) і розходження в еталонах. Побудовано адаптивні алгоритми на основі сумішей Коші і полігаусівских розподілів формант. Розроблено алгоритми розпізнавання за три-, та чотиривимірними моментними функціями. Вироблено рекомендації щодо використання розроблених алгоритмів та виконано оптимізацію

Сторінки: 1 2

��
��...

Наступні 7 робіт по вашій темі:

▪ Вміст ліпідів у тканинах щурів за дії хлоридів важких металів та в умовах профілактичного введення пентоксифіліну - Автореферат - 31 Стр.
▪ ФОРМУВАННЯ УКРАЇНСЬКОЇ ЕКОЛОГІЧНОЇ ТЕРМІНОЛОГІЇ - Автореферат - 28 Стр.
▪ Застосування електровпливу в процесі подрібнення магнетитових кварцитів з метою підвищення ступеня розкриття мінералів і якості концентрату - Автореферат - 23 Стр.
▪ ОЦІНКА СТРУКТУРНО-ФУНКЦІОНАЛЬНОГО СТАНУ КІСТКОВОЇ ТКАНИНИ ХРЕБТА ЗА РЕНТГЕНМОРФОМЕТРИЧНИМИ ПОКАЗНИКАМИ В ЛЮДЕЙ РІЗНОГО ВІКУ ТА СТАТІ - Автореферат - 30 Стр.
▪ ТЕРИТОРІАЛЬНА ОРГАНІЗАЦІЯ АГРОПРОМИСЛОВОЇ ІНТЕГРАЦІЇ УКРАЇНИ - Автореферат - 28 Стр.
▪ фізико-технологічні основи електроерозійного дротяного візання - Автореферат - 59 Стр.
▪ Характеристика продуктивності та біологічних особливостей норок різних типів - Автореферат - 29 Стр.