Автореферат РОЗРОБКА МЕТОДІВ ТА ЗАСОБІВ ПІДВИЩЕННЯ ЕФЕКТИВНОСТІ СТИСКУ МОВНИХ СИГНАЛІВ В ТЕЛЕКОМУНІКАЦІЙНИХ СИСТЕМАХ ДЛЯ ІР-ТЕЛЕФОНІЇ

Автореферат - РОЗРОБКА МЕТОДІВ ТА ЗАСОБІВ ПІДВИЩЕННЯ ЕФЕКТИВНОСТІ СТИСКУ МОВНИХ СИГНАЛІВ В ТЕЛЕКОМУНІКАЦІЙНИХ СИСТЕМАХ ДЛЯ ІР-ТЕЛЕФОНІЇ

Загрузка...

ЗАГАЛЬНА ХАРАКТЕИСТИКА РОБОТИ

НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ "ЛЬВІВСЬКА ПОЛІТЕХНІКА"

Колодій Роман Степанович

УДК 621.395.34

РОЗРОБКА МЕТОДІВ ТА ЗАСОБІВ ПІДВИЩЕННЯ ЕФЕКТИВНОСТІ СТИСКУ МОВНИХ СИГНАЛІВ В ТЕЛЕКОМУНІКАЦІЙНИХ СИСТЕМАХ ДЛЯ ІР-ТЕЛЕФОНІЇ

05.12.13 – радіотехнічні пристрої та засоби телекомунікацій

АВТОРЕФЕРАТ

дисертації на здобуття наукового ступеня
кандидата технічних наук

Львів – 2007

Дисертацією є рукопис

Робота виконана у Національному університеті "Львівська політехніка" Міністерства освіти і науки України

Науковий керівник – | доктор технічних наук, професор

Тимченко Олександр Володимирович,

професор кафедри “Телекомунікації”
Національного університету
"Львівська політехніка"

Офіційні опоненти – | доктор технічних наук, професор

Русин Богдан Павлович,

завідувач відділу ”Методів і систем обробки, аналізу та ідентифікації зображень” Фізико-механічного інституту ім. Г.В. Карпенка,
НАН України, м. Львів

доктор технічних наук, професор

Сікора Любомир Степанович,

Центр стратегічних досліджень еко-біо-технічних систем, м.Львів, директор

Провідна установа – | Одеська національна академія зв’язку ім.О.С.Попова
(65029, м. Одеса, вул.Кузнечна, 1)

Захист відбудеться “23“ травня 2007 р. о 16 00 годині на засіданні спеціалізованої вченої ради Д 35.052.10 у Національному університеті "Львівська політехніка" (79013, м.Львів-13, вул. Професорська,2, ауд.218, ХІ корпусу).

З дисертацією можна ознайомитися у бібліотеці Національного університету "Львівська політехніка" (79013, м.Львів, вул.Професорська,1)

Автореферат розіслано “ 19 “ квітня 2007 р.

Вчений секретар спеціалізованої

вченої ради, к.т.н., доцент Бондарєв А.П.

ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ

Актуальність теми. Обмеженість пропускної здатності каналів зв’язку і збільшення потоків передавання даних, проблема ефективної компресії мультимедійних сигналів, які займають основну частину трафіку, вимагає свого вирішення в нових умовах. Частиною таких даних є оцифрований звуковий сигнал телефонної мережі загального користування (ТфЗК). Передача його через мережі з комутацією каналів вочевидь неефективна через нестаціонарність самого сигналу, а передача через мережі з комутацією пакетів неефективна через надлишковість при рівномірному завантажені кодерів. Альтернативою, яка дозволяє в деякій мірі врівноважити обидві проблеми, є застосування принципів ІР-телефонії (Internet Protocol), в якій рівномірний широкосмуговий цифровий потік з кодера перетворюється у нерівномірний вузькосмуговий потік, який зручно передавати через мережі з комутацією пакетів. На кожному з етапів перетворення мовного сигналу існують значні втрати якості, особливо вагомим з яких є якість кодування в самому кодрі, нерівномірна затримка в мережі (джиттер) і втрати пакетів через неідеальність мережі.

Через нестаціонарність мовного сигналу для параметричного кодування слід застосовувати методи, що близькі до сигналу за формою і параметрами, зі змінною структурою в частотно-часовій області. Серед відомих і апробованих методів слід виділити вейвлет-перетворення, яке має найкращу частотно-часову локалізацію. Проте методи кодування і кодери, що працюють за вказаними принципами ІР-телефонії і на основі вейвлет-перетворення, поки що не розроблені.

Протягом останніх років ведуться інтенсивні розробки для зменшення негативного впливу вказаних мережних факторів і факторів дискретизації на якість отриманого мовного сигналу шляхом розробки нових методів кодування, пакетизації і доставки даних. Серед вчених, які вирішували окремі задачі в області кодування мовних сигналів і реалізацією принципів ІР-телефонії, можна назвати таких відомих зарубіжних та вітчизняних вчених: А.Шафер, Р.Стіл, М.Венедіктов, М.Назаров, Г.Вемян, Б.Русин, О.Тимченко та ін.

Таким чином, дисертаційна робота, присвячена розробці методів і алгоритмів кодування мовних сигналів зі змінною швидкістю, стійких до затримок, втрат пакетів, що забезпечують високу якість зв’язку, актуальна і є подальшим розвитком методів обробки мовних сигналів.

Зв’язок роботи з науковими програмами планами і темами.

Робота виконувалась в рамках держбюджетної теми кафедри телекомунікації Національного університету „Львівська політехніка” „Розробка і дослідження методів підвищення пропускної здатності телекомунікаційних мереж шляхом обробки і ущільнення мультимедійних даних”, номер державної реєстрації 0102U001205, 2003–2005 рр.

Результати дисертаційних досліджень впроваджено в навчальний процес в лекційному курсі та лабораторному практикумі з дисципліни „Канали та системи передавання”, та при проведенні курсів „ІР-телефонії” для слухачів Філії „Центр післядипломної освіти” ВАТ „Укртелеком” (регіональне відділення № м. Львів).

Метою роботи є розробка методів і засобів підвищення якості скомпресованого мовного сигналу для застосування в мережах ІР-телефонії на основі методів вейвлет-перетворення мовного сигналу і його кодування зі змінною швидкістю.

Поставлені у роботі задачі

1. Проаналізувати принципи побудови та визначити характеристики інфокомунікаційних мереж передачі мультимедійних даних, які негативно впливають на якість відтворення мовного сигналу в ІР-телефонії.

2. Здійснити аналіз відомих та розробити нові об’єктивні методи оцінки мовного трафіку та якості кодування мовних сигналів в мережах з пакетною передачею.

3. Обґрунтувати застосування апарату вейвлет-перетворення і методів вибору вейвлет-функції та дослідити методи їх реалізації на основі вейвлет-перетворення для здійснення компресії мовних сигналів.

4. Розробити методи пакетування і дослідження стійкості до втрат пакетів методів вейвлет-кодування мовних сигналів.

5. Реалізувати структури кодерів мовних сигналів з нерівномірною дискретизацією, дослідити їх якість в аспекті психоакустичного сприйняття мови і об’єктивних критеріїв.

6. Виконати комп’ютерні експерименти та порівняти отримані результати з існуючими.

Об’єкт дослідження – процес психоакустичного сприйняття якості відновле-ного з скомпресованого мовного сигналу.

Предмет дослідження – методи компресії мовного сигналу на основі вейвлет-перетворень при нерівномірному кодуванні, затримці і втратах пакетів.

Методи дослідження ґрунтуються на основних положеннях теорії цифрової обробки сигналів і апарату вейвлет-перетворень для компресії мовних сигналів, методів математичної статистики для перевірки адекватності отриманих результатів реальним даним.

Наукова новизна отриманих результатів

1. На основі аналізу принципів побудови інфокомунікаційних мереж передачі мультимедійних даних і мовних сигналів набули подальшого розвитку теоретичні положення алгоритмів функціонування та побудови структур кодерів мовних сигналів для їх ефективної компресії, які враховують негативні впливи на якість передавання і відтворення мультимедійних даних і мовних сигналів в ІР-телефонії.

2. Набули подальшого розвитку методи визначення оптимальних типів вейвлет-функцій для компресії різних видів вхідного сигналу. Порівняльним аналізом методів кодування, компресії і пакетування мовних сигналів для ІР-телефонії показано, що методи на основі вейвлет-перетворення є найбільш стійкими до втрат пакетів.

3. Розроблено і вперше досліджено новий метод кодування і компресії мовних сигналів при передаванні через глобальні мережі. Метод базується на основі вейвлет-перетворення і відрізняється від відомих урахуванням параметрів голосової активності.

4. Обґрунтовано, удосконалено і реалізовано програмними засобами нові об’єктивні методи оцінки якості кодування мовних сигналів, які є значно простішими при застосуванні в реальних мережах з пакетною передачею порівняно з суб’єктивними методами.

5. На запропонованих принципах компресії сигналів та оцінки якості вперше обґрунтовано та розроблено структури кодерів, досліджено їх властивості та якість кодування в реальних режимах роботи.

Практичне значення отриманих результатів

Результати досліджень дозволяють створювати спецпроцесори у вигляді кодерів мовного сигналу для використання в шлюзах ІР-телефонії, що дасть можливість підвищити ефективність компресії мовних сигналів в телекомунікацій-них системах. На основі цих результатів можна розв’язувати нові задачі, пов'язані з вдосконаленням систем перетворення і передачі мовних сигналів в спектрі каналу тональної частоти, проводити дослідження якості обробки та відтворення мовних сигналів в залежності від параметрів методів обробки і каналу зв’язку. Запропоновані методи, засоби і принципи побудови структур кодерів можуть знайти своє втілення при створенні нових пристроїв стиску мультимедійних даних.

Отримані оцінки якості (ступінь компресії порядку 20, бітова швидкість не вище 4,1 кбіт/с, оцінки МОS для відновленого мовного сигналу не нижче 3,8) дозволяють з успіхом рекомендувати розроблені методи і їх реалізацію для заміни стандартних кодерів, що застосовуються в ІР-телефонії.

Особистий внесок здобувача

Особистий внесок здобувача полягає в самостійному отриманні основних наукових результатів, експериментальних досліджень та апробації результатів. Зокрема особистий внесок здобувача полягає в розробці нових ефективних методів кодування мовного сигналу на основі вейвлет-перетворення, що дозволило обґрунтувати і реалізувати нові структури кодерів мовного сигналу стійких до втрат пакетів в мережі, працюючих зі змінною швидкістю кодування і високою якістю відновлення мовного сигналу для використання в ІР-телефонії.

Внесок здобувача в опублікованих працях полягає в наступному:

В [2, 6, 7] – вибір моделі для статистик втрат та затримок пакетів в мережах ІР; [3] – розробка методу оптимізації кадру мовного даних в структурі мовного пакету в мережі ІР-телефонії; [4, ] – розробка методу покращення якості за рахунок аналізу затримки проходження мовних пакетів в структурі ІР-телефонії; [8] – застосування вейвлет-перетворення в при кодуванні мультимедійних даних для уникнення спотворень в стандарті MPEG-4; [5, ] – методика впровадження технології ІР-телефонії для реалізації повномасштабної мультимедійної мережі для засобів масової інформації; [12] – аналіз оцінки якості відтвореного мовного сигналу вокодерною системою; [13] – використання ліфтінг-схеми для обробки коефіцієнтів вейвлет-перетворення з метою оптимізації співвідношення між кількістю обчислень та ступенем стиску мовних сигналів; [15, 20] – дослідження впливу VAD на структуру вихідного потоку ІР-телефонії; [16] – аналіз і порівняння складності існуючих методів оцінки якості трафіку VoIP за рекомендаціями ITU-T; [17, ] – метод кодування мовного сигналу на основі вейвлет-перетворення та провів комп’ютерне моделювання і оптимізацію параметрів кодера; [19] – нові методи об’єктивної оцінки якості відтвореного мовного сигналу; [21] – методика перерахунку MSE-MOS для оцінки якості ІР-телефонії від втрат пакетів в мережі.

Апробація результатів дисертації

Основні результати досліджень були представлені і всебічно обговорені на наступних науково-технічних конференціях:

1. ХХІІ – ХХIV науково-технічних конференціях “Моделювання“ ІПМЕ НАН України. 9_ січня 2003 року, 13-14 січня 2004 року, 11-12 січня 2005 року.

2. Науково-технічна конференція молодих вчених і спеціалістів “Моделювання“ ІПМЕ НАН України. 13січня 2006 року

3. VII і VІII Международных научно-практических конференциях ССПОИ-2003, 2004 „Системы и средства передачи и обработки информации”, г. Одесса.
2-7.09.2003, 7-12.09.2004.

4. Науково-практичних конференціях „Сучасні проблеми телекомунікацій – 2003-2006” 16-17 жовтня 2003 р., 20-22 жовтня 2004 р., 20-23 жовтня 2005 р., 19-22 жовтня 2006 р. – м.Львів.

5. Modern problem of radio engineering, telecommunications and computer science. Proceeding of the International Conference TCSET`2004. Lviv Polytechnic National University. February 24-28, 2004. Lviv-Slavsko, Ukraine.

6. 4-nd Ukrainian Polish Conference ENVIRONMENT MECHANICS,. Lviv 24-26 june 2004. Methods of Computer Science and Simulations.

7. Науково-методичних конференціях „Підготовка фахівців в галузі телекомунікацій і Болонський процес”. 20-23 жовтня 2004 р., 19-22 жовтня 2006 р. – м. Львів.

8. Науково-методичних конференціях „Сучасні проблеми телекомунікацій і підготовка фахівців в галузі телекомунікацій – 2005, 2006”. 20-23 жовтня 2005 р.,
19-22 жовтня 2006 р. – м. Львів.

Публікації за темою дисертації

Матеріали дисертації опубліковано в 34 наукових працях, з них 21 у фахових виданнях згідно переліку ВАК України, 13 – у матеріалах науково-технічних конференцій.

Структура і обсяг роботи.

Дисертація складається зі вступу, п’яти розділів, списку використаних джерел (111 найменувань) та додатків. Загальний обсяг роботи 185 сторінок, з яких основний текст 139 сторінок.

ОСНОВНИЙ ЗМІСТ РОБОТИ

У вступі обґрунтовано актуальність розробки методів і алгоритмів компресії і кодування мовних сигналів зі змінною швидкістю, стійких до втрат і затримок пакетів, що забезпечують високу якість зв’язку в мережах ІР. Вказано на зв’язок роботи з науковими програмами, сформовано мету і задачі досліджень, наукову новизну і практичне значення отриманих результатів. Подані дані про особистий внесок автора, апробацію результатів роботи та публікації.

В першому розділі проведено літературний огляд стану проблеми і аналіз принципів побудови інфокомунікаційних мереж ІР-телефонії. Розглянуто схеми організації мовного зв’язку в ТК-мережі, які можуть відбуватися за різними технологіями, виконано порівняння технологій Voice over IP (VoIP), Voice over ATM (VoATM) і Voice over Frame Relay (VoFR).

Перетворення, які зазнає мовний сигнал (МС) в телекомунікаційній системі для ІР-телефонії передбачає:

· аналого-цифрове перетворення (дискретизацію > квантування > кодування),

· сегментацію кодових послідовностей (створення мовних кадрів тривалістю від 20 до 50 мс, що відповідає властивостям слухової системи людини);

· компресію мовних кадрів (зменшення об`єму цифрових даних, необхідних для представлення звукового сигналу із заданою якістю, що дає можливість підви-щити ефективності використання пропускної здатності телекомунікаційних каналів).

Створені таким чином мовні кадри (об’ємом VM.K.), проходять пакетизацію, що передбачає додавання службового заголовку (Vс.і.ІР) до скомпресованих даних для маршрутизації пакету в ІР-мережі. Оскільки мовні дані повинні передаватись по мережі в реальному часі, то виникає необхідність забезпечення безперешкодного, безвтратного та з мінімальною затримкою проходження мовних пакетів, причому швидкість доступу до глобальної ІР-мережі (Uф.к) повинна була не нижчою за швидкість бітового потоку (UМ.К), який генерує кодер МС. Звідси швидкість передачі кадру по мережі ІР повинна становити:

, (1)

Кількість мовних трактів N, організованих по доступному фізичному каналу і відповідна затримка пакетування (Tп – тривалість кадру):

N=Uф.к /UІР, tп= Tп /UIP. (2)

Аналіз функціонування ІР-мережі дозволив виявити параметри, які визначають сприйняту якість сервісу (QoS – Quality of Service) і впливають на якість відтворення мови – затримка, втрати і зміни затримки пакетів (джиттер). Відомо, що ефективні методи компресії МС є втратними, крім того QoS знаходиться в прямій залежності від втрат пакетів в мережі. Тому для забезпечення відповідної якість сервісу QoS необхідно провести аналіз функціонування мережі та методів компресії мовного сигналу, визначити їх взаємний вплив і зміну при цьому показника QoS.

В роботі проведено аналіз всіх можливих місць виникнення затримки та її вплив на QoS. Величина затримки при передачі мови в IP-мережах, в тому числі при кодуванні і пакетизації голосових кадрів, в одному напрямку не повинна перевищу-вати 150 мс (вимоги стандарту ITU-T G.114). Показано, як кожна з складових затримки може бути мінімізована шляхом вибору програмної та апаратної реалізації.

Мінімізація впливу джиттера забезпечується організацією буфера для перетворення отриманих пакетів в неперервний мовний сигнал реального часу. Розміри буфера визначаються з отриманих законів розподілу втрат пакетів і дають компроміс між величиною запізнення телефонного сигналу в режимі дуплексного зв’язку і процентом втрачених пакетів.

Запропоновано прогнозувати розкид затримки пакетів в ІР-мережі гаусівським розподілом імовірності, який отриманий апроксимацією експериментальних даних у випадку різних швидкостей доступу до мережі ІР:

; (3)

де kn – нормуючий множник, а – затримка.

З (3), де 1=1,3; k1=2,6 апроксимує дані локальної мережі; 2=2,45; k2=2,6 – відповідає швидкості доступу 112 кбіт/с; 3=4,5; k3=1,15 – 56 кбіт/с; 4=5; k4=0,5 – 28 кбіт/с, отримано зв’язок середньоквадратичного відхилення (MSE) затримки мовних пакетів від швидкості доступу в мережу. Ці дані дають можливість вибору часу обробки пакетів маршрутизаторами та оперативної зміни величини буферу.

Проведені розрахунки по апроксимації статистичних даних затримок і втрат мовних пакетів в ІР-телефонії є важливими при проектуванні мереж з відповідною швидкістю доступу і дають можливість прогнозувати втрати пакетів, а як наслідок – якість переданої мови.

Таким чином, мережі з комутацією пакетів не гарантують підтримку показника QoS, оскільки не забезпечують гарантованого шляху проходження мовних пакетів в мережі, що є причиною втрат пакетів. Для більшості стандартизованих кодеків передбачається, що втрата до 3% пакетів непомітна, а понад 10-15% – недопустима, причому ці величини суттєво залежать від алгоритмів компрессії/декомпрессії. Тому для усунення цього недоліку необхідно розробити нові методи кодування МС, які володіють високим ступенем компресії, що дасть можливість підняти ефективність використання існуючих телекомунікаційних каналів та забезпечити високу якість сервісу QoS в реальних мережних умовах.

В другому розділі проведено порівняльний аналіз та дослідження суб’єктивних і об’єктивних методів вимірювання якості МС в ІР-телефонії. Розроблені і досліджені нові методи об’єктивного вимірювання якості.

Метод суб’єктивного вимірювання усередненої експертної оцінки МОS є дорогим і його не можна застосовувати в реальній мережевій інфраструктурі. Об’єктивне вимірювання якості голосу в сучасних комунікаційних мережах може бути з втручанням (методи, що використовують порівняння з оригінальним МС) Р.861, Р.862 (PESQ, PESQM) або без втручання (без порівняння) G.113, G.107 (ICPIF, Е–модель). Отримані значення якості перераховуються в оцінку МОS.
Е–модель є найбільш вживаним методом без втручання, що базується на параметрах мережі для вимірювання якості голосу. Метод дозволяє передбачити МОS безпосередньо з даних ІР-мережі і параметрів кінцевого обладнання (рис.1), проте його застосування вимагає верифікованої бази даних застосовуваного обладнання і параметрів мережі. При зміні будь-якого з компонентів оцінки стають наближеними і недостовірними.

Рис. 1. Схема оцінки якості VoIP за стандартами ITU-T
Рекомендації Р.861, Р.862, G.113, G.107, MSE.

Таким чином, існуючі методи оцінки QoS мають цілий ряд недоліків, до яких в першу чергу слід віднести їхню суб’єктивність (МОS, ICPIF), велику алгоритмічну складність (PESQ) і недостатню достовірність (Е–модель). Крім того, ці методи не завжди дозволяють розділити вплив мережних факторів і факторів обробки на якість зв’язку.

Оскільки при цифровій обробці форми МС отримуємо вибірки значень сигналу, які в подальшому піддаються обробці в кодері та відновленню на приймальній стороні, доцільно проводити оцінку похибки відтвореної форми МС після відновлення. Тому були досліджені методи визначення QoS форми МС, які дозволяють розділити фактори обробки в кодері МС і мережеві фактори (затримку і джиттер) шляхом оцінювання кожного фактору окремо або їх сукупного впливу і їх взаємозв’язок з відомими. До них відносяться:

1. Lр–норма;

2. відношення сигнал шум – SNR;

3. максимальне відношення сигнал-шум – PSNR.

Проведені дослідження по вибору оптимального параметра якості для кодерів форми сигналів дають перевагу Lр–нормі, в першу чергу, MSE оцінці, яка отримується при р=2:

; (4)

де і – оригінальний сигнал і його відновлена копія відповідно.

Оцінку MSE можна віднести до об’єктивних методів, а для підтверд-ження вагомості результатів необхід-но провести перерахунок MSE в MОS

Проте співвідношення між MOS та MSE неявне і залежить від великої кількості факторів: виду кодера, мов-ного сигналу, зміни затримки, втрат пакетів і т.д. Проведені дослідження на основі тестових файлів, що вибиралися з широкої групи чолові-чих, жіночих та дитячих голосів (з якомога більшим розкидом частоти основного тону) і різної тривалості (4–60 с), здійснені шляхом порівняння відомих оцінок МОS для кодерів G.711, G.726 та GSM з обчисленим значенням MSE(Р – середня потужність мовного кадру). Кодери G.711 показали, як і очікувалось, найменше значення MSE, кодери G.726 незалежно від реалізації мають близькі значення MSE1,3найгірші результати показали кодери GSM – MSE5,8(рис. ).

Ці дослідження дозволили отримати залежність MSE від типу кодера, яка приведена на рис. та здійснити перерахунок MSE в MOS (рис.3), що дало можливість проводити об’єктивну оцінку QoS мовного сигналу для різноманітних видів кодерів, в тому числі тих, які будуть створені.

В третьому розділі проведено аналіз існуючих методів компресії і кодування мовних сигналів, визначено їх недоліки і запропоновані шляхи поліпшення показни-ків якості.

Ефективність компресії визначається кількістю біт представлення реконстру-йованого мовного сигналу при заданій його якості. Після компресії сигнал передається через ТК–мережу до споживача, наприклад, по GSM або ІР–мережі, або архівується (CD, DVD). Після декомпресії сигнал відновлюється в декодері і після цього подається для прослуховування.

В середовищі VoIP шлюзи конфігуруються на оцифровку мови за допомогою кодування форми сигналу і гібридних методів коду-вання. Кодери форми сигналу (PCM та АDPCM) характеризуються мінімальними часовими та обчислювальними затратами. Проте їх застосування обмежене через необхідність виділення широкої смуги пропускання і неможливість роботи зі змінною швидкістю кодування.

Гібридні кодери (МРЕG) поєднують кодування форми сигналу з кодуванням параметрів. Параметри використовуються для синтезу фрагменту мови. Такі методи кодування, як МРЕG, не можуть бути застосовані до вузькосмугових каналів через велику кількість додаткової і службової інформації, а також за наявності втрат пакетів в мережі. В противагу, алгоритми кодерів на основі CELP вирізняються високою якістю мовного сигналу, оскільки працюють з його формою, проте їх реалізація має велику обчислювальну складність.

Таблиця 1

Порівняння кодеків за MOS і MSЕ

Кодек | Потік, кбіт/с | Якість

MOS | Тест

MSЕ/P % | Алгоритм роботи | Застосування

G.711 | 64 | 4,2 | 0,015

0,041 | PCM-кодування за законом А

теж, за законом | ТфЗК і VoIP

G.723.1 | 5,3–6,4 | 3,7–3,9– | MP-MLQ | Мультимедіа-зв’язок, VoIP

G.726 | 40, 32, 24

16 | 3,9 (32 кбіт/с) | 1,45

1,11 | IMA ADPCM

MS ADPCM | ТфЗК, радіотелефони

G.728 | 16 | 4,3– | LD-CELP | ТфЗК і VoIP

G.729 | 8 | 4,0– | CS-ACELP | VoATM, VoFR, VoIP

GSM | 13 | 3,7 | 5,7 | LPE/LPC | Мобільний зв’язок

Проведений аналіз та дослідження алгоритмів компресії мовних сигналів, резуль-тати яких представлено у табл. , дозволили встановити, що основними шляхами покращення якості роботи кодеків в мережах з комутацією пакетів є використання:

· методів лінійного передбачення,

· психоакустичних особливостей сприйняття мовного сигналу людиною,

· маскування фрагментів, що мають незначне навантаження,

· динамічного розподілу біт при кодуванні відліків,

· завадостійкого кодування найбільш важливої частини інформації.

Кодери для ІР-мереж, що реалізують такі алгоритми, повинні бути стійкими до втрат пакетів в мережі, забезпечувати згладжування джиттера і мінімальну затримку кодування, а також відповідати особливостям трафіку ІР-мереж – роботі зі змінною швидкістю кодування. Їх головна задача – досягнення максимального стиску МС при мінімальному суб’єктивному відчутті (на слух) спотворень відновленого сигналу. В повній мірі ні один з відомих кодерів не відповідає цим вимогам.

В четвертому розділі розроблено і досліджено новий метод компресії форми МС на основі вейвлет-перетворення, ліфтінгу і цілочисельного кодування.

В результаті аналізу області алгоритмів компресії даних і практичних їх реалізацій було виявлено, що оптимальними є алгоритми, які базуються на дискретному вейвлет-перетворенні (ДВП) та його реалізації у вигляді ліфтінг-схеми.

Вейвлет-перетворення за схемою ліфтінгу включає декілька етапів, в результаті яких з вхідного сигналу отримують дві послідовності відліків – апроксимації та деталізації .

Базис вейвлет-перетворення представляється дискретними значеннями вейвлет-фільтрів , , де . Нехтуючи знаком вибірки, що враховується при зворотному перетворенні, пряме вейвлет-перетворення зводиться до обчислення дискретної згортки:

(5)

де Rp – довжина пакету, Pp – перекриття;

– значення відліку ( i ) в пакеті ( j ), ,

СА і СD – масиви коефіцієнтів апроксимації і деталізації.

Безперечними перевагами такого підходу є те, що:

1) дискретне вейвлет-перетворення дозволяє:

· локалізувати дані як у часовому так і в частотному просторах, що недоступно для класичного перетворення Фур’є, локалізованого лише у частотній області. Ця властивість разом з властивістю масштабування дозволяє вейвлет-перетворенню ефективно описувати широкий спектр особливостей мовних даних, починаючи від плавнозмінних гармонік і закінчуючи високочастотними неоднорідностями потоків даних чи їх різкими змінами;

· сконцентрувати енергію сигналу у невеликій кількості відліків та декорелювати вхідні дані, що спрощує моделювання даних, оскільки послаблюється кореляційні зв’язки між коефіцієнтами та зменшується їх кількість, важлива для відтворення сигналу.

2) застосування ліфтінгу до коефіцієнтів ДВП дає можливість:

· здійснювати ДВП дуже швидко;

· точність відтворення відповідає заданій точності коефіцієнтів .

На сьогодні немає стандарту для вейвлет-компресії, а літературні джерела не дозволяють отримати однозначної оцінки щодо оптимального типу вейвлету та схеми побудови алгоритмів компресії. Тому було проведено дослідження застосування різних вейвлетів у контексті задачі передачі мови по ІР-мережі.

Аналіз мовного сигналу проводився за допомогою вейвлетів Haara (haar), daobeshies (db), BiorSplines (bior), Symlets (sym) та ін. Відліки мовного сигналу відбирались для перетворення блоками по Rp = відліків, з них Pp – перекриття у кожному блоці з метою підвищення якості відновленого сигналу.

Для виявлення найбільш ефективного базису для компресії досліджено обробку реального мовного та тестового сигналів з перевіркою якості за допомогою MSE. Тестовий сигнал генерувався як сума синусоїд в діапазоні частот 300–3,4 кГц з кроком 100 Гц і випадковою початковою фазою.

Важливим елементом схеми вейвлет-компресії є квантувач, який вносить основні спотворення у дані. З метою оптимізації швидко-сті роботи було використано рівно-мірний квантувач. Для дослідження його впливу та оптимізації його під конкретні дані змінювалась кількість рівнів квантування при фіксованому динамічному діапазоні.

Методика дослідження реалізована згідно блок-схеми (рис. 4).

Отримані після вейвлет-перетворення коефіцієнти піддавались квантуванню з розрядністю, яка поступово збільшувалась від одного до дев’яти. В іншому варіанті дослідження проводилось обнулення значень коефіцієнтів, починаючи з 1 до 256. Після зворотного вейвлет-перетворення відліки відновленого сигналу порівнювались з вхідними за MSE. Додатково для оцінки суб’єктивної якості результат відновлення прослуховувався. Приклад результатів досліджень подано на рис.5 для вейвлета Добеші (db), та зворотнього біортогонального вейвлету (rbior). Також проведено дослідження залежності якості відтворення МС по мірі видалення обраної кількості коефіцієнтів. Такий метод дозволяє створити кодер мовних сигналів з вейвлет-перетворенням для використання в вузькосмугових каналах зв’язку і заданою QoS.

З рис. видно, яку розрядність (r) повинен мати квантувач при заданому рівні похибки (наприклад 10%). Проведений аналіз якості обробки мовних сигналів різними типами вейвлетів дозволив зробити висновок, що для перетворення вокалізованих звуків найкраще підходить вейвлет-функція Морлета (Morlet's wavelet), а для невокалізованих та інших – вейвлет Добеші другого порядку (db2).

В результаті, на базі вейвлет-перетворення, отримуємо систему компресії, що працює в широкому діапазоні швидкостей. Застосування ліфтінг-схеми і цілочисельного перетворення дозволило побудувати ефективні в обчислювальному плані адаптивні алгоритми компресії. Застосування їх в ІР-телефонії дає можливість отримати оптимальні співвідношення між кількістю обчислень, ступенем стиску і якістю відновленої мови.

Рис.5. Залежність MSE від виду і порядку (р) вейвлет перетворення і
розрядності квантування (r) коефіцієнтів

а) вейвлети Добеші (db)

б) зворотній біортогональний вейвлет (rbior)

В п’ятому розділі розроблено та досліджено структури кодерів на основі вейвлет-перетворення для ІР-телефонії. Розділ містить дослідження реалізації розробленого методу компресії та кодування мовного сигналу з врахуванням втрат пакетів, що відображає негативний вплив ІР-мережі. Якість відтвореного сигналу представлена у вигляді оцінок MSE та МОS. Дослідження проводились на моделі кодера, інтерфейс програмної реалізації, якого подано на рис. .

Розроблена структура кодера за методом вейвлет-перетворення, включає всі необхідні для роботи в ІР-мережі компоненти: змінну швидкість кодування, адаптацію по VAD (Voice Activity Detector), завадостійке кодування.

Кодер (рис. ) реалізує наступну послідовність операцій. Мовний сигнал х(t) піддається аналого-цифровому перетворенню (РСМ), що створює стандартний цифровий потік (64 кбіт/с). Цей потік розділяється на пакети, довжина яких відповідає мінімальному інтервалу стаціонарності (20 мс), які обробляються детектором VAD, після чого сегменти мови піддають ДВП. В результаті цього отримують коефіцієнти апроксимації та деталізації які піддаються квантуванню (QA, QД), після чого генерується вихідний потік зі змінною швидкістю.

Рис. 6. Інтерфейс програми моделювання кодування, пакетування і передачі мовного сигналу

Пакетизація вихідного потоку кодера відбувається шляхом заповнення поля корисного навантаження мовними даними та додаванням до них заголовків протоколів нижчих рівнів (транспортного, мереженого, канального та фізичного). Для підвищення ефективності роботи кодера в структурній схемі введено блок (пакетизатора), який враховує стан VAD і зменшує об’єм даних в періоди мовчання або пауз.

Рис. . Структурна схема кодера на базі вейвлет-перетворення

Проведені дослідження впливу VAD на коефіцієнт стиску мовного сигналу. Розроблені та досліджені два різних алгоритми функціонування VAD. Перший алгоритм реалізує наступну послідовність операцій:

1) проводиться розрахунок Xmax максимального відліку сигналу в усіх сегментах фрагменту мови, що піддається обробці (по замовчуванню Xmax.=1);

2) встановлюється Xпор. (в кількості рівнів kрівн.= 1...32) по відношенню до Xmax:

, де kmax=127;

3) порівнюються всі відліки у сегментах з Xпор., та визначається їх кількість , після чого встановлюється поріг для кількості відліків, які можуть бути відкинуті в сегменті (менші Xпор,. наприклад, 80%). Якщо (в дослідженні вибрано Rp =160), то вважається, що всі вказані відліки рівні нулю;

4) після обробки даного кадру переходимо до наступного (п.2), поки не обробимо весь потік даних.

Другий алгоритм VAD наступний:

1) оцінювання максимальної потужності сигналу в кадрі, що піддається обробці детектором VAD;

2) встановлення порогу kр.= 0,2, 0,3, 0,5, 0,75, 1, 2 в % від Рmax;

3) порівняння потужностей сигналу в кадрі Рі з вибраним порогом (kp·Рmax) – , при виконанні умови – даний пакет відкидається;

4) повторення операції п.2, 3.

Результати моделювання і дослідження представлено на рис.8.1-8.5. Показано: рис. .1 – форма сигналу; рис.8.2 – MSE вихідного сигналу; рис.8.3 – коефіцієнт стиску К; рис. .4 – відповідні параметри для VAD по потужності; рис.8.5 – порівняння методів VAD по рівню і потужності. На графіках відмічені значення MSE та досягнуте значення К, що відповідає достатньо добрій розбірливості (MOS ,2).

Як висновок, можна сказати, що реалізовані алгоритми роботи VAD мають високу ефективність і забезпечують достатньо високий коефіцієнт стиску.

Рис. .1. Дослідження роботи VAD

а) вхідний сигнал

б) вихідний сигнал з VAD по потужності сегменту 1% | Рис. .2. Дослідження роботи VAD

а) MSE вихідного сигналу з VAD по рівню 1/128

б) MSE вихідного сигналу з VAD по рівню 1/16

в) MSE вихідного сигналу з VAD по рівню загального по файлу

При оцінці якості роботи VAD за допомогою MSE та прослуховуванням мовних зразків можна вказати максимальну величину відкинутих рівнів квантування та величину адаптивного порогу, при якому кількість обнулених сегментів практично не впливає на якість відновленого мовного сигналу. Спостерігаються лише незначні відхилення якості відтворення МС при відкиданні до 8 рівнів квантування з 128, або при встановленні порогу VAD по потужності 1від максимальної потужності сигналу в сегменті (характерні точки на рис. .5). Відповідно досягнутий коефіцієнт компресії складає 19,35 і 15,6 рази (бітова швидкість 3,3 і 4,1 кбіт/c). Якість роботи розробленого кодера підтверджена оцінкою MSE для тестових сигналів і прослуховуванням.

Рис. .3. Дослідження роботи VAD

а) коефіцієнт стиску з VAD по рівню 1/128

б) коефіцієнт стиску з VAD по рівню 1/16

в) коефіцієнт стиску з VAD по рівню загальне по файлу | Рис. .4. Дослідження роботи VAD

а) MSE вихідного сигналу з VAD по потужності загальне по файлу

б) коефіцієнт стиску з VAD по потужності 1%;

в) коефіцієнт стиску з VAD по потужності загальне по файлу

При аналізі результатів дослідження параметрів MSE, К та V було вибрано оптимальні рівні квантування:

· для коефіцієнтів апроксимації – 5,

· деталізації – 3.

Рис.8.5. Порівняння методів VAD по коефіцієнту стиску

а) VAD по рівню

б) VAD по потужності

Для реалізації системи зв’язку для потреб ІР-телефонії на основі методів вейвлет-перетворення для вибору розрядностей квантування коефіцієнтів апрксимації та деталізації можна використати побудовані залежності параметрів MSE, К та V, зображені на рис.9 (наприклад, розрядності 5/3 відповідно апроксимації/деталізації, які рекомендуються як оптимальні в розробленому методі).

Таблиця 2

Параметри об’єктивної якості кодерів

(вейвлет-кодер при розрядності квантування коефіцієнтів 5/3)

Кодер | MSE/P, % | SNR | K | V (кбіт/с)

G.711 | 0,041 | - | 1 | 64

G.726a | 1,45 | - | 2 | 32

GSM | 5,7 | - | 4,9 | 13

Розроблений

вейвлет-кодер | 2,5 | 14,77 | 17,84 | 3,58

Оцінка якісних показників розробленого алгоритму без втрат пакетів здійснено шляхом співставлення значень MSE i MOS. Цю ж залежність (рис. ) можна використати для оцінки якості роботи кодерів і погіршення якості VоІP при впливі різноманітних мережевих факторів: втрата пакетів при перевантаженні мережі, джиттер або вирівнювання затримки.

Варіант одного з проведених досліджень – залежність MSE від втрат пакетів (рис. 10). Базуючись на ньому, можна зробити висновок, що втрати пакетів до 5 % практично не змінюють якості відно-вленого мовного сигналу, оскільки значення MSEне перевищує 7%, що, як мінімум, відповідає GSM якості відновленого сигналу.

Рис. 10. Залежність MSEвід втрат пакетів % (реалізації для різних типів голосу)

Співставимо MSEвід втрат пакетів, що показані на рис.10 з залежністю MSE–MOS для кодерів мовних сигналів за відсутності втрат пакетів (рис.11). Як бачимо, розроблений метод кодування мовного сигналу забезпечує MOS=3,83 (при VAD по рівню 1/32 бітова швид-кість не перевищує 4,1 кбіт/c).

Фактор втрат пакетів розробле-ного методу незначний, кодер добре відновлює мовний сигнал навіть при 30% втрат при будь-якому законі розподілу, що знайшло підтвердження при моделюванні.

Запропонована методика дослідження якості кодування на основі співставлення MSE–MOS достатньо проста і ефективна. Її результати можуть знайти широке застосування при визначенні якості зв’язку завдяки можливості врахування різноманітних мережних факторів, таких як вид кодування, вплив буфера, затримки, її нерівномірність та втрати пакетів.

ОСНОВНІ РЕЗУЛЬТАТИ РОБОТИ І ВИСНОВКИ

На основі теоретичних та експериментальних досліджень, розв’язано важливу науково-технічну задачу в галузі телекомунікацій – розроблено методи і засоби підвищення якості передачі мовного сигналу в мережах ІР-телефонії на базі застосування вейвлет-перетворення мовного сигналу і його кодування зі змінною швидкістю.

1. На підставі аналізу принципів побудови інфокомунікаційних мереж передачі мультимедійних даних, зокрема ІР-мереж, визначено параметри мереж, які негативно впливають на якість відтворення мовного сигналу в ІР-телефонії: затримка пакетів, джиттер і втрати пакетів, які слід врахувати при побудові методів ефективної компресії і відновлення мовних сигналів.

2. Проведено аналіз та дослідження застосування апарату вейвлет-перетворення для цифрової обробки мовного сигналу. Зроблено дослідження вибору вейвлет-функції з метою підвищення ефективність компресії форми мовного сигналу. Показано, що для досягнення максимального ступеня компресії слід застосовувати вейвлет-функції, форма яких є близькою до форми мовної хвилі.

3. Розроблено новий метод кодування і компресії мовних сигналів на основі вейвлет-перетворення, придатний для застосування у ІР-телефонії, що базуєть-ся на використанні ліфтінг-схеми та відрізняється від відомих врахуванням параметрів голосової активності. Застосування методів вейвлет-перетворення, ліфтінг-схеми і побудови детекторів VAD дозволило знайти компроміс між ступенем стиску, бітовою швидкістю та якістю відновленого мовного сигналу.

4. Досліджено методи пакетування, зокрема їхню стійкість до втрат пакетів, запропонованих методів. На основі порівняння мовних сигналів, отриманих при дослідженні існуючих методів кодування форми сигналу за допомогою MSE та відомих для цих методів оцінок MOS отримано залежність, яка дозволяє перерахувати MSE в MOS, що дозволяє оцінювати QoS будь-яких кодерів.

5. Розроблено і досліджено нові об’єктивні методи оцінки якості кодування мовних сигналів, які є значно простішими для визначення. Визначено, що найдоцільніше для оцінки QoS кодерів використовувати параметри MSE, SNR та PSNR при заданому коефіцієнті компресії К. Показано, що ці методи можуть бути використані для оцінки якості будь-яких кодерів форми звукових коливань, а також для оцінки погіршення якості VоІP при впливі мережевих факторів.

6. На основі розроблених і обґрунтованих алгоритмів створено структури кодерів, досліджено їх властивості і якість кодування в реальних режимах роботи. В розробленому алгоритмі обробки мовного сигналу для ІР-телефонії вперше запропоновано поєднати: створений алгоритм роботи VAD, який має високу ефективність і забезпечує високий коефіцієнт стиску; вейвлет-перетворення мовного сигналу, що забезпечує високу якість відновлення сигналу при значних втратах мовної інформації в мережі; його реалізацію за допомогою ліфтінг-схеми; квантування коефіцієнтів апроксимації та деталізації вейвлет-базису з оптимально встановленою для заданої якості і заданої компресії розрядністю; ентропійне кодування коефіцієнтів, отриманих після перетворення для передачі по каналу зв’язку, що дозволило на відміну від відомих алгоритмів підвищити коефіцієнт компресії МС при високому значені МОS.

7. Проведено дослідження, які показали, що фактор втрат пакетів розробленого методу стиску мовних сигналів є незначний, запропонований кодер добре відновлює мовний сигнал навіть при 30% втрат при будь-якому законі їх розподілу. Отримані оцінки якості (ступінь компресії порядку 20, бітова швидкість не вище 4,1 кбіт/с, оцінки МОS для різноманітних типів відновленого мовного сигналу не нижче 3,8) показують, що розроблені методи і їх реалізація кращі за стандартні кодери, що застосовуються в ІР-телефонії і можуть з успіхом їх замінити.

СПИСОК ОПУБЛІКОВАНИХ ПРАЦЬ ЗА ТЕМОЮ ДИСЕРТАЦІЇ

1. Колодій Р. Дослідження якості кодерів мовного сигналу на основі вейвлет-перетворення для VоIP // Моделювання та інформаційні технології. Зб. наук. пр. ІПМЕ НАН України. – Вип.34. – К.: 2006. – С.123-133

2. Тимченко О.В., Колодій Р.С., Орлевич І.Д. Аналіз якості послуг ІР-телефонії // Зб. наук. пр. ІПМЕ НАН України. – Вип.18. – К.: 2002. – С.183-190.

3. Тимченко О.В., Колодій Р.С., Смолінський М.В. Комплексна оцінка затримок при конфігуруванні пакетної мережі з підтримкою телефонії // Моделювання та інфор-ма-ційні технології. Зб. наук. пр. ІПМЕ НАН України. – Вип.18. – К.: 2002. – С.167-180.

4. Тимченко О.В., Колодій Р.С., Смолінський М.В. Комплексна оцінка параметра QoS – показника якості зв’язку ІР-телефонії // Моделювання та інформаційні технології. Зб. наук. пр. ІПМЕ НАН України. – Вип.19. – К.: 2002. – С.158-164.

5. Тимченко О.В., Колодій Р.С., Смолінський М.В. Інтегрованість трафіку передачі даних в мережу з комутацією каналів, що гарантує необхідну якість обслуговування для ІР-мереж // Комп’ютерні технології друкарства. Зб. наук. пр. – Вип. . – Львів: УАД. – 2003. – 200 с. – С.152-156.

6. Тимченко О.В., Колодій Р.С. Особливості прогнозу часової структури пакетного мовного потоку в ІР-телефонії // Зб. наук. пр. ІПМЕ НАН України. – Вип.19. – К.: 2003. – С.192-198.

7. Тимченко О.В., Колодій Р.С., Смолінський М.В. Моделі і методи опису мовних сигналів в телекомунікаційному каналі // Моделювання та інформаційні технології. Зб. наук. пр. ІПМЕ НАН України. – Вип.21. – К.: 2003. – С.178-187.

8. Тимченко О.В., Колодій Р.С., Смолінський М.В. Методика застосування вейвлет-перетворення для обробки мультимедійних даних // Зб. наук. пр. ІПМЕ НАН України. – Вип.20. – К.: 2003. – С.168-178.

9. Тимченко О., Колодій Р. Технології інтеграцій пакетного мовного зв’язку в обчислювальній мережі видавничо-поліграфічного комплексу // Комп`ютерні техно-логії друкарства. Зб. наук. пр. – Вип. . –

Сторінки: 1 2

��
��...

Наступні 7 робіт по вашій темі:

▪ ПРАВОВЕ ЗАБЕЗПЕЧЕННЯ ВИДОБУВАННЯ КОРИСНИХ КОПАЛИН - Автореферат - 30 Стр.
▪ Геологічна будова та механізми формування Липнязької граніто-гнейсової структури - Автореферат - 32 Стр.
▪ ФОРМУВАННЯ СОЦІАЛЬНИХ ЦІННОСТЕЙ МАЙБУТНІХ УЧИТЕЛІВ ІСТОРІЇ У ПРОЦЕСІ ПРОФЕСІЙНОЇ ПІДГОТОВКИ - Автореферат - 29 Стр.
▪ Інтенсифікація виробництва свинини при використанні сухих кормових сумішок з екструдованим тритикале - Автореферат - 26 Стр.
▪ кераміка для захисту від електромагнітного випромінювання - Автореферат - 25 Стр.
▪ ВИХРОВИЙ ЗОНАЛЬНО-НЕОДНОРІДНИЙ ТЕРМОЕЛЕМЕНТ - Автореферат - 23 Стр.
▪ СУСПІЛЬНО-ГЕОГРАФІЧНИЙ АНАЛІЗ ГЕОПОЛІТИЧНОГО ПОЛОЖЕННЯ УКРАЇНИ У СУЧАСНІЙ ЄВРОПІ - Автореферат - 24 Стр.