Розділ 4
Розділ 4. ОБРОБКА МОВИ В СТАНДАРТІ GSM
4.1. Загальний опис процесів обробки мови
Процеси обробки мови в стандарті GSM спрямовані на забезпечення високої якості переданих повідомлень, реалізацію додаткових сервісних можливостей і підвищення споживчих якостей абонентських терміналів.
Обробка мови здійснюється в рамках прийнятої системи переривчастої передачі мови. Система переривчастої передачі мови (DTX) забезпечує включення передавача тільки тоді, коли користувач починає розмову й відключає його в паузах і наприкінці розмови. DTX управляється детектором активності мови (VAD), що забезпечує виявлення й виділення інтервалів передачі мови із шумом і шуму без мови навіть у тих випадках, коли рівень шуму порівняємо з рівнем мови. До складу системи переривчастої передачі мови входить також пристрій формування комфортного шуму, що включається й прослуховується в паузах мови, коли передавач відключений. Експериментально показане, що відключення фонового шуму на виході приймача в паузах при відключенні передавача дратує абонента й знижує розбірливість мови, тому застосування комфортного шуму в паузах уважається необхідним. DTX процес з приймачі включає також інтерполяцію фрагментів мови, загублених через помилки в каналі.
Структурна схема процесів обробки мови в стандарті GSM показана на мал. 4.1, головним пристроєм у цій схемі є мовний кодек [4.1, 4.2, 4.3].
4.2. Вибір мовного кодека для стандарту GSM
Робочою групою по розробці стандарту GSM були пред'явлені наступні основні вимоги до мовного кодеку [4.3]:
- висока якість мови, що не уступає якості передачі мови в кращих існуючих аналогових стільникових системах зв'язку;
- низька швидкість передачі мови, що забезпечує можливість ефективного канального кодування й результуючу швидкість передачі в каналі зв'язку не вище 16 кбит/з,
- малу затримку повідомлення в процесі перетворення мови;
- стійкість до помилок у каналі передачі;
- можливість роботи в широкому динамічному діапазоні вхідних впливів як сигналу, так і шуму;
- великий динамічний діапазон вихідних сигналів;
- незначне зниження якості мови при каскадному з'єднанні кодеков:
- прозорість для сигналів даних;
- пряме сполучення із суміжними пристроями терміналів;
- простота реалізації;
- мале споживання;
- низька вартість.
Для вибору мовного кодека GSM був організований конкурс проектів. Спочатку для розгляду було запропоновано 20 різних кодеков від 9 європейських країн. Після міжнародного формального тестування ця кількість була скорочена до 6 з 6 країн. На наступному етапі два із чотирьох подполосных (SBC) кодеков (норвезьк й італійський) були зняті з розгляду, до остаточного етапу конкурсу залишилося два SBC кодека й два кодека в предикативним кодуванням [4.4].
RPE-LPC - Regular-Pulse Excitation/Linear Predicative Coding (Німеччина, Philips) -кодек з регулярним імпульсним порушенням і лінійним кодуванням із пророкуванням;
MPE-LTP - Multi-Pulse Excitation/Long-Term Prediction (Франція, IBM) -кодек із многоимпульсным порушенням і довгостроковим пророкуванням:
На другому етапі відбувається подальше зниження динамічного діапазону за рахунок довгострокового пророкування, у процесі якого кожен сегмент вирівнюється до рівня наступних один за одним сегментів мови. У принципі, LTP фільтр віднімає попередній період сигналу з поточного періоду.
Цей фільтр характеризується параметром затримки N і коефіцієнтом підсилення Ь. Період обчислення цих параметрів дорівнює 5 мс.
Вісім коефіцієнтів r (i) LPC фільтра, що аналізує, і параметри фільтра LTP аналізу кодуються й передаються зі швидкістю 3,6 кбит/с.
Для формування послідовності порушення залишковий сигнал пропускають через фільтр нижніх частот із частотою зрізу 3-4 кгц.
Остаточно періодична послідовність фрагментів передається зі швидкістю 9,4 кбит/с. Загальна швидкість передачі становить 3,6+9,4 = 13 кбит/с.
У декодері мовний сигнал відновлюється по відгуках послідовності регулярного імпульсного порушення (RPE) двоступінчастим синтезуючим фільтром, як показано на мал. 4.3.
При цьому якість мови відповідає якості мови, переданої по ISDN, і перевершує якість мови в аналогових радіотелефонних системах.
Теоретично час затримки мовного сигналу в кодекс дорівнює тривалості сегмента й становить 20 мс. Реальний час затримки, з урахуванням операцій канального кодування й переме-жения, а також фізичного виконання розглянутих операцій, становить 70-80 мс.
4.4. Детектор активності мови
Детектор активності мови (VAD) відіграє вирішальну роль у зниженні споживання енергії від акумуляторної батареї в портативних абонентських терміналах. Він також знижує інтерференційні перешкоди за рахунок перемикання вільних каналів у пасивний режим. Реалізація VAD залежить від типу застосовуваного мовного кодека. Головне завдання при проектуванні VAD - забезпечити надійну відмінність між умовами активного й пасивного каналів. Якщо канал на мить вільний, його можна заблокувати, оскільки середня активність мови мовця нижче 50%, то це може привести до істотної економії енергії акумуляторної батареї. До пристроїв VAD пред'являються наступні основні вимоги [4.6]:
- мінімізація ймовірності фіктивної тривоги при впливі тільки шуму з високим рівнем;
- висока ймовірність правильного виявлення мови низького рівня;
- висока швидкодія розпізнавання мови, для виключення затримок включення:
- мінімальний час затримки вимикання. У стандарті GSM прийнята схема VAD з обробкою в частотній області. Структурна схема VAD наведена на мал. 4.4. Її робота заснована на розходженні спектральних характеристик мови й шуму. Уважається, що фоновий шум є стаціонарним протягом щодо великого періоду часу, його спектр також повільно змінюється в часі. VAD визначає спектральні відхилення вхідного впливу від спектра фонового шуму. Ця операція здійснюється інверсним фільтром, коефіцієнти якого встановлюються стосовно до впливу на вході тільки фонового шуму. При наявності на вході мови й шуму інверсний фільтр здійснює придушення компонентів шуму й, у цілому, знижує його інтенсивність. Енергія суміші сигнал+шум на виході інверсного фільтра рівняється з порогом, що встановлюється в період впливу на вході тільки шуму. Цей поріг перебуває вище рівня енергії шумового сигналу. Перевищення граничного рівня приймається за наявність на