У нас: 141825 рефератів
Щойно додані Реферати Тор 100
Скористайтеся пошуком, наприклад Реферат        Грубий пошук Точний пошук
Вхід в абонемент





МІНІСТЕРСТВО ОСВІТИ ТА НАУКИ УКРАЇНИ

МІНІСТЕРСТВО ОСВІТИ ТА НАУКИ УКРАЇНИ

КАРПОВ Олег Миколайович

УДК 534.4:621.391

МЕТОДИ АНАЛІЗУ І РОЗПІЗНАВАННЯ

СКЛАДНИХ СИГНАЛІВ В АВТОМАТИЗОВАНИХ

СИСТЕМАХ МОВНОГО ДІАЛОГУ

05.13.06 автоматизовані системи управління та

прогресивні інформаційні технології

Автореферат дисертації на здобуття вченого ступеня доктора технічних наук

 

Київ 2003

Дисертацією є рукопис.

Робота виконана

в Днiпропетровському національному унiверситеті Міністерства освіти і науки України.

Науковий консультант:

доктор технічних наук, професор Щербак Леонід Миколайович, Національний авіаційний університет, завідувач кафедри.

Офiцiйні опоненти:

доктор технічних наук, професор Бондаренко Михайло Федорович, Харківський національний університет радіоелектроніки, ректор;

доктор технічних наук, професор Прокопенко Ігор Григорович, Національний авіаційний університет, професор;

доктор фізико-математичних наук, професор Шелепов Владіслав Юрійович, Донецький інститут штучного інтелекту, завідувач відділом.

Провiдна установа:

Національний технічний університет України "Київський політехнічний інститут", кафедра автоматизації експериментальних досліджень, Міністерство освіти і науки України, м. Київ.

Захист вiдбудеться "29" травня 2003 р. о 14 годинi на засiданнi спецiалiзовано вчено ради Д 26.062.01 при Національному авіаційному університеті за адресою: 03058, м. Кив, проспект Космонавта Комарова, 1.

З дисертацiю можна ознайомитись у бiблiотецi Національного авіаційного унiверситету за адресою: 03058, м. Кив, проспект Космонавта Комарова, 1.

Автореферат розiсланий "25" квітня 2003 р.

Вчений секретар

спецiалiзовано вчено ради Гузій М.М.

ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ

Актуальність проблеми. На протязі останніх десятиліть актуальною і важливою науково-техничною проблемою є обробка і розпізнавання мовних сигналів. Про це свідчать задачі аналізу, синтезу і розпізнавання мовного повідомлення, індивідуальності та емоційного стану і значне число публікацій.

Мовний сигнал є функцією багатьох змінних, яка формується складною біофізичною системою людини. У рамках кожної змінної можуть існувати локальні функції, обумовлені сукупністю параметрів, характерних для даної змінної, локальна сукупність із декількох таких функцій утворить окрему компоненту або складову, що характеризує локальну властивість сигналу. 

Мета і задачі досліджень. Мета проведення широкого кола теоретичних і експериментальних досліджень по обґрунтуванню і реалізації методів анализу і розпізнавання складних сигналів і розробка по результатам досліджень автоматизованих систем мовного діалогу. Для вирішення такої науково-техничної проблеми необхідно розв’язати наступні основні задачі.

1. Теоретичне обгрунтовання моделей і методів аналізу та розпізнавання сигналів багатьох змінних. 2. Розробка методів, алгоритмів і обчислювальних процедур аналізу сигналів на основі параметричних функцій систем, які створюють сигнал. 3. Розробка автоматизованих систем та інформаційних технологій аналізу і розпізнавання мовних сигналів.

При виришенні проблеми уявлення багатовимірних функцій як суперпозиції функцій меншого числа змінних зробив значний внесок Колмогоров А.М., у проблеми аналізу-синтезу і розпізнавання мови Вінцюк Т.К., Загоруйко М.Г., Трунін-Донской В. М., Бондаренко М.Ф., Цемель Г.І., Ивахненко О.Г., Богіно В.І., Лобанов В.М, Оппенгейм Э., Джелінек Ф., Фант Г., Фланаган Дж. Л. і ін.

Зв'язок теми досліджень з планами НДР. Теоретичні й експериментальні дослідження по темі дисертації виконувалися в рамках НДР Дніпропетровського держуніверситету і планів тих організацій, для яких призначені результати робіт. Результати досліджень автора протягом 1976 - 2000 гг застосовувалися в таких НДР: д/б тема N 18-26 (держ. реєс. N 01860021140); 1997-1999рр ( д/б тема Міністерства освіти України (держ. реєс. N 11-1-97) “Обгрунтування та розробка засобів діагностики особливостей емоційної і когнітивної діяльності оператора”; д/т 785(держ. реєс. N 76037515) "Розробка пристрою виділення ознак мови для оцінки емоційного стану людини"; д/т 785/80 (держ. реєс. N81067416) "Оцінка емоційної втоми оператора по характеристиках мови"; д/т 785/82 (держ. реєс. N 01830005375) "Аналіз мови операторів із метою виявлення індивідуальних особливостей"; д/т 785/83 (держ. реєс. N 01830005603), що входять у наукову тематику координаційного плану НДР по психології на 1981-1985 р., дослідження проводилися також на підставі наказу Мінвуза СРСР N1065 від 26.09.80 р.

Об'єкт досліджень мовний сигнал це функція багатьох змінних, як суперпозиція функцій меньшої кількості змінних.

Предмет досліджень методи, алгоритми й архітектура систем обробки і розпізнавання мовних сигналів, структурна апроксимація ієрархії інформації про мовний сигнал по ланцюжках описів і опрацювання: аналіз сигналів, параметричне, сегментне, символьне, складове, словесне, змістовне уявлення для рішення задачі розпізнавання мовної інформації. Методи досліджень базуються на теорії функціонального аналізу функцій багатьох змінних, цифрової обробки сигналів, теорії апроксимації функцій і ортогональних перетворень, фонетиці, лінгвістиці, базах знань.

Задачі досліджень:

1. Теоретичне обґрунтування і розробка методів аналізу, адекватних складності мовного сигналу.

2. Обгрунтувати і розробити ефективні методи аналізу основного тону.

3. Розробити детерміновані моделі динаміки спектрів Фур’є сигналів на скіннченому інтервалі часу як функцій деяких параметрів.

4. Розробити структури даних, які об'єднують різнорідну інформацію про параметричне, фонетичне і відповідне символьне уявлення мовного повідомлення.

5. Розробити детерміновані правила (методи) сегментації мовного потоку, описати правила переходу від неперервного мовного сигналу до опису дискретними лінгвістичними (фонетичними) одиницями (перехід від однієї категорії інформації до іншої).

6. Здійснити алгоритми побудови ланцюжків аналізу, що враховують взаємодію компонент мовного сигналу, розробити і реалізувати алгоритми сплайн-синтезу послідовностей, які розпізнаються.

7. Розробити технологію побудови проектів складних програмних систем і реалізації ППП для дослідження і розпізнавання мови.

Наукова новизна і значення роботи.

1. Вперше запропоновані: а) перетворення, засноване на різницевій схемі послідовного вилучення складового сигналу (Сonsecutive Еxtraction Тransform CET) і на методі послідовних наближень SAT ( Sequential Approximation Transform); б) сплайн-синтез і ідентифікація сегментних-складових послідовностей.

2. Вперше теоретично й експериментально обгрунтовані детерміновані моделі СЕТ, SAT і розподілена частотна функція (РЧФ) у часовій і частотній областях, сегментації і побудови смугової частотної функції (СЧФ) мовотворного тракту.

3. Розроблено алгоритм сегментації мовного сигнала методом верифікації.

4. Вирішено задачу опису мовного сигналу і його спектра, як функції багатьох змінних у базисі елементарних функцій.

5. Запропоновано і реалізований метод двовимірного сплайн-синтезу і ідентифікації сегментних-складових послідовностей, який дозволяє згенерувати мовну послідовність, яка розпізнається по заданому параметричному уявленню компонент..

6. Розроблено інформаційну технологію побудови варіантів складних програмних систем, яка заснована на застосуванні препроцесорних засобів мов сучасного рівня.

Практичне значення результатів.

1. Перетворення, засноване на різницевій схемі послідовного вилучення складового сигналу (consecutive extraction transform CET) і на методі послідовних наближень (SAT Sequential Approximation Transform) дозволяє розв’язувати задачі виділення окремих сигналів і їхніх спектрів із їх взаємної спектральної області, в якой вони перетинаються і моделювати функції багатьох змінних з використанням класів елементарних. Методи були застосовані при виконанні д/б теми N 18-26.

2. Алгоритм сплайн-синтезу і ідентифікація сегментних-складових послідовностей дозволяє згенерувати мовну послідовність, яка розпізнається, по заданому параметричному уявленню складів.

3. Розроблено технологію проектування складних програмних систем на базі передпроцесорних засобів і об'єктно-орієнтованого програмування мови високого рівня СІ, побудований пакет прикладних програм устрою розпізнавання. Технологія застосована при виконанні г/т 785 і г/т 780.

4. Побудовано текстовий редактор із мовним керуванням і реалізовано пословне і фонемне розпізнавання.

Окремі результати досліджень впроваджені з відповідним (соціальним, інформаційним і економічним) ефектом на підприємствах, навчальних закладах, військових частинах, медичних установах:

1. В/ч 35333, м. Москва, в/ч 27177-В, м. Ленінград (Росія);

2. Інститут психології АН СРСР, інститут вищої нервової діяльності АН СРСР (Росія).

3. Підприємство цивільної авіації ( Дніпропетровський об'єднаний авіазагін);

4. 9-а міська клінічна лікарня м. Дніпропетровська, Дніпропетровська обласна лікарня ім. Мечникова.

5. У навчальному процесі Дніпропетровського національного університету, Ленінградського держуніверситету, Київського національного університету, Московського державного педагогічного інституту іноземних мов ім. М. Тореза (МГПИИЯ).

Розроблені засоби розпізнавання демонструвалися на республіканських, всесоюзних і міжнародних виставках і відзначені 6 дипломами 1, 2, 3 ступені, отримані 1 срібна і 9 бронзових медалей ВДНГ СРСР.

Особистий внесок автора. Викладені в дисертації основні результати отримані автором самостійно. У роботах із співавторами дисертанту належить: пропозиція ідеї, конкретизація задачі, розробка основних теоретичних положень, алгоритмів і схем аналізу і розпізнавання мовних сигналів, а також їхніх застосування для прикладних цілей. Автору належать: методи СЕТ і SAT; параметричні моделі опису спектра; теоретичне обгрунтування оптимальної послідовності зіставлення мовних параметрів при розпізнаванні; метод сегментації мови шляхом верифікації тривалих сегментів; одновимірний опис спектрів згладжуючими сплайнами і метод двовимірного сплайн-синтезу і ідентифікації сегментно-складових послідовностей; метод опису багатовимірних функцій у базисах елементарних функцій; інформаційна технологія побудови класів проектів складних програмних систем. У роботах [16] здобувачу належить ідея і розробка формули винаходу, у роботі [6] розробка функціональної схеми блока формування параметрів, у роботах [10; 21; 22] постановка задачі, виконання досліджень і інтерпретація результатів

Апробація роботи. Основні положення і результати досліджень доповідалися і одержали позитивну оцінку на науково-технічних конференціях і семінарах: 1976-1989 рр Всесоюзная школа-семинар "Автоматическое распознавание слуховых образов АРСО-9АРСО-15” ( гг. Минск, Тбилиси, Ереван, Киев, Новосибирск, Каунас, Таллин)”, Всесоюзный симпозиум "Речь, эмоции и личность" (Ленинград, 11-14 ноября 1975г) и (27-28 февраля 1978г, Ленинград); 1-а Всесоюзная конф. "Методы анализа надежности программного обеспечения вычислительных систем реального времени на основе моделей нечеткой логики и качественных описаний" (Киев, КИИГА, 1987); 1-а Всеукраiньска конф. "Обробка сигналiв i зображень та розпiзнавання образiв" (Київ, 7-22 листопада 1992 р); Международная конф. "Теория приближений и задач вычислительной математики" (26-28 мая 1993, Днепропетровск); 3-я Укр. конф."Автоматика-96" (Севастополь, 1996); 3-я Всеукр. міжнародна конф. "Обробка сигналів і зображень та розпізнавання образів" 26-30 листопаду (Київ, 1996); 4-я Укр. конф. "Автоматика-97" (Черкассы, 1997); Міждерж. конф. "Компьютерне моделювання" (Днепродзержинск, 1998); Міжн. конф. з управління АВТОМАТІКА-2000, (м. Львів, 2000); міжн. конф. Авіа-2000, (Киев, 2000); межрег. конф. “Компьютерне моделювання”, (Днепродзержинск, 2000); міжн. конф. Авіа-2001, (Киев, 2001). 

Публікації. За матеріалами дисертації опубліковано і депоновано 101 наукових праць. З них: 1 монографія, 3 статті в наукових журналах, 37 у фахових наукових збірниках, 6 авторських свідоцтв, 2 навчальних посібника, 52 матеріалів і тез конференцій.

Дисертація складається з вступу, семи розділів, висновків, актів впровадження, додатків, списку літератури (із 256 джерел посилань). Загальний обсяг дисертації 216 сторінок.

ОСНОВНИЙ ЗМІСТ РОБОТИ

У розділі 1 поставлена задача аналізу мовних сигналів, яка виходить із припущення про те, що мовний сигнал можна уявити як сукупність компонент , де компоненти, що утримують інформацию про властивості мовних сигналів, а саме, про фонетичну структуру повідомлення, індивідуальність і емоційний стан людини. Проста модель сигналу це уявлення його у вигляді суми компонент, кількість і властивості яких змінюються як функція часу

, .

Компоненти визначаються параметрами, які характеризують іх частотні і часові властивості

,

де функція генератора сигналу, описує частотні, часові властивості компонент , тобто

, (1)

де параметр генератора сигналу, степінь загасання компоненти, резонансна частота, положення максимуму по часу, коефіцієнти підсилення частотної і часової компоненти.

Задача опису сигналу є задачею вибіру вигляду функцій , , і визначення параметрів компонент ,. Таким чином, функція уявляеться як композиція функцій , , , , а параметри ,, в свою чергу, є функцями часу.

Для організації розвязку початкова функція дискретизується з частотою , формуя сигнал , який потім розбивається на інтервали аналізу з кількістю відліків N на інтервалі при , де n кількість інтервалів .Таким чином, початковий сигнал можна представити як двовимірний масив. Ілюстрація такого масиву на рис.1, при

 

Постановка задачі визначення параметрів , в часовій області можна розвязувати як найкраще наближення вигляду [1]

 

Для відомих перетворень Лапласа функцій , і обчислених спектрів Фур’є (при N=256, ) на кожному інтервалі аналізу (рис.1) компоненти спектрально-часового опису по Колмогорову мають вигляд

,

де частотна функція генератора сигналу, описує частотні, часові властивості компонент , тобто композиція спектрально-часового уявления сигналу має вигляд

. (2)

Задачу визначення параметрів , в частотній області можна розвязувати як найкраще наближення вигляду

У тексті розділу наведені результати системного аналізу методів опису і розпізнавання мови. Викладено методи первинної обробки мови, у яких описані базисні функції аналізу, параметри і алгоритми сегментації. Огляд пристроїв і програмних засобів розпізнавання мови містить опис деяких найбільш типових устроїв і систем. На основі проведеного аналізу поставлена задача розпізнавання мови як структурної апроксимації різноманітних категорій інформації. В основу первинного аналізу сигналів і їх спектрів покладена теорема Колмогорова А.М. про те, що складна функція може бути подана у вигляді суперпозиції функцій одної змінної.

У розділі 2 наведені методи й алгоритми в задачах обробки і ідентифікації мовних сигналів. Наведен перелік задач, розв'язуваних у дисертації, і визначені методи їх розвязування:

а) Зформульована постановка задач послівного і фонемного розпізнавання мовних сигналів.

б) Викладена постановка задачі сплайн-синтезу й ідентифікації сегментного-складового розпізнавання.

в). Описана двоетапна схема сегментації і, відповідно, для кожного етапу обрані свої типи мовних одиниць, що частково перетинаються. Для першого етапу в якості мовних одиниць узяті сегменти, зформовані по групових ознаках: П паузи, Ш шумові, Т тональні, де Т включає можливі сполучення ГС, СГ, СС, ГГ голосних Г и тональних приголосних С; Ш включає сполучення ШШ. На другому етапі здійснюється аналіз параметрів для поділу станів Т або Ш на можливі складові частини Ш-Ш, Г-С, С-Г, С-С, Г-Г. На цьому етапі здійснюється верифікація тривалих сегментів на належність складових його відліків до одного або декількох класів фонем.

г). Наведені принципи і методи моделювання мовних сигналів. Мовний сигнал, як носій інформації, містить інформацію про зміст повідомлення, індивідуальності і функціонального стану особи, що говорить, тобто являє собою деяку інформаційну сукупність, у котрої кожна компонента має свою власну ієрархію вхідних її складових. У залежності від цілей розпізнавання (індивідуальності, команд, функціонального стана) одна частина сигналу відноситься до корисної sк(t), інші до шумової sш(t). Загальна форма такої взаємодії рекомендується у виді узагальненого оператора моделі (УОМ):

M[s(t)]=@{sк (t)#sш (t)}, ,

де @ деяка операція над сукупністю sп (t) і sш(t);

# деяка операція взаємодії компонент sк (t) і sш (t).

Можливі операції @ це складання, інтегрування, диференціювання, і інш. або порожня операція, операції # арифметичні, логічні або операції порівняння. До найпростіших операндів належать елементи з заданих класів функцій. Кожний із сигналів sк (t) і sш (t) у свою чергу може бути складним, що містить компоненти, сполучені знаками операцій @, #, при цьому глибина взаємодії сигналів довільна.

Для рішення задачі аналізу розглянуте уявлення багатовимірних функцій у базисі елементарних функцій стосовно до мовного сигналу і його спектра та запропоновано перетворення, засноване на різницевій схемі послідовного вилучення складового сигналу або спектра (consecutive extraction transform CET) ) і на методі послідовних наближень (SAT sequential Approximation Transform), що полягає в послідовному збільшенні порядку системи, що описує спектр. Перетворення дозволяє знайти параметри мовотворного тракту акустичної і біомеханічної систем.

У розділі 3 розглянута технологія обробки інформації про мовний сигнал у часовій області уявлення мовного сигналу, як функції багатьох змінних в класі екстремальних (дзвіноподібних) функцій в частотній області. Отримано функції, у базисі яких реалізується перетворення CET або SAT. Перетворення визначає параметри акустичної і біомеханічної систем: a) коефіцієнти підсилення сi, резонансні частоти i, степінь загасання i при вилученні основних складових; б) розподілену частотну функцію (РЧФ) для заданої послідовності частот i, послідовність i розподіл по частотам добротностей елементів мовотворного тракту. Параметри i, i розподілені на частотах 100 Гц для біомеханічної системи, на частотах f>100 Гц для акустичної системи.

Розглянемо, як приклад екстремальної функції для і-го резонатору, властивості резонансної ланки другого порядку з імпульсними характеристиками базисними функціями опису системи в часовій області

wi(t) =w1i(t)=k1 sin it, або wi(t) =w2i(t)=k2 cos it, (3)

(тут k1=k2= / i, 0i =i/ , декремент загасання),

і передаточними функціями виду

W1i()=i /[(j + i)2+i2], або W2i()=(j+i)/[(j+i)2+i2]. (4)

Функції (3)-(4) базисні функції опису системи в частотній області. Найбільше близькими аналітичними функціями до функції генератора тонального сигналу є такі:

sги(t)=qksink0t=, або sги(t)=qkcosk0t=, (5)

з частотною функцією-спектром для (5)

Sги(k)=qk = , або Sги( )= qk/k = /(/0) =/( T) (6)

де k=к/0, Т=2/0 ,q<1.

Функції (5) (6) це базисні функції опису генератора в часовій і частотній області. У цілому (3)-(6) являють собою базисні функції першого роду. Часова функція на виході резонатора має вигляд згортки

si(t)=сi= сi=

=сi =

=[Аi(t) +Вi(t) ], (7)

i=2Fri, i=i(t)=0i(t), ((i),t)=ficos(t)=cos it, ((i),t)=fisin(t)=sin it,

де i коефіцієнт загасання, i резонасна частота, 0i частота вільних коливань, i степінь загасання.

Вираз (7) описує зв'язок між вихідним сигналом у i-у резонаторі, резонансною частотою Fri(t), частотною характеристикою генератора збудження Sги( ,t) і добротністю i резонатора

Аi(t) = сi [ -

- ]. (8)

Вi(t) = сi [ +

+ ]. (9)

Мовний сигнал s(t) являє собою суму сигналів "n" резонаторів (1).

Вирази (8), (9) описують базисні функції другого роду для СЕТ у часовій області. Інтервал часу аналізу вибирається в межах Tl=(10-20) mс. Задача визначення параметрів частотної функції акустичної системи у часовій області є розвязок задачі CET для визначення q, c(i), (i), (i) у базисі функцій Аi(t), Вi(t) як для вилучення основних складових, так і для визначення q, c(k), (k) для заданої послідовності (k)= k0.

Відповідно до теореми Колмогорова А.М. вихідна функція мовного сигналу s(t) може бути подана як:

s(t)=A(k,q,c(1),(1),(1),k,t)( (1),t)+ B(k,q,c(1),(1),(1),k,t)((1),t)+s(1 )(t) (10)

s(1)(t)=s(t)-A(k,q,c(1),(1),(1),k,t)( (1),t)+ B(k,q,c(1),(1),(1),k,t)((1) ,t).

s(1)(t)=A(k,q,c(2),(2),(2),k,t)( (2),t)+ B(k,q,c(2),(2),(2),k,t)((2),t)+ s(2)(t),

………………………

s(i-1)(t)=A(k,q,c(i),(i),(i),k,t)( (i),t)+ B(k,q,c(i),(i),(i),k,t)((i),t)+ s(i)(t)...

Параметр q визначається на першому кроці, вилучення складових s(i)(t) продовжується доти, поки виконується співвідношення

, (11)

де потужність s(i)(t), потужність сигналу s(t), наприклад, для =0,9.

Для (5), (6) аргумент у дискретному виді рекомендується як xj=2j/N, де N кількість відліків на інтервалі часу аналізу (Тl=1020 мс), що адаптується відносно тривалості періоду основного тону Тот= N0t, t крок дискретизації по часу початкового сигналу.

Для опису (1) параметри q,c(i),(i),(i) визначаються так

= .

На першому кроці визначаються q, c(1), (1), (1), N0

= =

= s(t)-[A(k,q,c(1),(1),(1),k,t)( (1),t)+ B(k,q,c(1),(1),(1),k,t)((1),t)]} 2;

=0; =0; =0; = 0; =0. (12)

Така задача зводиться до рішення систем нелінійних алгебраїчних рівнянь [12]. Біомеханічна система реалізує переміщення стінок акустичної системи з інфранизькими частотами переміщень і коливань м'язів, що формують низькочастотну структуру мовного сигналу: послідовність фонем, структуру зміни обвідних фонем, що у межах тривалості, низькочастотні накладення і модуляції, обумовлені індивідуальністю й емоційним станом людини, перехідними процесами в м'язах при зміні геометричних розмірів акустичної системи. Для біомеханічної системи задача визначення параметрів частотної функції вирішується при максимальній тривалості голосних звуків звичайного темпу мови, що складає Тф0,3с. Для вибухових "п, т, к, б, д, г" параметри обчислюються засобами аналізу акустичної системи.

У розділі 4 викладені методи обробки спектрів (у частотній області) для одновимірного випадку. Мовотворний тракт розглядається як "чорна скринька",

Sg() S()

на виході якої визначена спектральна функція S(), а для неї може бути побудовано опис сгладжуючим сплайном Y(). Задачею є апроксимація функції W() мовотворного тракту у базисі функцій другого порядку

Wi(p) = , Wi(k)2 =

при подачі на вхід системи сигналу зі спектром Sg(k)=qk= .

Фазо-частотна і спектральна функції мовного сигналу відновляються одновимірним сгладжуючим сплайном. Фаза визначається як k=arc tg (bk/ak), де 0 k 2, парна і непарна складова спектра Фурє .

Припустимо, задано спектральний опис мовного висловлення у виді масиву значень . Сплайн-моделювання здійснюється в класі функцій, що згладжують, як одновимірний опис спектральних параметрів функції Y(,) для фіксованих інтервалів часу. Припустимо, сгладжування спектрального опису зводиться до задачі знаходження

= [ S(k,ТlN) - Y(,)]2

для сплайн-моделі з неперервними похідними у вузлах склеювання по .

Повний опис спектральної функції в смузі 0-8000 Гц для фіксованого інтервалу часу можна реалізувати моделлю

A 13 (-0)3+ A12 (-0)2+A11 (-0)+A10 0 < 1,

Y()= ------------------------------------------------------------------------

A93 (-8)3+ A92 (-8)2+A91 (-8)+A90 8 < 9.

ля коректного опису формантної структури голосних звуків і плавної спектральної функції гучних звуків найкраще положення вузлів j=Kj0 відповідає K1=3, K2=6, K3=9, K4=12, K5=20, K6=30, K7=45, K8=60, K9=80.

Відновлення частотної функції мовотворного тракту по спектральної функції мовного сигналу реалізується апроксимацією спектральної функції в базисі передаточних функцій резонансних ланок другого порядку. Припустимо, визначений спектральний зріз мовного сигналу S(k,ТlN), де ТlN інтервал часу аналізу, , а спектр сигналу голосового джерела має вигляд

Sg(k) =qk = для k=k0, T=2/0, q<1.

Для опису (2) побудуємо модель Z(k,Тl) функції S(k,ТlN), як суперпозицію (13) "n" творів модулів передаточних функцій ланок другого порядку на спектр голосового джерела або у виді добутку (14) "n" модулів функцій передаточних ланок другого порядку на спектр голосового джерела.

 

1. Уявлення спектрально-часових функцій у базисі дробово-раціональних функцій і функції Гауса

Розглянемо моделі апроксимації вигляду

Z1(k,tl)= , (25)

lnZ2(k, tl) = , (26)

для функції збудження зі спектром , (27)

де , T=1/0, , <1, Т інтервал аналізу. Для моделів (25)-(26) були прийняти наступні припущення.

1). Сегмент промови, що відповідає фонемі, по частоті k у загальному випадку містить декілька максимумів (для голосних це формантні області).

2). Висловлення (слово) містить декілька сегментів (фонем) у часі.

3). На інтервалі тривалості сегмента в деякій частотній області (формантної) функція енергії спектра може мати декілька локальних максимумів.

4). Для заданого сегмента максимуми функцій на різних частотах у загальному випадку не збігаються в часу.

Методи послідовних наближень SAT і послідовних вилучень CET

Припустимо, що моделі Z1(k,tl), Z2(k,tl) функції S(k,tl) утримують

= , , ,

Компонента спектра знаходиться у вигляді:

Для моделі (25) =

= .

Для моделі (26) =

= + +

+ ),

На кожному кроці "n=1,2,…" параметри при визначаються за схемою SAT (формули (21), (22))

= [S(k,tl)- ]2,

= ln S(k,tl)- ]2

за схемою СЕТ (формули (23), (24) )

= S(i-1)(k,tl)- ]2

= [ln (i-1)(k,tl)- ]2

На першому кроці (n=1) визначаються . Для моделі (25) на другому кроці (n=2) визначаються , . Сукупність { } визначається для наступних кроків при . У моделі (26) на другому кроці (n=2) при відомих визначаються . У загальному випадку, часу може відповідати декілька максимумів із частотами (i), тому при i=1n визначається сукупність { }. Для заданих частот j будуються розподілені та смугові частотні функції РЧФ, СЧФ.

2. Моделі апроксимації

Z1(k,tl)= , (28)

lnZ3(k,tl) = , (29)

зі спектром вхідної функції (27).

A. Локон Аньєзi кріва 3-го порядку

, ,

де параметри визначають форму локона.

Складову спектра будемо шукати у вигляді

= =

= . (30)

Для моделі (28) =

= .

Для моделі (29) +

+ - +

На кожному кроці "n" параметри q, a(i), (i) визначаються по методу найменших квадратів за схемою SAT (формули (21), (22))

= ]2,

= .

за схемою СЕТ (формули (23), (24) )

= [S(i-1)(k,tl)- ]2.

= =

При n=1 визначаються . Для наступних кроків для моделі CET визначаються , для моделі SAT сукупність { } при тому, що параметр на заданому сегменті промови може мати декілька значень (декілька максимумів за часом). У загальному випадку, часу може відповідати декілька максимумів із частотами (i), тому при визначається сукупність .

Б. Функція Гауса

Одне з рішень визначаєм в класі функцій виду

, . (31)

Складову спектра будемо визначати у виді

= =

= , де .

Для моделі (28) =

= ,

Для моделі (29) ln = -

+ .

На кожному кроці "n" параметри q, c(i), (i), (i), при визначаються по методу найменших квадратів за схемою SAT (формули (21), (22))

= [S(k,tl)- ]2,

= [ln(k,tl)- ]2

за схемою СЕТ (формули (23), (24) )

= [S(i-1)(k,tl)- ]2,

= [ ln S(i-1)(k,tl) - ln ]2

При n=1 визначаються , для моделі (5.12) . Для наступних кроків CET визначаються

, для SAT сукупності { } або { } при тому, що параметр на заданому сегменті мови може мати декілька значень (декілька максимумів за часом).

Наведені послідовності розв’язків задач аналізу для наступних функцій:

В. Експоненційиа функція вигляду

W()= , , (32)

максимум якої при k=-b/(2), tl = -d/(2) при , .

Складові спектра визначаються у вигляді

= =

= при .

Г. Експоненційна функція вигляду

W()= , , (33)

максимум якої при и при , .

Компоненти спектру визначаються у вигляді

===

= при .

У розділі 6 приведені алгоритми розпізнавання. Стратегія сплайн-синтезу й ідентифікації. Процес поскладового розпізнавання ілюструє рис.2, де на рис.2а зображена фонемна структура еталонних складів слів. Дво-трьохсимвольним складам відповідають по (24) сегмента мови ("ар" 2 сегмента, "ара" 3 сегмента, "род" 4 сегмента, тому, що перед "д" буде сегмент "пауза"). Складове розпізнавання засноване на таких властивостях:

вкладеність , Еg2Еh3 , Еh3Eq4, {Еg2,Еh3}Eq4; (34)

стикування складів слів= ; (35)

Результат розпізнавання будується як {{(... )1,... , p,... ,N

Повна схема зіставлення сплайн-ідентифікація (рис.2в). Для кожній пари складів будуються ланцюжки порівнянь сегментів при параметричному перетині складів:

а) розривний стик складів Ek,n-1 із El ,1 або Ek,n із El ,2 за умовами (34)(35),

dkl ={Ek # + El # }, (39)

при { # , # }, n>2,

{ # , # }, n2, (40)

{ # , # }, n2, p=1,2,...

де {,} послідовність; n, n1=2,3,4 кількість сегментів у складі слова;

б) для кожної пари сегментів {Ek, El} забезпечується неперервне поєднання як

Y1={Ek, El}={ ,.., , ,..., },

Y2={Ek, El}={ ,. ., , ,... , } , (41)

Y1, Y2 описують ту саму послідовність фонем при неперервному поєднанні передостаннього сегмента складу Ek із першим сегментом складу El і останнього сегмента складу Ek із другим сегментом складу El , забезпечуючи перетин сегментів і .

Рішення задачі розпізнавання полягає в мінімізації

d= [ Y1#{ , Y2#{ , } ], (42)

де # операція зіставлення.

На першому кроці виконується повний перебір для складів Ek, склади El вибираються відповідно до останньої фонеми складу Ek. Далі для кожного кроку здійснюється зменшення підмножини складів Eg, Eh, Eq, що беруть участь у розпізнаванні. Результат розпізнавання {1,... , p,... ,N (43)

Згладжуючи сплайни призначені для опису початкового спектрально-часового зображення і РЧФ, які мають змінну швидкість зміни відповідної функції спектра в залежності від частоти . На нижніх частотах в області першої F1 і другої F2 формант спектр змінюється швидко, на верхніх частотах компоненти спектра змінюються повільніше. Функція , що фільтрує, для різних інтервалів аналізу має різні параметри частоти зрізу. Сплайн першого ступеню з одним вузлом і c частотою зрізу

Y1(r,1) = a1(r,1)+ a2, 0 k, r 1,

Y(i,r,t)= (44)

Y2(r,2) = b1(r,2)+ b2, 1 k, r 2.

Для сплайна довільної степені з одним вузлом по частоті

Y(i,r,t)= ap p-g(r,i), 0 k, r 1,

bp p-g(r,i), 1 k, r 2. (45)

Двовимірний фільтр-ядро по поверхні в координатах і t:

(r,t)= . (46)

Схеми сплайн-синтезу і сплайн-ідентифікації. Кожний склад і Ek містить групи , по двох, трьох або чотирьох сегментів у вигляді сукупності двовимірних спектрів або параметрів мовотворної системи q, . Між сегментами визначені часові межі Tj. Відповідно до розглянутої теорії аналізу можна побудувати три форми параметричного уявлення: а) SAT або СЕТ сукупність параметрів ql,c(li), (li), (li) для (трьох-п'яти) i-х основних складових сигналу або спектру, як функції часу ; б) РЧФ на заданих частотах m= m0; в) СЧФ, сформована з РЧФ. Сплайн-опис параметрів одновимірні або двовимірні накладаються на 2-3-4-сегментні склади в залежності від алгоритму сплайн-синтезу. Склад може бути описаний з одним, двома або трьома вузлами для СЕТ, СЧФ, РЧФ. Алгоритми сплайн-синтезу мають наступний вигляд.

А. Cплайн-синтез без сплайн-опису і без перетину складів (36) (39).

Б. Розривний сплайн-синтез без сплайн-опису, із перетином складів (36), (39). В. Cплайн-синтез з сплайн-описом і без перетину складів (36) (38). Для СЕТ і СЧФ на кроку "p" будується двовимірний сплайн з (1-3) вузлами за часом.

Г. Сплайн-синтез з сплайн-описом, із перетином складів (39). Для СЕТ і СЧФ для "m" основних складових або частотних смуг на кроці "p" будується двовимірний сплайн (А) з (1-3) вузлами за часом.

Д. Сплайн-синтез із сплайн-описом, із перетином складів (40)-(42). Для РЧФ на кроці "p" будується двовимірний сплайн (B) з (1-3) вузлами за часом.

Синхронізація процесів аналізу і розпізнавання. Кожна еталонна послідовність Yk містить [yk0(),... , yki(),... ,ykm()] елементів, що об'єднуються в k груп, кожна група в еталонній послідовності містить j фонем, j=1k, вхідна послідовність X складається з x0(),... ,xl(),... , xr() елементів, що об'єднуються в груп послідовності, кожна група вхідної послідовності містить p фонем, p=1.

Задача сегментації визначити межі між групами або фонемами. Сегментація мови верифікацією на належність до деякого класу елементів [yk0(),...,yki(),... , ykm()]; [x0(),... ,xl(),... ,xr()] з близькими параметрами здійснюється за правилом

d=extrem {xu}#{xt }. (47)

u,,t

Межа визначається як

d1 =max {xu}#{xu+}, (48)

u=v+; v=0, , 2 ,... ,r-2 ; =1

за умови Tseg >0,2 сек, (49)

де крок верифікації( у даній роботі =3;2;2); # операція зіставлення (бітового в Хемінговому або десяткового в Евклідовому просторах). У Евклідовому просторі

d1u= , d2u = .

При сегментації по групових ознаках можуть утворитися довгі сегменти типу Ш-Ш, С-С, Г-Г, С-Г-С, Г-С-Г. У якості ознаки необхідності перевірки сегмента на наявність внутрішньої межі застосовується умова (49). Якщо внутрішньої межі немає, то на даному інтервалі не буде максимуму d. На інтервалі може бути декілька максимумів. У цьому випадку вибирається глобальний максимум на інтервалі Tseg і сегмент ділиться на два нових. Кожний сегмент, що знову утворився, перевіряється за умовою (49) і, якщо необхідно, ділиться на дві частини, реалізуючи розподіл за правилом (48) і умовою (49). Для повної сегментації достатньо три рекурсії з кроком =3;2;2 відліків.

Метод ієрархії при розв’язку задачі розпізнавання мови. Задача побудови систем розпізнавання мови на довільного диктора містить такі частини: а) вибір системи параметрів і їхнє нормування; б) вибір методу поелементного зіставлення реалізацій і послідовності зіставлення параметрів або їхньої сукупності; в) забезпечення реального масштабу часу розпізнавання.

У якості параметрів застосовується матриця акустичних параметрів: інтенсивність, частоти, степінь загасання, які обчислені методами СЕТ і SAT (СЧФ). Задача розпізнавання полягає у виборі оптимальної послідовності розпізнавання і звуженні підмножин розпізнаваємих слів за часом Т и по надійності розпізнавання:

k = f(yk ,Uk ), Tk = ft (yk ,Uk ), Uk = Uk,i,

де yk k-я послідовність рівнів, а Uk,l=fu (y k)- підмножина слів рівня l, l=(1m).

На кожному рівні визначається деяка підмножина слів Uk,l, для яких властиві деякі загальні ознаки. Граничними випадками можуть бути: а) ознака притаманна усім словам; б) ознака не притаманна жодному слову; в) ознака притаманна тільки одному слову; г) ознака притаманна не порожній підмножині, що містить частину поочної підмножини. Коефіцієнт розподілу поточних підмножин Ql= , де n0 обсяг словника, nl кількість слів підмножини Ul, яким притаманна дана ознака при l=1m, а Ql задає коефіцієнт розподілу вихідної множини U для незалежної класифікації по окремих рівнях. Пошук здійснюється по випадковим значенням ознак і тут можливі варіанти.

1. У залежності від часу розпізнавання по кожній ознаці при T1=T2=... Tm рівні розташовуються в порядку зростання коефіцієнтів розподілу Q . 2. При Q1=Q2=... Q m-1 рівні розташовуються в порядку зростання T . 3. При T1=T2=... Tn і Q1=Q2=... Q m-1 порядок проходження рівнів не має значення. 4. Усі Ti і Qi у загальному випадку різноманітні.

Оптимальна послідовність етапів розпізнавання має вигляд

... ... . (50)

У розділі 7 наведена технологія побудови устроїв розпізнавання промови. Загальна схема проектування містить: 1. Блок аналізу мовних сигналів у базисах функцій СЕТ, РЧФ, СЧФ, Фур'є, Мат'є, Лежандра, Чебишева, Уолша, Ерміта та інш. Опис параметрів за допомогою интерполяційних сплайнів і сплайнів, що згладжують. 2. Вибір типів мовних одиниць: 3. Сегментація. 4. Вибір метрики і критеріїв порівняння. 5. Вибір методів порівняння.

Практичне роз’язання задачі на основі екстремальних функцій полягає у наступному. Функция в області утримує довільну кількість сплесків спектральної енергії, розташованих довільним чином в заданої області. Необхідно функцію сегментувати і апроксимувати в класі функцій , , для цього визначити параметри сплесків функції як параметри функцій , . Для розвязку задачі в області будується сітка , де M кількість сегментів, N кількість пар граничних частот. Межі кліток сітки визначають початкові значення параметрів по частоті і часу. Роз’язання задачі реалізовано у класі функцій локону Аньєзі

, ,

де визначають форму локона, складова спектру має вигляд

=

=.

Різницева схема вилучення складових СЕТ у прямому вигляді для спектральної функції S(k,tl)

 

=+,

=

+ ,

……………………………

+ . (51)

Відбір складових здійснюється для кожної клітини сітки , .

Параметри визначаються по методу найменших квадратів для

=[

-]2. (52)

Метод покоординатного спуску для рішення задачі мінімізації (52) полягає у виборі напрямку зміни параметрів за правилом:

, , , ,

, , із точністю EPS.

Для кожного вигляду екстремальних функцій існує свій параметр, який визначає ширину відповідної функції щодо положення її максимуму. Для локона Аньєзі такими параметрами є: по частоті, за часом.

Алгоритм сегментації використовує властивость екстремальних функцій, що їх дотичні, проведені в точках перетину, перетинаючи з віссю часу, утворюють границі сегментів, а ширина сегменту . У свою чергу в реалізованому алгоритмі пошук сплесків у часі здійснюється для (51), (52) як задача розбиття вихідного опису на M сегментів. Для цього вибирається вихідний інтервал аналізу тривалістю , де тривалість неперервного звуку (голосного, згодного, шумового), . На кожному наступному кроці початок інтервалу аналізу зміщується на величину (аналіз для кожного сегмента здійснюється у всьому частотному діапазоні). У результаті сегментації фонема може бути зображена у вигляді послідовності з одного і більше сегментів. Задача розпізнавання вирішується як задача зіставлення частотніх параметрів екстремальних функцій a(i,j) , b(i,j) , c(i,j) .

Проектування складних програмних систем. Класу розв'язуваних задач {zi} відповідає один проект cj, сукупність проектів утворює клас або множину взаємозалежних проектів pk. Кожний проект являє собою параметричну модель вихідного тексту програми, що реалізує клас задач. Взаємодію задач, класів і проектів можна уявити так: cj ={z1 ,z2 ,... ,zi ,... ,znkj сукупність задач zi класу проекту cj ; pk ={c1 ,c2 ,... ,cj ,... ,cmk сукупність pk взаємозалежних проектів-класів cj або локальна система проектів (ЛСП); sm={p1 ,p2 ,... ,pk,... ,pr (super main) узагальнений уявлення системи проектів (УУСП).

Для реалізації технології проектування застосовуються мови програмування C++, GNU C++, Delphi.

Побудован базовий алгоритм розпізнавання на основі функцій Аньєзі, Гауса та ін. В частотній області діапазон частот (1006000) Гц розбивається на 15 шарів з кроком зміни частоти шару 400 Гц. Для кожного шару на сегменті заданих частотних межах обчислюються параметри функцій Аньєзі, Гаусу або інш., розв'язуя задачу апроксимації початкового спектрально-часового уявлення як суму локонів

, (53)

при .

Для обчислених значень параметрів будується пять груп опису еталонних послідовностей кожного слова (складу):

1) максимуми функцій локону; 2) синтезоване спектрально-часове уявлення вигляду (53); 3) бітове уявлення из синтезованого спектрально-часового уявлення; 4) двовимірний сплайн-опис спектрально-часового уявлення двовимірного фільтру (44)-(46); 5) початкове спектрально-часове уявлення .

При розпізнаванні реалізована іерархія (50). Проста схема розпізнавання для словників до 1000 слів оперує з уявленнями:

Вид 2) вид 5) ,

для котрих задана внутрішня іерархія, яка зформована послідовністю шарів в граничних частотах

(1002000) Гц (1003000) Гц (1004000) Гц

(1004000) Гц (1005000)Гц (1006000)Гц.

На кожному кроці внутрішньої іерархії реалізується ділення обсягу розпізнаваємої підмножини на два. Повна схема утримує всі параметричні уявлення: Вид 1) вид 2) вид 3) вид 4) вид 5).

Порівняння по уявленню “вид 1)” має найбільшу швидкодію, порівняння по уявленням “вид 2)”, "вид 5)" найбільшу надійність. Кожен рівень порівняння постачає наступному половину еталонних послідовностей і зменьшує розпізнаваєму підмножину. На останьому етапі приймається остаточне рішення. Експериментальні дослідження на словнику 800 слів виявили високу стійкість отриманих вірних відповідей розпізнавання. На етапі навчання надійність розпізнавання складає не менше 98%. В процесі експлуатації для окремих слів здійснюється донавчання. Програмне середовище реалізоване в оболонці мови Delphi в двох арифметиках: з плаваючою точкою і в целочисленному вигляді з форматом уявления параметрів як слово (16 біт). Уявлення в целочисленному вигляді дало можливість отримати час розпізнавання для указаного словника, близкій до реального висловлення.

ВИСНОВКИ

Результати вирішення науково-технічної проблеми по створенню теоретичних основ аналізу і


Сторінки: 1 2