У нас: 141825 рефератів
Щойно додані Реферати Тор 100
Скористайтеся пошуком, наприклад Реферат        Грубий пошук Точний пошук
Вхід в абонемент





Міністерство освіти і науки України

НАЦІОНАЛЬНА АКАДЕМІЯ НАУК УКРАЇНИ

МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ

ІНСТИТУТ ПРОБЛЕМ ШТУЧНОГО ІНТЕЛЕКТУ

Федоров Євген Євгенович

УДК 004.896

РОЗРОБЛЕННЯ АЛГОРИТМІВ ТА ПРОГРАМНО-АПАРАТНИХ ЗАСОБІВ СИСТЕМ РОЗПІЗНАВАННЯ МОВНИХ ОБРАЗІВ

Спеціальність 05.13.23 – системи та засоби штучного інтелекту

АВТОРЕФЕРАТ

дисертації на здобуття наукового ступеня

кандидата технічних наук

Донецьк 2003

Дисертацією є рукопис.

Робота виконана в Донецькому державному інституті штучного інтелекту МОН України.

Науковий керівник доктор фізико-математичних наук,

професор ШЕЛЕПОВ Владислав Юрійович

керівник відділу фундаментальних проблем розпізнавання мовних образів Інституту проблем штучного інтелекту МОН і НАН України

Офіційні опоненти:

доктор технічних наук, професор КОВАЛЬ Валерій Миколайович, відділ теорії цифрових математичних машин і систем Інституту кібернетики ім. В.М. Глушкова НАН України

кандидат технічних наук ЖИЛІН Олександр Вікторович, кафедра програмного забезпечення інтелектуальних систем Донецького державного інституту штучного інтелекту МОН України

Провідна установа – Інститут проблем математичних машин і систем НАН України, відділ нейротехнологій, м. Київ.

Захист дисертації відбудеться “19” вересня 2003 р. о 14 годині на засіданні спеціалізованої вченої ради К11.243.01 Інституту проблем штучного інтелекту за адресою: 83050, м. Донецьк, пр. Богдана Хмельницького, 84, довідки за тел. (0622) 304-62-86.

З дисертацією можна ознайомитися в бібліотеці Донецького державного інституту штучного інтелекту за адресою: 83050, м. Донецьк, вул. Р. Люксембург, 34-а.

Автореферат розісланий “18” серпня 2003 року.

Вчений секретар

спеціалізованої вченої ради,

кандидат технічних наук Полівцев С.О.

ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ

Актуальність теми. У сучасній вітчизняній і світовій практиці більше 20 років інтенсивно розвиваються теоретичні й прикладні дослідження широкого класу інтелектуальних систем. В Україні подібні дослідження проводяться в Інституті кібернетики ім. В.М. Глушкова, Інституті проблем математичних машин та систем, Київському національному університеті імені Тараса Шевченка, Інституті проблем штучного інтелекту. Постійно діючі міжнародні семінари й конференції та відповідні наукові школи створили ряд визначень штучного інтелекту, позначивши ознаки систем штучного інтелекту, теоретичний апарат, методологію створення. Значні результати в галузі створення систем штучного інтелекту отримані В.І.Василь-євим, Т.К.Винцюком, М.З.Згуровським, В.М.Ковалем, Ю.В.Краком, Д.О. Поспєловим, О.М.Резніком, Ю.П. Шабановим-Кушнаренком, А.І. Шевченком, В.Ю. Шелеповим й іншими. Паралельно в ці ж роки спостерігається інтенсивне зростання досліджень, присвячених теоретичній і прикладній проблемам створення гнучких виробничих систем і робототехнічних комплексів. Слід зазначити, що сучасні вимоги обумовлюють зрощування двох перспективних наукових напрямків. Один з них пов'язаний із задачами інтелектуального керування роботами й робототехнічними комплексами, інший визначається взаємодією інтелектуальних систем керування у виконавчій частині з робототехнічними комплексами. Перераховані вище особливості визначили актуальність теми дисертаційного дослідження.

Крім того, відповідно до концепцій створення ЕОМ 5-го покоління й образного комп'ютера, їх перспективні архітектури повинні спиратися на мовні інтерфейси людино-машинного спілкування. У свою чергу інтелекту-альні системи керування й робототехнічні комплекси базуються на сучасній обчислювальній техніці. Підлегла цим концепціям розробка апаратно-програмних засобів спілкування “людина-комп'ютер” невід'ємно пов'язана із синтезом інтелектуальних систем керування й робототехнічних комплексів.

Зв'язок роботи з науковими програмами, планами, темами. Дисертаційна робота виконана у відділі фундаментальних проблем розпізна-вання мовних образів Інституту проблем штучного інтелекту, відповідно до плану науково-дослідної роботи, у межах держбюджетних тем “Пошук i дослідження способів подання, обробки й розпізнавання багатомовної (різномовної) інформації для використання при створенні природномовних інтерфейсів машинокомп'ютерiв та ЕОМ нової генерації”, шифр 103-96, № 0100U002225, “Створення автономного робота з інтелектуальнім керуванням”, шифр 702-98, № 0100U002229, “Розробка комп’ютерної системи голосового набору математичних текстів на підставі пофонемного розпізнавання мовних образів”, шифр PM-2002, № 0100U002241. Автор брав участь у виконанні робіт з теми як виконавець за розділами “Формалізація семантики мови”, “Розробка алгоритмів і моделей перетворення мовлення”, “Розробка алгоритмів і програм системи розпізнавання мовлення”.

Мета й задачі дослідження. Метою роботи є синтез алгоритмів інтелектуальної системи розпізнавання мовлення та їх застосування в керуванні мобільним роботом.

Для досягнення цієї мети були поставлені задачі дисертаційної роботи:

-

провести аналіз сучасних методів формалізації й розпізнавання мовлення;

- розробити множинно-семантичні моделі представлення мовлення у вигляді характеристик нормованих просторів;

- створити математичні моделі й алгоритми комп’ютерного перетворення мовлення в чисельні характеристики;

-

синтезувати алгоритми системи розпізнавання, що функці-онують на принципах відображення характеристик перетвореного мовлення, на відповідні конструкції еталонів мовлення;

-

здійснити ідентифікацію параметрів комп’ютерного перетворення мовлення, апробувати режими навчання й розпізнавання команд, переутворених через інтелектуальний комп'ютерний інтерфейс керування мобільним роботом;

- здійснити перевірку функціонування моделей та алгоритмів створених підсистем розпізнавання мовлення через незалежну статистичну вибірку з метою оцінювання їх адекватності.

Об'єкт дослідження: комп'ютерні інтерфейси систем розпізнавання мовних образів.

Предмет дослідження: математичні моделі мовлення, алгоритми перетворення й розпізнавання мовлення.

Методи дослідження. Теорія множин при формуванні множинно-семантичних моделей мовлення, функціональний аналіз при нормуванні їх характеристик, методи системного аналізу при синтезі алгоритмів інтелектуальної системи керування, методи ідентифікації при розрахунку параметрів мовлення, методи теорії ймовірностей та математичної статистики при оцінюванні параметрів і рівнів навчання й розпізнавання.

Наукова новизна отриманих результатів дисертаційного дослідження полягає в наступному:

1. Вперше створено правила методології розробки множинно-семантичних моделей представлення мовлення та їх нормованого відображення в оцінки відповідних просторів. Це дозволяє розміщати їх характеристики в базі даних на логіко-формальному рівні, з кількісними характеристиками, що дає можливість відповідно до введеного ступеня визначати збіг мовлення.

2. Одержали подальший розвиток методи моделювання, за допомогою яких здійснюється перетворення мовлення. Це дає можли-вість конструювати комп'ютерні інтерфейси мовного спілкування з формальним представленням їхніх характеристик у вигляді моделей як пара-метричних структур, вихідними змінними яких є кількісні оцінки складо-вих частин мовлення.

3. Удосконалена методологія синтезу інтелектуальних робото-технічних систем, що передбачає навчання системи спеціалізованому словнику команд — це дає можливість розпізнавати мовні команди мобільного робота з малою помилкою й високою швидкістю.

4. Дістали подальшого розвитку засоби ідентифікації математичних моделей комп'ютерного перетворення мовлення, що покладені в основу систем розпізнавання мовних образів. Це дозволяє застосовувати їх при синтезі інтелектуальних систем керування різноманітного призначення.

Практичне значення отриманих результатів дисертаційного дослідження полягає в наступному:

1. Здійснено синтез структури апаратно-програмної частини підсисте-ми перетворення мовлення, для якої сформовані уніфіковані алгоритми параметричної ідентифікації мовлення, що дозволить конструювати аналогічні підсистеми як вхідну частину будь-якої інтелектуальної системи.

2. Виділено сукупність енергетичних ознак мовлення, що фіксуються підсистемою перетворення, яка дає можливість здійснювати навчання (настроювання) мовних комп'ютерних інтерфейсів на голосові особливості будь-якої людини-оператора.

3. Розроблено алгоритми інтелектуальних систем розпізнавання мовлення, що призначені для керування мобільним роботом. Це дозволило скоротити на 20% час реакції робота на подану команду щодо інтерактивної команди, що підтверджено актом упровадження.

4. Використання створених методологічних положень формалізації мовлення для будь-якої спеціалізованої задачі інтелектуального керування дозволяє синтезувати математичні моделі чисельної оцінки якісного розпізнавання звуків, слів, команд. Використання подібного роду моделей в інтерфейсах мовного спілкування з комп'ютером спрощує рішення задач програмування й керування.

5. Основні методологічні положення дослідження, розроблені на їхній основі математичні моделі й алгоритми системи розпізнавання мовлення використані в навчальному процесі при підготовці та проведенні занять з дисциплін “Інтелектуальні системи” й “Математичне моделювання” на кафедрі програмного забезпечення інтелектуальних систем Донецького державного інституту штучного інтелекту.

Особистий внесок здобувача. Усі результати дисертації отримані автором самостійно. Роботи [1-13] виконані персонально дисертантом. У спільних роботах дисертанту належить: [14] – опис системи розпізнавання мовлення; [15] – опис східчастого розпізнавання великих словників; [16] – опис методів сегментації мовлення; [17] – опис алгоритмів визначення початку та кінця мовлення; [18] – опис алгоритму виділення шуму з мовлення й захисту від стороннього мовлення; [19] – опис методики розпізнавання звуків мовлення й алгоритму розпізнавання ізольованих слів.

Апробація роботи. Основні результати дисертаційної роботи були повідомлені на:

-

XVIII Міжнародній конференції “Информационные технологии в науке, образовании, телекоммуникации, бизнесе”, Гурзуф, 2001;

- Міжнародній науково-практичної конференції “Знание – Диалог – Решение”, Санкт-Петербург, 2001;

- Міжнародній науковій конференції “Интеллектуальные и многопроцессорные системы – 2001”, Геленджик, 2001;

- науковій молодіжній школі “Интеллектуальные робототехнические системы – ”, Геленджик, 2001;

- ІІІ Всеукраїнської конференції молодих учених “Інформаційні технології в науці, освіті і техніці”, Черкаси, 2002;

- Міжнародній науковій конференції “Интеллектуализация обработки информации”, Сімферополь, 2002;

- Міжнародній науково-практичній конференції “Автоматизація виробничих процесів”, Хмельницький, 2002;

- ІІІ Міжнародній науково-практичній конференції “Інтернет – Освіта — Наука”, Вінниця, 2002;

- Міжнародній дистанційній науково-практичній конференції “Автоматизированное Рабочее Место Врача 2002”, Дніпропетровськ, 2002;

- конференції “Искусственный интеллект”, Кацивелі, 2002.

Публікації. Основні положення дисертації викладені в 19 друкованих працях, з них – 12 статей у фахових виданнях.

Структура й обсяг дисертаційної роботи. Дисертаційна робота складається зі вступу, чотирьох розділів, висновків, списку використаних джерел, доповнень. Повний обсяг роботи – 166 сторінок. Дисертація містить 9 рисунків й 2 таблиці на 8 сторінках, 2 доповнення на 25 сторінках, список використаних джерел з 120 найменувань на 12 сторінках.

ОСНОВНИЙ ЗМІСТ РОБОТИ

У вступі обґрунтована актуальність дисертаційної роботи, сформульована основна мета й задачі дослідження, приведені зведення про зв'язки обраного напрямку досліджень із планами організації, у якій виконана робота. Дано коротку анотацію отриманих у дисертації рішень, відзначена їхня практична цінність, відбиті перспективи використання результатів досліджень у народному господарстві.

У першому розділі проведено аналіз вітчизняної та зарубіжної літератури з питань, пов'язаних з темою дисертації. Розглянуті основні методи й принципи побудови існуючих систем розпізнавання мови як складових частин інтелектуальних систем, прикладом яких є інтелектуальний мобільний робот. Існуючі загальнометодологічні аспекти синтезу цих систем засновані на логіко-формальному апараті опису, алгебрі предикатів мовлення при високому рівні класифікації й групування граматик, але мають недостатній рівень конструктивізму. Алгоритми комп'ютерних інтерфейсів мовного розпізнавання спираються на приватні характеристики пристроїв і можливості сучасних комп'ютерів. Ці два аспекти визначили постановку задачі дослідження.

На основі проведеного аналізу сформульовані задачі й визначена структура дисертаційної роботи, що методологічно складається з трьох частин: формалізація мовлення на основі теорії множин і функціональному аналізі; розробка алгоритмів і математичних моделей перетворення мовлення, що базується на положеннях електроніки, радіотехніці та теорії керування; синтез алгоритмів системи розпізнавання мовлення, заснований на методах ідентифікації й теорії керування.

В другому розділі розроблено методологічні положення формального представлення мовлення. Вони містять у собі правила:

-

множинного представлення характеристик мовлення;

- просторового представлення мовлення;

При множинному представленні характеристик мовлення формалізовані звуки, слова, частини речень і самі речення, із закріпленням елементів у логічному взаємозв'язку алгеброю предикатів.

Слова мовлення представлені як послідовність звуків (1) множиною (2)

, (1)

, , (2)

, де X=(x1,…,xn),,

де - максимальна довжина звукової транскрипції слова.

Частини речення можливо представити послідовністю слів (3)

, (3)

, де X=(x1,…,xn), ,

де - синтаксема без прийменника, - синтаксема з прийменником, - предикатив, - максимальна довжина частини речення.

Речення можливо представити послідовністю частин (4)

, (4)

, де X=(x1,…,xn),,

де - максимальна довжина речення.

Щоб представити множинні характеристик мовлення у вигляді чисел, на підставі методології функціонального аналізу здійснюється їх метризация й нормування, через що вони представлені елементами відповідних просторів.

Звуки мовлення представляються у вигляді множини векторів ознак (5) з метрикою та нормою (6)

, (5)

де - максимальна довжина вектора ознак.

, . (6)

Слова мовлення через послідовність числових ідентифікаторів звуків мають вигляд множини (7) з метрикою та нормою (8)

, (7)

, . (8)

Частини речень через послідовність числових ідентифікаторів слів мають вигляд множини (9) з метрикою та нормою (10)

,, (9)

,

. (10)

Речення мовлення представлені множинами числових ідентифікаторів частин речень (11) для яких визначена метрика й норма (12)

, (11)

, . (12)

Розроблені правила дозволяють формалізувати мовлення, тобто складають основу функціональної частини мовного інтерфейсу. Апаратно-програмний комплекс, призначений для перетворення мовного сигналу в сукупність його характеристик, розглядається в наступному розділі.

У третьому розділі розроблені математичні моделі комп’ютерного перетворення мовного сигналу технічними складовими системами розпізнавання мовлення. Мовний інтерфейс, призначений для спілкування людини з комп'ютером, технічно базується на пристроях перетворення аналогових сигналів електромагнітних коливань мікрофона в оцифрований сигнал, що повинен розпізнаватися комп'ютером. Схема, що представляє технічну складову апаратно-програмного комплексу перетворення мовлення, представлена на рис.1.

Відповідно до функціональних особливостей перетворення мовлення, в даному розділі розроблені математичні моделі аналогових перетворень мовлення, виділення особливостей оцифрованого сигналу, характеристик технічних пристроїв. При розробці математичної моделі перетворення аналогових сигналів враховано особливості посилення сигналу (13) й фільтрації (14), що здійснюються у відповідних блоках мікрофона.

, (13)

, (14)

де - коефіцієнт підсилення, - передатна функція фільтра.

Створення математичних моделей виділення особливостей оцифрованого сигналу відбиває специфіку звукової карти (рис.1). Методологічно правила функціонування складових звукової карти припускають виділення границь сигналу, визначення періоду основного тону, частотних і енергетичних складових сигналу. Основні перетворення спираються на класифікацію укрупнених груп звуків мовлення – це шумні шиплячі приголосні, шумні нешиплячі приголосні (чи паузи), тональні приголосні й голосні.

Рис.1. Схема перетворення мовного сигналу

Рис.1. Схема перетворення мовного сигналу

Структура виділення особливостей мовлення представлена блоком, вхідними змінними якого є звуковий сигнал x(n), що має довжину N і межі частотного діапазону 1 і 2, а як вихідні змінні – вектор ознак y цього сигналу, що містить довжину періоду основного тону , нормовану енергію низькочастотних складових сигналу AН, нормовану енергію високочастотних складових сигналу AВ, енергетичний спектр сигналу WНВ(k). У межах вищенаведеної класифікації розроблені математичні моделі, які призначені для виділення двох основних ознак:

-

визначення основного тону;

- зіставлення енергетичних характеристик первинного та перетвореного сигналів.

Розрахунки довжини періоду основного тону підкорюються функціональному виразу (15)

, (15)

, ,

де — мінімальна довжина періоду основного тону,

— максимальна довжина періоду основного тону.

Для коректного рішення задачі (15) перевіряється необхідне (16) і достатнє (17) умови існування екстремуму.

 

За допомогою градієнтного методу першого порядку в ітеративних процедурах алгоритму системи зважується задача (15), при цьому визначається мінімальне значення і значення , що доставляє мінімум цієї функції.

Модель розрахунку довжини періоду основного тону дозволяє виділити один аспект характеристик звуків. Другий аспект — це співвідношення нормованих енергій для низькочастотних EН і високочастотних EВ складових (18) – (24).

, , (18)

XН(k) = X(k),; XВ(k) = X(k),; (19)

, ; (20)

XНВ(k) = X(k), при ; (21)

, (22)

, , ; (23)

, , (24)

де - мінімальна частота мовлення,

- максимальна частота мовлення, - частота зрізу.

На підставі емпіричних даних, що одержані під час настроювання (навчання), виділено граничні значення , , у співвідношенні нормованих енергій. Тоді розрахунки за цими типами моделей дозволяють здійснювати ідентифікацію чотирьох типів звуків, відповідно до сформованих правил:

-

якщо , то звук є шумним шиплячим;

- якщо

, то звук є шумним нешиплячим (паузою);

- якщо

, то звук є тональним приголосним;

- якщо

, то звук є голосним.

Створені математичні моделі перетворення мовного сигналу дають можливість обчислювати значення показників мовлення, що в сукупності з чисельним представленням особливостей мови дозволяє ставити й вирішувати задачі взаємного відображення мови та мовлення.

У четвертому розділі запропонована розробка алгоритмів і програм системи розпізнавання мовлення. Вона містить у собі синтез узагальненої структури розпізнавання, розробку методологічних положень і правил формування еталонів мовлення, ідентифікацію параметрів мовлення і аналіз функціонування підсистем, а також особливості програмної реалізації інтелектуальної системи розпізнавання команд мобільного робота. Відповідно до методології теорії систем керування створена узагальнена структура системи розпізнавання, що складається з трьох підсистем (рис.2).

Рис.2. Функціональна схема системи розпізнавання

У підсистемі ідентифікації параметрів мовлення здійснюється оцінювання звуків мовлення.

Функціональна підготовка здійснюється підсистемою формування еталонів мовлення. Ця підсистема призначена для персоніфікації програмного забезпечення системи щодо особливостей мови диктора й передбачає кратні режими формування еталонів (навчання) з видачею повідомлення про завершення процесу навчання.

Реалізація сукупності перших двох підсистем дозволяє функціонувати підсистемі розпізнавання мовлення, тобто визначає ступінь функціональної готовності технічних пристроїв і бази даних (БД) для розв’язку задач розпізнавання. У цій підсистемі задані ймовірності розпізнавання, при невиконанні яких система припиняє з режиму розпізнавання мовлення й вимагає адаптації — додаткового навчання, тобто переключається до режиму функціонування підсистеми формування еталонів мовлення. Підсистема ідентифікації вмикається, припинаючи роботу двох інших підсистем, у тих випадках, коли адаптації підсистеми формування еталонів не дає задовільних результатів або здійснюється заміна комплексу технічних засобів і стандартного програмного забезпечення.

Відповідно до введеної в розділі 3 класифікації груп звуків мовлення в блоці 1 здійснюється виділення меж. Алгоритм виділення лівої межі представлений на рис.3, де AVG — поточне середнє значення мовного сигналу, SM — кількість строгих мінімумів мовного сигналу, 1, 2, 1, 2 – параметри мовлення, розрахунок яких здійснюється підсистемою ідентифікації.

Режим формування еталонів передбачає навчання системи й ідентифікацію звуків шляхом голосового введення тестових слів, що містять характерні звуки, які відповідають класифікації чотирьох типів.

Рис.3. Структура виділення лівої межі слів

У розділі наведені оцінки параметрів мови диктора, довжини періоду основного тону й помилки, що виникають при формуванні еталонів, методичні правила створення еталонів звуків і їхніх класів, слів, речень і їхніх частин з нормованим представленням щодо обмеженого набору команд робота. Крім того, виділено семантичний зміст множин слів команд робота й можливих речень. При ідентифікації мовлення розраховані значення параметрів звуків мовлення. Здійснено процедури настроювання цих параметрів на голосові особливості різних дикторів.

Функції підсистеми розпізнавання мовлення містять дві каскадні процедури: аналізу і розпізнавання. Процедури аналізу містять визначення чисельних характеристик звуків, слів, частин речень і команд. Процедури розпізнавання містять у собі зіставлення чисельних характеристик вимовлених команд із відповідними характеристиками еталонів, що сформовані в розділах БД під час навчання. Таким чином, при аналізі вимовленої команди йде конструювання команди знизу нагору. У свою чергу, каскади розпізнавання функціонують зверху вниз, тобто за звуковими конструкціями, які створені в результаті функціонування процедур аналізу, із заданим ступенем близькості визначається відповідність отриманих конструкцій еталонам, що розміщені в розділах БД. Обидві процедури складаються з чотирьох етапів.

Під час аналізу мови перший етап цього каскаду підлеглий виділенню лівої та правої межі нормованого слова команди. Потім здійснюється розбиття ізольованого слова на інтервали, що характеризують звуки. На кожнім інтервалі визначається чисельне значення відповідної ознаки звуку. На другому етапі з обчислених ознак звуків формуються ознаки слів. На третьому етапі з ознак слів формуються ознаки частин команди. На четвертому етапі з ознак частин речень конструюються речення (команди).

При розпізнаванні мовлення на першому етапі виробляється зіставлення чисельних характеристик ознак речень, що сконструйовані в результаті аналізу, з еталонами речень БД. Аналогічно на другому етапі здійснюється порівняння чисельних характеристик ознак частин речень з еталонами частин речень БД. На третьому етапі здійснюється зіставлення чисельних характеристик ознак слів з еталонами слів БД. На четвертому етапі здійснюється порівняння чисельних характеристик ознак звуків з еталонами звуків. Чисельні характеристики вимовлених команд наведені в табл.1.

Таблиця 1

Оцінки чисельних характеристик складових частин вимовлених команд

Межі слів | Інтервали | Ознака звуків | Ознака слів

(10-1) | Ознака частин речень (10-2) | Ознака речень

(10-3)

1 | 2 | 3 | 4 | 5 | 6

11500-18000 | 11500-13000 | 0.275 | 0.213 | 0.477 | 0.875

13000-16300 | 0.465

16300-18000 | 0.607

31000-40000 | 31000-34000 | 0.684 | 0.267

34000-38000 | 0.368

38000-40000 | 0.459

117500-125700 | 117500-121500 | 0.465 | 0.302 | 0.517

121500-124000 | 0.345

124000-125700 | 0.445

139000-144500 | 139000-140000 | 0.368 | 0.285

140000-142500 | 0.465

142500-144500 | 0.302

Експерименти щодо каскадних процедур аналізу й розпізнавання були проведені для 90 дикторів (по 15 дикторів кожної категорії) з фіксованою кратністю навчання та розпізнавання. Для цих експериментів здійснено аналіз розпізнавання команд, що подаються з відповідною кратністю й класифіковані щодо голосових характеристик дикторів.

Основні методологічні положення роботи реалізовано у вигляді апаратно-програмного комплексу, що апробований у мовному інтерфейсі інтелектуальної системи керування мобільним роботом. Практичним результатом є те, що керування голосом дозволило на 20% скоротити час реакції робота щодо інтерактивної команди.

ВИСНОВКИ

У дисертаційній роботі наведено теоретичне обґрунтування та нове вирішення наукової задачі, що полягає в створенні алгоритмів та програмно-апаратних засобів розпізнавання мовлення, які орієнтовані на застосування в різноманітних системах штучного інтелекту. Аналіз отриманих результатів дає підставу зробити такі висновки:

1. Проведений аналіз сучасних методів формалізації і розпізнавання мовлення визначив актуальність створення комп’ютерних інтерфейсів спілкування “людина - комп’ютер”, дозволив виділити особливості мовлення, визначити необхідність створення теоретичних засад опису цих особливостей, здійснити постановку задачі дослідження.

2. Вперше створено правила методології формування множинно-семантичних моделей представлення мовлення, що полягає в одержанні оцінок чисельного значення їх характеристик шляхом нормування. Це дозволяє здійснювати опис особливостей будь-якого мовлення для використання в інтелектуальних системах різноманітного призначення та дає можливість їх чисельного зіставлення.

3. Створено математичні моделі та алгоритми комп’ютерного перетворення мовлення у вигляді параметричних структур, для яких передбачається існування адаптивних алгоритмів ідентифікації, що дозволяє використовувати ці алгоритми в будь-яких системах спілкування “людина - комп’ютер” внаголос.

4. Дістала подальшого розвитку методологія синтезу алгоритмів систем розпізнавання мовлення як параметричних структур для використання в апаратно-програмних комплексах інтелектуальних систем різноманітного призначення, яки розглядаються як системи з ідентифікатором в контурі керування. Це дає можливість здійснювати гнучке конструювання апаратно-програмних комплексів спілкування “людина-комп'ютер” з адаптацією параметрів під конкретні задачі та конкретного оператора системи, що здійснює діалог.

5. Дістали подальшого розвитку теоретичні засади ідентифікації мовлення, що базуються на еталонах характеристик спеціалізованої мови команд, які сформовані за сукупностями енергетичних ознак мовлення, що фіксовані системою перетворення. Здійснено апробацію процедур ідентифікації завдяки представницької вибірки, що містить 90 дикторів, яки мають різні особливості голосового тембру.

6. Адекватність створених моделей та алгоритмів перевірено через незалежну статистичну вибірку

7. Створені за теоретичними висновками роботи алгоритми мовного спілкування людини с мобільним роботом дозволили на 20% скоротити час реакції робота на подану команду щодо інтерактивної команди.

СПИСОК ОПУБЛІКОВАНИХ АВТОРОМ ПРАЦЬ
ЗА ТЕМОЮ ДИСЕРТАЦІЇ

1. Федоров Е.Е. Разработка каскадной процедуры распознавания речи // Искусственный интеллект. – 2003. – №1. – С. 289-294.

2. Федоров Е.Е. Построение дерева синтаксического подчинения и базы знаний для корректировки результатов распознавания речи // Праці ІІІ Всеукраїнської конф. молодих науковців “Інформаційні технології в науці, освіті і техніці”. – Черкаси. – 2002. – С. 265-267.

3. Федоров Е.Е. Построение интеллектуальной системы распозна-вания с семантическим анализатором // Искусственный интеллект. – 2001. – №2. – С. 74-79.

4. Федоров Е.Е. Разработка причастных и деепричастных оборотов для алгоритма синтаксического анализа предложения // Искусственный интеллект. – 2002. – №4. – С. 289-294.

5. Федоров Е.Е. Алгоритм построения дерева синтаксического подчинения // Праці ІІІ Міжнар. науково-практичної конф. “Інтернет – Освіта – Наука”. – Вінниця. – 2002. – С. 250-260.

6. Федоров Е. Е. Построение транслятора для поставленного голосом задания // Искусственный интеллект. – 2001. – №4. – С. 54-60.

7. Федоров Е.Е. Диалоговая система речевого управления мобиль-ным роботом с семантическим анализатором // Искусственный интеллект. – 2001. – №3. – С.501-509.

8. Федоров Е.Е. Создание базы маршрутов движения мобильного робота и ее анализатора // Вісник Технологічного університету Поділля. – 2002. – № 3. – С.116-118.

9. Федоров Е.Е. Создание математической модели транслятора для системы управления роботом // Искусственный интеллект. – 2002. – №2. – С. .

10. Федоров Е. Е. Применение семантического анализа к речевому управлению мобильным роботом // Труды Междунар. научно-практической конф. “Знание – Диалог – Решение” (KDS-2001). – Т. 2. - Санкт-Петербург. – 2001. – С. 603-607.

11. Федоров Е.Е. Создание бесконфликтной системы управления устройством ввода-вывода звука // АСУ и приборы автоматики. – 2002. – №119. – С. 89-93.

12. Федоров Е.Е. Распределение ресурсов и обмен данными для системы речевого управления мобильным роботом // Искусственный интеллект. – 2002. – №1. – С. 250-255.

13. Федоров Е. Е. Система голосового управления // Труды конференции “Информационные технологии в науке, образовании, телекоммуникации, бизнесе”. – Запорожье. – 2001. – С. 104-106.

14. Грабовая В.А., Федоров Е.Е., Шелепов В.Ю. О системе компьютерного распознавания русской речи c автоматическим построением эталонов // Искусственный интеллект. – 2000. – №1. – С. 76-81.

15. Дорохин О.А., Федоров Е.Е., Шелепов В.Ю. Некоторые подходы к пофонемному распознаванию русской речи и распознаванию больших словарей // Искусственный интеллект. – 1999. – №2. – С. 329-333.

16. Дорохин О.А., Старушко Д.Г., Федоров Е.Е., Шелепов В.Ю. Сегментация речевого сигнала // Искусственный интеллект. – 2000. – №3. – С. 450-458.

17. Федоров Е.Е., Шелепов В.Ю. Автоматическое определение начала и конца записи речи // Искусственный интеллект. – 2002. – №4. – С. 295-298.

18. Федоров Е.Е., Шелепов В.Ю. Защита речевых распознавателей от шума и посторонней речи // Искусственный интеллект. – 2001. – №3. – С. 584-587.

19. Шевченко А.И., Федоров Е.Е. Разработка естественно-языкового интерфейса интеллектуальной медицинской системы // Труды Между-нар. дистанционной научно-практической конф. “Автоматизи-рованное Рабочее Место Врача 2002”. – Днепропетровск, 2002. – С. 327-330.

АНОТАЦІЯ

Федоров Е.Е. Розроблення алгоритмів та програмно-апаратних засобів систем розпізнавання мовних образів. Рукопис.

Дисертація на здобуття наукового ступеня кандидата технічних наук за фахом 05.13.23 – системи та засоби штучного інтелекту. – Донецький інститут проблем штучного інтелекту, Донецьк, 2003.

Дисертаційна робота присвячена методологічним аспектам і практичній реалізації апаратно-програмних комплексів розпізнавання мовлення – інтерфейсу спілкування “людина-комп'ютер”, що є однією з найактуальніших задач, які характеризують сучасні тенденції створення інтелектуальних систем керування й алгоритмів робототехнічних комплексів та вхідних блоків комп'ютерів п’ятого покоління. У дисертаційній роботі виконано: перетворення множин якісних ознак особливостей мовлення в нормовані й метричні простори для одержання кількісних характеристик; розробка математичних моделей комп’ютерного перетворення мовлення; здійснено синтез структури системи розпізнавання мовлення, представленої трьома складовими – ідентифікації параметрів мовлення, формування еталонів, розпізнавання команд. Методологічні прийоми та правила, наведені в роботі, можуть бути використані при створенні апаратно-програмних комплексів мовних інтерфейсів інтелектуальних систем різноманітного призначення.

Ключові слова: моделі, алгоритми, ідентифікація, характеристики, інтелектуальні системи, інтерфейси, оцінки, розпізнавання мовлення.

АННОТАЦИЯ

Федоров Е.Е. Разработка алгоритмов и программно-аппаратных средств систем распознавания речевых образов. Рукопись.

Диссертация на соискание ученой степени кандидата технических наук по специальности 05.13.23 – “Системы и средства искусственного интеллекта”. – Донецкий институт проблем искусственного интеллекта, г.Донецк, 2003.

Диссертационная работа посвящена методологическим аспектам и практической реализации аппаратно-программных комплексов распознавания речи – интерфейса общения “человек-компьютер”, что актуально для задач, характеризующих современные тенденции создания интеллектуальных систем управления, алгоритмов робототехнических комплексов, входных блоков современных компьютеров. По результатам анализа выделены особенности, характеризующие технические и программные средства преобразования речи. Определены их достоинства и недостатки, основные показатели, определившие постановку задачи исследования.

Согласно современным тенденциям, выделены фонетические и фонологические особенности речи, из которых сформированы соответствующие множества и классы признаков. Основываясь на методах функционального анализа, эти множества преобразованы в нормированные и метрические евклидовы пространства, что позволило получить численные характеристики особенностей речи от звукового строя до предложений включительно. Осуществлено формальное представление технических устройств аппаратной части, преобразующей речевые сигналы, в виде математических моделей. Созданы математические модели устройств преобразования аналоговых и цифровых сигналов, позволяющие выделять особенности речи с помощью частотных и энергетических показателей. Эти модели представлены параметрическими структурами, которые могут быть использованы в любой интеллектуальной системе. Выходные переменные представляют собой инструментально ощутимые характеристики слов, звуков, предложений, таких как уровень ослабления энергии, характерный для каждого типа классифицированных звуков, длина периода основного тона, частотные интервалы слов и звуков. Синтезирована структура системы распознавания речи, представленная тремя подсистемами – идентификации параметров речи, формирования эталонов, распознавания речи. Приведен численный расчет параметров речи первой подсистемы, рассчитаны характеристики составных частей речи – звуков, слов, частей предложений и предложений, усредненные при кратных режимах обучения и формирования эталонов. Проведен анализ разброса этих характеристик для представительной выборки дикторов (мужчин и женщин) с различными голосовыми диапазонами. Осуществлено оценивание вероятности ошибки при распознавании различного рода команд, которое в наихудшем варианте не превышает 5%. При общности методических положений, обуславливающих правила систем распознавания, алгоритм системы предусматривает специализированный режим обучения, ориентированный на конкретного оператора и соответствующую предметную область. Алгоритм программно реализован, режимы обучения и распознавания апробированы для представительной выборки дикторов-операторов на специализированной системе команд управления мобильным роботом. Результаты апробирования показали, что время реакции в среднем сократилось на 20% относительно команд, вводимых интерактивно. Методологические приемы и правила, созданные в работе, могут быть использованы при создании аппаратно-программных комплексов речевых интерфейсов интеллектуальных систем различного назначения.

Ключевые слова: модели, алгоритмы, идентификация, характеристики, интеллектуальные системы, интерфейсы, оценки, распознавание речи.

ABSTRACT

Fedorov U.U. Development of algorithms and hardware-software means of systems of speech images recognition. Manuscript.

Thesis for a candidate’s degree of technical sciences on speciality 05.13.23 – the Artificial Intelligence Systems and Means. – Donetsk Institute Problem of Artificial Intelligence, Donetsk, 2003.

The dissertation is devoted to methodological aspects and practical realization of hardware-software complexes of speech recognition - interface of dialogue “person – computer”, which is one from most urgent problems describing modern line of creation of intellectual control systems, algorithms of robotic complexes, entry blocks of computers. The developed dissertation presents: transformation of sets of qualitative indications of singularities of the speech in the normalized and metric spaces for obtaining the quantitative characteristics; development of mathematical models of computer transformation speech signals; synthesis of a structure of systems of speech recognition shown by three subsystems - to identification of speech parameters, formation of the measurement standards, speech recognition. The methodological methods and rules can be used at creation of hardware-software complexes of speech interfaces of intellectual systems of various assigning.

Keywords: models, algorithms, identification, characteristics, intellectual systems, interfaces, evaluations, speech recognition.

Здано до набору 21.04.03. Підписано до друку 5.05.03. Формат 6084/16.

Папір офсетний. Друк RISO. Гарнітура Times New Roman.

Обл.-вид. арк. 1,23. Наклад 100 прим. Зам. № 801/02-2 від 15.05.03. р.

Оригінал-макет виготовлено в редакційно-видавничому відділі

Інституту проблем штучного інтелекту

Видруковано в Інституті проблем штучного інтелекту

(Свідоцтво про внесення суб’єкта видавничої справи до державного реєстру видавців, виготівників і розповсюджувачів видавничої продукції № 444, серія ДК, від 08.05.2001 р., вид діяльності у видавничій справі – видавнича діяльність, виготовлення видавничої продукції, розповсюдження видавничої продукції).

Адреса редакції: Україна, 83050, м. Донецьк, пр. Б. Хмельницького, 84

Інститут проблем штучного інтелекту

e-mail редакції: edoffice@iai.donetsk.ua