Автореферат ІНФОРМАЦІЙНО-ВИМІРЮВАЛЬНА СИСТЕМА ДЛЯ АВТОМАТИЧНОГО РОЗПІЗНАВАННЯ ГОЛОСУ

Автореферат - ІНФОРМАЦІЙНО-ВИМІРЮВАЛЬНА СИСТЕМА ДЛЯ АВТОМАТИЧНОГО РОЗПІЗНАВАННЯ ГОЛОСУ

Загрузка...

ВІННИЦЬКИЙ НАЦІОНАЛЬНИЙ ТЕХНІЧНИЙ УНІВЕРСИТЕТ

Ковтун В’ячеслав Васильович

УДК 681.327.12

ІНФОРМАЦІЙНО-ВИМІРЮВАЛЬНА СИСТЕМА ДЛЯ

АВТОМАТИЧНОГО РОЗПІЗНАВАННЯ ГОЛОСУ

Спеціальність 05.11.16 - Інформаційно-вимірювальні системи

Автореферат

дисертації на здобуття наукового ступеня

кандидата технічних наук

Вінниця - 2006

Дисертацією є рукопис.

Роботу виконано у Вінницькому національному технічному університеті Міністерства освіти і науки України.

Науковий керівник: кандидат технічних наук, доцент

Биков Микола Максимович,

Вінницький національний технічний університет,

професор кафедри “Комп’ютерні системи управління”

Офіційні опоненти: доктор технічних наук, професор

Володарський Євген Тимофійович,

Національний технічний університет України “КПІ”, м. Київ,

професор кафедри “Автоматизація експериментальних

досліджень”

доктор технічних наук, професор

Русин Богдан Павлович,

Фізико-механічний інститут ім. Г.В. Карпенка

НАН України, м. Львів,

завідувач відділу “Методи і системи обробки, аналізу

та ідентифікації зображень”

Провідна установа: Національний університет “Львівська політехніка”,

кафедра “Метрологія, стандартизація, сертифікація”,

Міністерство освіти і науки України, м. Львів

Захист відбудеться “24” лютого 2006 р. о 12.30 годині на засіданні спеціалізованої вченої ради Д 05.052.02 у Вінницькому національному технічному університеті за адресою: 21021, м. Вінниця, вул. Хмельницьке шосе, 95.

З дисертацією можна ознайомитись у бібліотеці Вінницького національного технічного університету за адресою: 21021, м. Вінниця, вул. Хмельницьке шосе, 95.

Автореферат розісланий “20” січня 2006 р.

Вчений секретар

спеціалізованої вченої ради Павлов С.В.

ХАРАКТЕРИСТИКА РОБОТИ

Актуальність теми. У зв’язку з активною інформатизацією сучасного суспільства та підвищенням кількості об’єктів і потоків інформації, які необхідно захищати від несанкціонованого доступу, а також необхідністю інтелектуалізації всіх форм взаємодії користувачів автоматизованих систем управління з технічними засобами, все актуальнішими стають проблеми використання механізмів мовних технологій для розмежування доступу до масивів інформації.

На ринку інтелектуальних технологій присутні ІВС розпізнавання голосу, які не відрізняються високим рівнем надійності, простотою навчання, зручністю користування та низькою вартістю. Враховуючи, що достовірність роботи ІВС для розпізнавання голосу залежить від адекватності математичних моделей, використаних для опису процедури формування та сприйняття мовних сигналів людиною, методів виділення з нього ознак, за якими можна розпізнати голос та методів класифікації голосів за цими ознаками, роботи, спрямовані на вдосконалення методів та алгоритмів оброблення мовних сигналів з метою підвищення ефективності роботи ІВС для розпізнавання голосу є актуальними.

Зв’язок з науковими програмами, темами. Основний зміст роботи складають результати наукових розробок та експериментальних досліджень, які проводилися протягом 2002-2005 років на кафедрі комп’ютерних систем управління Вінницького національного технічного університету. В період з 2001 по 2005 роки науково-дослідна робота проводилася відповідно до науково-дослідної держбюджетної теми “Розробка теорії, методів, моделей та алгоритмів для оцінки ефективності та оптимізації систем прийняття рішень” (№ державної реєстрації 0104U000741).

Мета і задачі дослідження. Метою дослідження є підвищення достовірності та зменшення ймовірностей виникнення похибок першого та другого роду ІВС для розпізнавання голосу, а також зменшення часу та кількості обчислень, необхідних для його розпізнавання.

Для досягнення поставленої мети в дисертації необхідно було розв’язати такі основні задачі:

- розробити метод оцінювання ефективності ІВС для розпізнавання голосу;

- доповнити математичну модель сприйняття мовних сигналів людиною моделлю роботи слухових сенсорних нейронів;

- розробити методи і алгоритми попереднього оброблення мовних сигналів для потреб ІВС для розпізнавання голосу;

- розробити методи і алгоритми оброблення мовних сигналів для виділення інформативних ознак, необхідних для розпізнавання голосу;

- дослідити вплив типу класифікатора на достовірність прийняття рішень у задачі розпізнавання голосу;

- провести оцінювання залежності достовірності роботи ІВС для розпізнавання голосу від параметрів її апаратної частини.

Об’єкт дослідження - акустичний сигнал, який генерується мовним апаратом людини під час здійснення процесу мовної комунікації.

Предмет дослідження - методи і засоби виділення індивідуальних особливостей звучання мовних сигналів, які генеруються мовцем, та способи їх оброблення.

В дисертаційній роботі використано такі методи дослідження:

- методи теорії імовірності та математичної статистики для розробки методу оцінювання ефективності ІВС для розпізнавання голосу;

- методи цифрового оброблення сигналів, теорії передачі інформації та теорії кодування для реалізації процедури попереднього оброблення мовних сигналів;

- положення та методи теорії штучних нейромереж для вдосконалення математичної моделі слухової системи людини та розробки класифікатора;

- методи акустичної теорії мовотворення, теорії розпізнавання образів, математичного аналізу часових рядів, теорії вейвлет-перетворень для розробки методів та алгоритмів оброблення мовних сигналів з метою виділення інформативних ознак, необхідних для розпізнавання голосу;

- теорії метрології для оцінювання метрологічних показників ІВС для розпізнавання голосу.

Наукова новизна одержаних результатів. У процесі розв’язання поставлених задач було отримано такі нові наукові результати:

1. Вперше запропоновано метод оцінювання ефективності ІВС для розпізнавання голосу на основі інтегрального функціонально-статистичного критерію, який на відміну від існуючих, використовує для порівняння потенційну ІВС для розпізнавання голосу, що дозволяє оцінювати ефективність різних типів ІВС для розпізнавання голосу, оптимізувати їх структуру на стадії проектування і знизити вартість кінцевого продукту.

2. Удосконалено математичну модель слухової системи людини, яка на відміну від існуючих, врахує вплив сенсорних слухових нейронів при розпізнаванні голосу, що дозволило сформулювати новий спосіб представлення індивідуальних ознак для розпізнавання голосу та зменшити імовірності виникнення похибок першого та другого роду при його розпізнаванні за цими ознаками.

3. Вперше запропоновано метод ущільнення мовних сигналів, який відрізняється від існуючих тим, що використовує адаптивний період дискретизації, залежний від лінійності мовного сигналу, що дозволяє зменшити розмір wav-файлу в 3-5 разів зі збереженням інформації про індивідуальні особливості мовного сигналу, який він містить, та зробити це на 45% швидше, ніж методом лінійного прогнозу.

4. Вперше запропоновано метод підвищення інформативності частоти основного тону для розпізнавання голосу, в якому, на відміну від існуючих, за ознаку для розпізнавання використано значення коефіцієнтів вейвлет-перетворення на відрізках мовного сигналу, де спостерігаються екстремуми кореляційних функцій частоти основного тону, що дозволило досягти імовірності виникнення похибок першого роду 1,1% та імовірності виникнення похибок першого роду 1,9% при розпізнаванні голосів за цією ознакою.

Практичне значення отриманих результатів дисертаційної роботи є таким:

- розроблено рекомендації щодо проектування ІВС для розпізнавання голосу;

- розроблено рекомендації щодо вибору сенсору ІВС для розпізнавання голосу;

- розроблено алгоритм та пристрій ущільнення мовних сигналів із збереженням інформації про їх індивідуальні особливості;

- розроблено пристрій, який виділяє ознаки щільових, вибухових звуків та пауз з урахуванням зміни рівня акустичних шумів зовнішнього середовища в реальному часі, що дозволяє зменшити час, необхідний для визначення частоти основного тону.

Результати дисертаційних досліджень впроваджено на ТОВ “Лабораторія інформаційних технологій” у м. Вінниці та у навчальний процес кафедри комп’ютерних систем управління Вінницького національного технічного університету. Впровадження результатів дисертаційних досліджень підтверджено відповідними актами.

Особистий внесок автора. Всі результати, які складають основний зміст дисертаційної роботи, отримано автором самостійно. В роботах опублікованих у співавторстві автором розроблено: [1] - схему пристрою для виділення ознак мовних сигналів та описано принцип його функціонування; [2] - схему пристрою для ущільнення мовних сигналів та описано принцип його функціонування; [3] - метод та алгоритм ущільнення мовних сигналів; [4] - удосконалено математичну модель слухової системи людини та розроблено алгоритм виділення кореляційних функцій частоти основного тону з мовних сигналів; [6] - математичний апарат для виділення ознак вокалізованих, шумних звуків та пауз мови та проведено оцінювання інформативності запропонованих ознак з використанням ентропійного критерію; [7] - метод та алгоритм розпізнавання голосу за значеннями коефіцієнтів вейвлет-перетворення на відрізках сигналу, де спостерігаються екстремуми кореляційних функції частоти основного тону; [8] - алгоритм оптимізації вектору ознак з використанням розкладу Карунена-Лоева; [9] - обґрунтовано можливість використання в якості інформативної ознаки для розпізнавання голосу тривалість звучання наголошених складів та голосних звуків мови.

Апробація результатів дисертації. Основні положення і результати дисертаційної роботи доповідалися і обговорювалися на 17 науково-технічних конференціях, а саме: на двох міжнародних науково-технічній конференціях “Оптико-електронні інформаційно-енергетичні технології” (м. Вінниця, 2001-2002 рр.); на VII Міжнародній науково-технічних конференції “Контроль і управління в складних системах” (м. Вінниця, 2003 р.); на міжнародній конференції “Інтернет. Освіта. Наука” (м. Вінниця, 2002 р.); на 6-му міжнародному молодіжному форумі “Радиоэлектроника и молодежь в ХХІ веке” (м. Харків, 2002 р.); на міжнародній конференції з індуктивного моделювання “МКІМ-2002” (м. Львів, 2002 р.); на двох міжнародних конференціях “Автоматика - 2002” та “Автоматика - 2004” (м. Донецьк, 2002, 2004 рр.); на другій та третій міжнародних науково-практичних конференціях “Мікропроцесорні пристрої та системи в автоматизації виробничих процесів” (м. Хмельницький, 2003-2004 рр.); на щорічних науково-технічних конференціях професорсько-викладацького складу, співробітників і студентів ВНТУ (м. Вінниця, 2000-2005 рр.).

Публікації. За темою дисертації опубліковано 17 праць, в тому числі 5 статей надруковано у фахових виданнях, затверджених ВАК України, 3 статті у збірниках матеріалів конференцій, 7 тез доповідей та одержано 2 патенти України на винахід.

Структура та обсяг дисертації. Дисертація складається з вступу, чотирьох розділів, висновків, додатків. Повний обсяг дисертації складає 221 сторінку, з яких основна частина складає 143 сторінки. Дисертація містить 52 рисунки, 14 таблиць, 6 додатків, список використаних джерел із 122 найменуваннями.

ОСНОВНИЙ ЗМІСТ РОБОТИ

У вступі до дисертаційної роботи обґрунтовано актуальність теми, зазначено зв’язок роботи з науковими програмами, планами, темами, сформульовано мету та задачі досліджень. Також наведено характеристики об’єкту і предмету досліджень, викладено основні наукові та практичні результати, наведено відомості про впровадження результатів роботи, їх апробацію та публікацію тощо.

У першому розділі на основі аналізу інформаційних джерел та публікацій за напрямом дисертаційних досліджень вводяться основні вихідні положення, обґрунтовується вибір предмету досліджень і формулюються задачі досліджень.

До вихідних положень можна віднести такі. Структурна схема типової ІВС для розпізнавання голосу (рис. 1) складається з таких блоків: пристрою для здійснення аналого-цифрового перетворення; блоку попереднього оброблення дискретизованого мовного сигналу, який відповідає за зміну темпу звучання, фільтрацію та сегментацію мовного сигналу на інформативні в контексті розпізнавання голосу відрізки; блоку виділення індивідуальних ознак, де шляхом відповідних перетворень мовний сигнал представляється у вигляді вектору параметрів у просторі відповідної ознаки; блоку класифікаторів, які за одержаним вектором параметрів відносять голос, що розпізнається, до одного з класів в просторі відповідної ознаки. Границі між класами встановлюються на етапі навчання класифікаторів.

Рис. 1. Структурна схема типової ІВС для розпізнавання голосу

Проведений аналіз сучасних ІВС для розпізнавання голосу показав, що їм властиві такі недоліки: обмеженість знань про формування мовних кодів, що обумовлено відсутністю моделі того, як кодується в мовному сигналі лінгвістична інформація і де в цьому коді виникають помилки, які обумовлено індивідуальними особливостями голосу конкретної людини; відсутність методів, які б дозволяли проводити інтегральне оцінювання ефективності різних типів ІВС для розпізнавання голосу; низька завадостійкість існуючих індивідуальних ознак; зниження достовірності розпізнавання голосів при зростанні їх кількості; відсутність математичного апарату, який би дозволяв враховувати вплив шумів на імовірності виникнення похибок першого та другого роду ІВС для розпізнавання голосу; відсутність інформації про залежність метрологічних показників ІВС для розпізнавання голосу від структури та складу її апаратної частини.

Проведений аналіз дозволив сформулювати задачі досліджень.

Другий розділ присвячено розробці методу оцінювання ефективності ІВС для розпізнавання голосу на основі інтегрального функціонально-статистичного критерію. Основними критеріями для оцінювання ефективності ІВС для розпізнавання голосу можна вважати імовірність правильного розпізнавання голосу мовця та вартість реалізації ІВС .

Для забезпечення універсального оцінювання ефективності ІВС для розпізнавання голосу запропоновано використовувати, окрім вказаних критеріїв, узагальнений функціонально-статистичний критерій, модифікований відповідно до поставленої задачі шляхом аналізу реальної і потенційний ІВС для розпізнавання голосу

, (1)

де - функціонально-статистичний критерій реальної ІВС для розпізнавання голосу;

- функціонально-статистичний критерій потенційної ІВС для розпізнавання голосу;

- задана імовірність правильного розпізнавання голосу.

Враховуючи притаманну слуховій системі людини властивість розпізнавати голоси, в якості моделі потенційної ІВС для розпізнавання голосу розроблено модель слухової системи пересічної людини.

Кількість інформації , яку одержує потенційна ІВС для розпізнавання голосу, дорівнює

, (2)

де - ентропія розпізнавання голосу без врахування впливу каналу передачі мовного сигналу, який характеризується рівнем шумів (дБ), пов’язана з апріорною імовірністю правильного розпізнавання голосу таким виразом

. (3)

Апріорна імовірність визначається статистичним шляхом

де - кількість наявних еталонів голосів мовців в множині ,

- ентропія розпізнавання голосу з врахуванням впливу шумів каналу передачі мовного сигналу, що характеризує втрату інформації на один парольний вираз

. (4)

Величину , що характеризує подібність голосів мовців, можна визначити експериментально для різних рівнів шумів за результатами розпізнавання голосів мовців людиною за відповідними парольними виразами (фонеми, окремі слова або словосполучення).

Кількість інформації , яку одержує реальна ІВС для розпізнавання голосу, визначиться за формулою, аналогічною (2)

, (5)

де , a визначається шляхом моделювання роботи реальної ІВС для розпізнавання голосу на ЕОМ.

Вартість ІВС, яку виражено в грошових одиницях, може використовуватися в критерії (1) тільки у випадку оцінювання готових ІВС. На етапі проектування як вартість пропонується використовувати величину, що характеризує складність процесу розпізнавання. Такою величиною є складність обчислень

, (6)

де - складність формування опису окремих голосів мовців в просторі ознак за відповідними парольними фразами,

- складність обчислень на класифікацію.

Складність обчислень визначається кількістю використовуваних обчислювальних операцій.

Оцінювання ефективності ІВС для розпізнавання голосу за критерієм (1) потребує знання кількісних характеристик потенційної ІВС для розпізнавання голосу. Потенційна ІВС для розпізнавання голосу є еталоном для першого наближення реальної ІВС до оптимальної. Вона зручна тим, що дозволяє дослідити залежність ефективності роботи реальної ІВС для розпізнавання голосу від мовного матеріалу, за яким буде здійснюватися розпізнавання; умов, в яких буде функціонувати ІВС; інформативних ознак, які будуть використовуватися для формування відображення голосу мовця в просторі ознак.

Для визначення інформативності потенційної ІВС для розпізнавання голосу, необхідно знати імовірності , які характеризують імовірність сплутування голосів мовців з , що належать множині мовців , при проведенні процесу розпізнавання експертом в навколишнім середовищі з рівнем шумів .

Імовірність сплутування голосів мовців з визначається за виразом

. (7)

Відстань можна обчислити знаючи матрицю відстаней між відображеннями голосів мовців в просторі ознак

, (8)

де - відстань між -ою парольною фразою -ого мовця і -ою парольною фразою -ого мовця при заданому рівні шумів ,

- кількість парольних фраз.

З виразу (8) видно, що моделлю потенційної ІВС для розпізнавання голосу може служити матриця відстаней між відображеннями голосів мовців в просторі ознак та оператор перетворення матриці відстаней , який визначає вплив шуму на якість розпізнавання.

Вихідними даними для одержання кількісних характеристик потенційної ІВС для розпізнавання голосу слугували матриці правильного розпізнавання голосів мовців , одержані з результатів експериментів по розпізнаванню голосів мовців експертами за окремими складами, які містили фонеми української мови.

Значення -ого елементу матриці подібності відповідає кількості випадків розпізнавання експертом мовця як мовця для фіксованої парольної фрази.

Використовуючи розроблений математичний апарат, в другому розділі проведено дослідження ефективності розпізнавання голосів від тривалості парольної фрази, особливостей її виголошення, рівня шуму, що присутній в мовному сигналі, за яким проводиться розпізнавання голосу. Одержані результати дозволили сформулювати рекомендації щодо формування україномовного парольного виразу, додержуючись яких можна підвищити імовірність правильного розпізнавання голосів ІВС на 1,5-2%.

Третій розділ дисертаційної роботи містить основні теоретичні розробки, а саме, модифіковану математичну модель слухової системи людини, яка дозволила сформулювати принцип оброблення інформативних ознак для розпізнавання голосу; узагальнену передатну функцію інформаційного каналу мовного спілкування, на основі якої виділено ознаки для сегментації мовного сигналу на вокалізовані, шумні сегменти та паузи; метод виділення частоти основного тону з мовного сигналу та метод ущільнення мовних сигналів із збереженням їх індивідуальних особливостей на основі адаптивного періоду дискретизації.

Структурну схему математичної моделі слухової системи людини зображено на рисунку 2.

Рис. 2. Структурна схема узагальненої моделі слухової системи

Блок спектрального аналізу (БСА) відображає частотно-вибіркові властивості моделі і є гребінкою третьоктавних фільтрів з центральними частотами, розташованими здовж частотної вісі за логарифмічним законом.

Модель сенсорних слухових нейронів (МССН) відображає дію слухових нейронів, з’єднаних з волосковими клітинами базилярної мембрани вуха. Вона враховує такі слухові ефекти, як динамічне ущільнення мовного сигналу, його однонапівперіодне випрямлення і регулювання підсилення. Механізми слухового сприйняття, описані згаданими моделями, достатньо вивчені, однак багаточисельні спроби їх використання в ІВС для розпізнавання голосу не дали очікуваних результатів, тому автором було запропоновано доповнити математичні моделі слухової системи людини моделлю нейронної мережі (МНМ), яка описує механізм оброблення слуховою системою людини ознак, що виділяються з мовного сигналу моделлю сенсорних слухових нейронів.

Виявилося, що інформативні для задачі розпізнавання голосу ознаки мовних образів слід шукати серед елементів кореляційної матриці параметрів мовного сигналу

. (9)

Спираючися на запропоновану модифікацію математичної моделі слухової системи людини, сформульовано принцип оброблення таких ознак, як спектральні характеристики та частота основного тону, реалізація якого дозволила підвищити інформативність вказаних ознак для розв’язання задачі розпізнавання голосу. А саме, пропонується використовувати в якості ознаки для розпізнавання голосу значення матриці зважених сум кореляцій функцій спектральних характеристик та частоти основного тону сигналів з виходу гребінки фільтрів, що перекривають частотний діапазон, в якому спостерігаються вказані ознаки.

Аналіз параметрів мовного сигналу тільки на рівні існуючих моделей мовотворення не дає пояснення явищу різної тривалості затухання вокалізованих і шумних звуків мови. Для дослідження цього явища в дисертації розроблено узагальнену передатну функцію інформаційного каналу мовного спілкування

, (10)

де - комплексна передатна функція середовища, в якому поширюється акустичний сигнал (акустичного каналу);

- комплексна передатна функція приймача сигналу;

- комплексна передатна функція моделі мовотворення.

Частотна характеристика приймача сигналу постійна в часі і рівномірна на всьому діапазоні частот мовного сигналу для мікрофонів, які рекомендовано для використання в ІВС для розпізнавання голосу (конденсаторні мікрофони нульового та першого класів), тому передатна функція приймача сигналу має вид

. (11)

Передатну характеристику акустичного каналу можна визначити з рівнянь поширення звуків, збуджуваних різноманітними джерелами. Так, амплітудно-частотна характеристика передатної функції акустичного каналу для вокалізованого звуку визначиться виразом

. (12)

Значення акустичного тиску для шумних звуків, збуджуваних в мовному тракті голосовим джерелом, на відстані від губ визначається виразом

, (13)

де - константа,

- число Рейнольдса,

- критичне число Рейнольдса.

Число Рейнольдса є параметром, що описує умови утворення вихорів

, (14)

де - середня швидкість часток газу в отворі,

- ефективна ширина отвору,

- коефіцієнт динамічної в’язкості повітря,

- густина повітря.

На відрізках вокалізованого звуку артикуляторний тракт людини збуджується періодичним коливанням низок. Період коливань низок називають періодом основного тону і вважають індивідуальною ознакою для розпізнавання голосу. Для виділення частоти основного тону в дисертації розроблено метод, який поєднує амплітудні та кореляційні методи виділення частоти основного тону, з урахуванням методу нульових перетинів та аналізу обвідної короткочасної енергії мовного сигналу.

Отже, для знаходження частоти основного тону запропоновано використовувати формулу

, (15)

якщо

де - домінуюча частота,

- порядковий номер в діапазоні ,

- порядковий номер у діапазоні ,

- число відліків,

- частота дискретизації;

- кількість нульових перетинів повторно-різнецевої вибірки

- кількість нульових перетинів вибірки повторного підсумовування,

, , , - сформована повторно-різницева вибірка,

, , - сформована вибірка повторного підсумовування значень .

В численних варіантах адаптивної імпульсно-кодової модуляції, яка використовується для ущільнення мовних сигналів, частота дискретизації залишається незмінною і дорівнює частоті Котельникова, а надлишковість усувається шляхом аналізу значень сусідніх відліків сигналу, тому в дисертації пропонується зменшувати кількість відліків сигналу за рахунок адаптивного періоду квантування, метод визначення якого теоретично обґрунтовано далі.

Мовний сигнал, як неперервна функція , спектр якої обмежено верхньою частотою , цілком визначається послідовністю своїх значень в точках, часовий інтервал між якими розраховується за формулою

. (16)

При цьому сам сигнал можна описати як

, (17)

де - функція відліків,

- приймає дискретні значення.

При кінцевій тривалості мовного сигналу число дискретних відліків сигналу визначається виразом

, (18)

де - загальна тривалість мовного сигналу.

Враховуючи квазістаціонарність мовного сигналу, розроблено метод ущільнення мовного сигналу та критерій оцінювання похибки сигналу при його відновленні.

Критерій оцінювання похибки сигналу полягає в знаходженні ряду фіксованих значень аргументу , що забезпечують наближення ламаної з вершинами до заданої кривої таким чином, щоб на всьому інтервалі зміни аргументу абсолютна похибка не перевищувала заданих значень.

Отже, апроксимуюча функція запишеться як

при ,

…,

де - коефіцієнт нахилу відповідного відрізку апроксимуючої ламаної, який визначається співвідношеннями

…

В загальному випадку:

, (19)

де

Похибка апроксимації визначається залишковим членом формули апроксимації. У цьому випадку відрізок ламаної на часовому інтервалі описується виразом

а залишковий член на цьому ж часовому інтервалі

де - друга похідна кривої, що відповідає мовному сигналу.

Якщо і - максимальні, тоді

. (20)

Поклавши , одержимо формулу для періоду дискретизації

. (21)

Задаючи верхню частоту пропускання сигналу можна визначити припустиме відхилення прогнозованого відліку від реального.

В четвертому розділі дисертації запропоновано рекомендації щодо проектування ІВС для розпізнавання голосу і пристроїв для сегментації та ущільнення мовних сигналів з використанням розроблених в попередніх розділах математичних моделей та методів. Також проведено оцінювання впливу апаратної частини ІВС для розпізнавання голосу на достовірність її роботи, досліджено інформативність алгоритмів оброблення мовних сигналів, інформативних ознак та методів прийняття рішень. Проведено оцінювання достовірності розпізнавання голосів розробленою ІВС.

Структурну схему апаратної частини розробленої ІВС для автоматичного розпізнавання голосу представлено на рис. 3. Вона складається з мікрофону, з’єднувального кабелю, попереднього підсилювача та пристрою для здіснення аналого-цифрового перетворення.

Рис. 3. Структурна схема апаратної частини

ІВС для автоматичного розпізнавання голосу

Враховуючи структуру апаратної частини розробленої ІВС для автоматичного розпізнавання голосу, синтезовано її рівняння, яке має такий вигляд

. (22)

Рівняння перетворення стало основою для оцінювання таких статичних метрологічних характеристик апаратної частини розробленої ІВС, як номінальна функція перетворення, чутливість та адитивна і мультиплікативна похибки.

Приймаючи закон розподілу похибок нормальним (оскільки кількість факторів, які впливають на апаратну частину ІВС для розпізнавання голосу, більше 5) та використовуючи паспортні дані, в дисертації розраховано відносну похибку реальної апаратної частини ІВС для автоматичного розпізнавання голосу та її СКЗ. Вони склали відповідно:

, (23)

(24)

Передатний канал, яким відбувається поширення мовних сигналів, що використовуються для розпізнавання голосу, знаходиться під впливом різного роду шумів, основними серед яких є шуми апаратури та навколишнього середовища. Вказаний вплив призводить до зменшення достовірності ІВС для розпізнавання голосу, отже, оцінювання цього впливу з врахуванням конструктивних особливостей ІВС даного типу є актуальною задачею, яку розв’язано в дисертації. Так, імовірність виникнення похибок першого та другого роду умови відсутності в мовному сигналі завад визначається таким рівнянням

, (25)

а імовірність виникнення похибок першого та другого роду за умови присутності в мовному сигналі завад

, (26)

де - поріг розпізнавання,

- функція Лапласа.

- дисперсія вирішувальної функції,

- коефіцієнт, що враховує рівень адитивної завади в мовному сигналі.

, - імовірності виникнення похибок першого та другого роду відповідно,

, - середні значення векторів ознак, що відносяться до першого та другого класів відповідно.

Структурну схему ІВС для автоматичного розпізнавання голосу представлено на рис. 4. Wav-файл, що використовується для розпізнавання голосу, можна одержати з допомогою мікрофону, або з виходу пристрою для ущільнення мовних сигналів, який реалізує запропонований в дисертації метод ущільнення мовних сигналів зі збереженням їх індивідуальних особливостей.

Однією з інформативних ознак для розпізнавання голосу мовця є значення коефіцієнтів вейвлет-перетворення на відрізках сигналу, де спостерігаються екстремуми кореляційних функцій частоти основного тону голосу. Результати експериментів показали, що вказана ознака забезпечує достовірність розпізнавання голосів мовців на рівні 96%, що обумовило використання додаткових інформативних ознак (спектральні характеристики, коефіцієнти лінійного прогнозу) з метою підвищення достовірності розпізнавання голосів ІВС.

Рис. 4. Структура схема ІВС для автоматичного розпізнавання голосу

Для ущільнення мовних сигналів розроблено пристрій, що реалізує метод, запропонований в третьому розділі дисертації. Структурну схему пристрою представлено на рис. 5.

Рис. 5. Структурна схема пристрою для ущільнення мовних сигналів.

Тестування розробленого методу ущільнення мовних сигналів показало, що він дозволяє одержувати архівні файли мовних сигналів, які за своїми розмірами відповідають архівним файлам, одержаним при використанні для ущільнення wav-файлів кодеку wma, та є більшими від архівних файлів, одержаних при використанні для ущільнення wav-файлів кодеку mp3. Але потрібно зауважити, що використання згаданих кодеків для ущільнення мовних сигналів призводить до втрати інформації про їх індивідуальні особливості.

Для тестування розробленої ІВС використано англомовну базу YOHO розроблену фірмою ITT на замовлення держдепартаменту США. База використовується для тестування систем розпізнавання голосу з 1989 р. Тестування розробленої ІВС за базою YOHO показало високу достовірність розпізнавання, яка склала 98%, імовірність виникнення похибки першого роду становить 0,36%, імовірність виникнення похибки другого роду становить 1,62%.

В додатках наведено результати розрахунків, лістинги та настанови щодо використання програм, відомості про впровадження результатів дисертації.

ВИСНОВКИ

У дисертаційній роботі вирішено актуальну наукову задачу підвищення ефективності ІВС для розпізнавання голосу, що забезпечується аналізом впливу апаратної частини, адекватністю математичних моделей процесу сприйняття мовного сигналу людиною, ефективністю методів виділення з мовного сигналу ознак, за якими можна розпізнати голос, та методами класифікації голосів за цими ознаками.

Основні наукові та практичні результати дисертаційної роботи такі.

1. Вперше запропоновано універсальний метод оцінювання ефективності ІВС для розпізнавання голосу на основі інтегрального функціонально-статистичного критерію, який на відміну від існуючих, використовує для порівняльної оцінки потенційну ІВС для розпізнавання голосу, що дозволяє проводити оцінювання ефективності ІВС для розпізнавання голосу та оптимізувати її структуру на етапі проектування і заощадити кошти тощо.

2. Модифіковано математичну модель слухової системи людини, яка на відміну від існуючих, описує механізм оброблення слуховою системою індивідуальних ознак мовних сигналів, що дозволяє підвищити інформативність спектральних ознак та основного тону для розпізнавання голосу.

3. Вперше розроблено метод, алгоритм та пристрій ущільнення мовного сигналу, які на відміну від існуючих, використовують адаптивний період дискретизації, залежний від лінійності мовного сигналу, що дозволяє ущільнити wav-файл із заданою похибкою відтворення та збереженням його індивідуальних особливостей в 3-5 разів і зробити це на 45% швидше ніж алгоритм лінійного прогнозу.

4. Вперше запропоновано інформативну ознаку для розпізнавання голосів, яка на відміну від існуючих, використовує значення коефіцієнтів вейвлет-перетворення мовного сигналу на відрізках, де спостерігаються екстремуми кореляційних функцій частоти основного тону, що дозволяє комплексно враховувати вплив геометрії артикуляторного тракту та голосового джерела на індивідуальність голосу та досягти достовірності розпізнавання голосів 98% (імовірність виникнення похибок першого роду - 1,1%, імовірність виникнення похибок другого роду - 1,9%).

5. Проведено тестування створеної ІВС за англомовною базою YOHO, сформованою фірмою ITT на замовлення держдепартаменту США. Система показала достовірність розпізнавання 98% (імовірність виникнення похибки першого роду - 0,36%, імовірність виникнення похибки другого роду - 1,62%).

СПИСОК ОПУБЛІКОВАНИХ ПРАЦЬ ЗА ТЕМОЮ ДИСЕРТАЦІЇ

1. Патент 55863A UA, МКІ G10L15 15/00 Пристрій для виділення ознак мовних сигналів. Биков М.М., Грищук Т.В., Ковтун В.В., №2002075729; Заявл. 11.07.2002; Опубл. 15.04.2003. - 4 с.

2. Патент 71189A UA, МКІ G10L19 19/04 Пристрій для стиснення мовних сигналів. Биков М.М., Ковтун В.В., Раїмі А., №2003119840; Заявл. 03.11.2003; Опубл. 15.11.2004. - 4 с.

3. Биков М.М., Ковтун В.В., Раїмі А. Метод стиснення мовних сигналів в системах ідентифікації диктора // Вісник Вінницького політехнічного інституту. - 2003. - №6. - С. 255-261.

4. Биков М.М., Ковтун В.В. Аналіз ефективності ідентифікації диктора за частотою основного тону // Вісник Хмельницького національного університету. - 2004. - №4. - Ч.1. - Т.2. - С. 117-122.

5. Ковтун В.В. Розробка критерію оцінки ефективності систем ідентифікації диктора // Вісник Хмельницького національного університету. - 2005. - №4. - Ч.1. - Т.2(68). - С. 117-122.

6. Биков М.М., Кузьмін І.В., Грищук Т.В., Ковтун В.В. Ідентифікація передаточних характеристик акустичного каналу в системах розпізнавання мови // Наукові праці Донецького національного технічного університету. Серія: „Обчислювальна техніка та автоматизація”. - 2002. - Вип. №47. - С. 270-277.

7. Биков М.М., Ковтун В.В. Підвищення ефективності розпізнавання диктора за рахунок сумісного використання частоти основного тону та вейвлет-перетворення // Наукові праці Донецького національного технічного університету. Серія: „Обчислювальна техніка та автоматизація”. - 2005. - Вип. №90. - С. 162-170.

8. Биков М.М., Ковтун В.В. Вибір ефективних ознак для ідентифікації диктора в мережі Інтернет // Збірка матеріалів третьої Міжнародної конференції ІОН-2002. - Том 2. - Вінниця: УНІВЕРСУМ-Вінниця. - 2002. - С. 333-337.

9. Биков М.М, Ковтун В.В. Вибір інформативних ознак в задачі ідентифікації диктора // Збірка матеріалів Міжнародної конференції з індуктивного моделювання “МКІМ-2002”.- Tом 1.- Львів: НУЛП.- 2002.- С. 280-286.

10. Ковтун В.В. Алгоритми розпізнавання диктора з голосу на нейронних мережах // борник научных трудов по материалам 6-го Международного молодежного форума “Радиоэлектроника и молодежь в ХХІ веке”. - Ч.2. - Харьов: ХНУРЭ. - 2002. - С. 392-393.

АНОТАЦІЯ

Ковтун В.В. Інформаційно-вимірювальна система для автоматичного розпізнавання голосу. - Рукопис.

Дисертація на здобуття наукового ступеня кандидата технічних наук за спеціальністю 05.11.16 - інформаційно-вимірювальні системи. - Вінницький національний технічний університет, Вінниця, 2006.

Дисертацію присвячено розв’язанню задачі підвищення ефективності інформаційно-вимірювальних систем для розпізнавання голосу.

Поставленої мети вдалося досягти за рахунок удосконалення математичної моделі слухової системи людини, що дозволило сформулювати новий спосіб представлення індивідуальних ознак для розпізнавання голосу та зменшити імовірності виникнення похибок першого та другого роду при його розпізнаванні за цими ознаками. Розроблено метод ущільнення мовних сигналів з адаптивним періодом дискретизації. Запропоновано метод підвищення інформативності частоти основного тону для розпізнавання голосу, в якому, на відміну від існуючих, за ознаку для розпізнавання використано значення коефіцієнтів вейвлет-перетворення на відрізках мовного сигналу, де спостерігаються екстремуми кореляційних функцій частоти основного тону. Розроблено універсальний метод оцінювання ефективності ІВС для розпізнавання голосу на основі інтегрального функціонально-статистичного критерію.

На основі запропонованих моделей та методів сформовано алгоритмічні та програмні засоби, які використано в розробленій ІВС для розпізнавання голосу.

Ключові слова: інформаційно-вимірювальна система, розпізнавання, ідентифікація, диктор, мовець, голос, оцінювання, індивідуальність голосу, сегментація мовних сигналів, ущільнення мовних сигналів.

ННОТАЦИЯ

овтун В.В. нформационно-измерительная система для автоматического распознавания голоса. - Рукопись.

Диссертация на соискание ученой степени кандидата технических наук по специальности 05.11.16 - информационно-измерительные системы. - Винницкий национальный технический университет, Винница, 2006.

Диссертация посвящена решению задачи повышения эффективности информационно-измерительных систем (ИИС) для автоматического распознавания голоса.

Проведен анализ структуры современных ИИС данного типа, а также моделей речеобразования и слуховой системы человека, методов обработки речевых сигналов и выделения их индивидуальных особенностей.

Для оценки эффективности ИС для распознавания голоса разработан метод с использованием интегрального функционально-статистического критерия, который позволяет оценивать различные типы ИИС данного класса и оптимизировать их структуру на этапе проектирования. Метод основан на потенциальной модели ИИС для распознавания голоса, которая помимо оценивания эффективности, позволила исследовать зависимость вероятности правильного распознания голоса от фонетического состава парольной фразы и уровня шумов, присутствующих в речевом сигнале.

Дополнено математическую модель слуховой системы человека моделью нейросети, которая описывает работу сенсорных слуховых нейронов в процессе распознавания голоса. Модификация позволила сформулировать новый способ представления спектральных характеристик и частоты основного тона и уменьшить вероятности возникновения ошибок первого и второго рода при распознавании голоса с использованием этих признаков.

Разработан метод распознавания голоса, использующий значения коэфициентов вейвлет-преобразования на отрезках речевого сигнала, на которых присутствуют экстремумы кореляционной функции частоты основного тона.

Разработана передаточная характеристика акустического канала речевой комуникации, что позволило выделить амплитудно-частотные характеристики передаточной характеристики для вокализованных, шумных звуков и пауз, и создать прибор для сегментации речевых сигналов на указанные фонетические единицы.

Предложен метод и прибор сжатия речевых сигналов с сохранением их индивидуальных особенностей на основе адаптивного периода дискретизации с заданной ошибкой восстановления.

Исследовано влияние шумов, присутствующих в парольной фразе, а также, структуры и составляющих аппаратной и программной части ИС для распознавания голоса на вероятность возникновения ошибок первого и второго рода.

а основе предложенных математических моделей и методов разработан комплекс алгоритмов, позволяющих повысить эффективность ИИС для распознавания голоса. Проведена оценка погрешностей распознавания голоса с их использованием.

Ключевые слова: информационно-измерительная система, распознавание, идентификация, диктор, голос, индивидуальность голоса, сегментация речевых сигналов, сжатие речевых сигналов.

ANNOTATION

Kovtun V.V. Informatively-Measuring System of Automatic Speaker Recognition. - A manuscript.

Thesis for a candidate’s degree of technical sciences by specialty 05.11.16 - Informatively-Measuring Systems. - Vinnytsia National Technical University, Vinnytsia, 2006.

Dissertation is devoted to the decision of a task of increasing speaker recognition system’s efficiency.

The purpose succeeded due to the improvement of mathematical model of the speaker’s hearing system that allowed formulating the new method of the speaker individual features presentation for his recognition and increasing the right speaker recognition probability on these features. The method of acoustic signal’s compression with the adaptive period of sampling is developed. The new method of increasing pitch frequency efficiency for speaker recognition is offered. It allows using as the speaker’s individual features the values of wavelet-transformation coefficients on the acoustic signal segments, where the pitch frequency cross-correlation function extreme values are located. On the basis of generalized functionally-statistical criterion the universal method of the efficiency evaluation of speaker recognition system’s is developed.

Using offered models and methods algorithmic and programmatic facilities are developed. It may be used in speaker recognition systems.

Keywords: information-measuring system, authentication, speaker recognition, speaker identification, voice, evaluation, acoustic signal segmentation, acoustic signal compression.

Підписано до друку 16.01.2006 р. Формат 29.7ґ42 1/4

Наклад 100 прим. Зам. №2006-003

Віддруковано в комп’ютерному інформаційно-видавничому центрі

Вінницького національного технічного університету

м. Вінниця, вул. Хмельницьке шосе, 95. Тел.: 58-01-59

��
��...

Наступні 7 робіт по вашій темі:

▪ КОМП’ЮТЕРНА ПІДТРИМКА ЗВ’ЯЗКУ МІЖ ОПЕРАЦІЯМИ НАД ДВОВИМІРНИМИ І ТРИВИМІРНИМИ МОДЕЛЯМИ - Автореферат - 22 Стр.
▪ ОСОБЛИВОСТІ ДІАГНОСТИКИ ТА ЛІКУВАННЯ РІЗНИХ ФОРМ ТИМПАНОГЕННИХ ЛАБІРИНТИТІВ - Автореферат - 32 Стр.
▪ інтенсифікація тепломасообмінних процесів у вентиляторних градирнях плівкового типу - Автореферат - 25 Стр.
▪ НАУКОВІ ОСНОВИ ЕФЕКТИВНОГО ШЛІФУВАННЯ ЗІ СХРЕЩЕНИМИ ОСЯМИ АБРАЗИВНОГО ІНСТРУМЕНТУ ТА ОБРОБЛЮВАНОЇ ДЕТАЛІ - Автореферат - 47 Стр.
▪ ПРОФСПІЛКИ УКРАЇНИ В СИСТЕМІ ІДЕОЛОГІЗАЦІЇ СУСПІЛЬСТВА (1956 – 1964 рр.) - Автореферат - 28 Стр.
▪ ПІВКУЛЬНІ ОСОБЛИВОСТІ РЕОРГАНІЗАЦІЇ МЕТАБОЛІЗМУ, МОРФОЛОГІЇ МОЗКУ ТА ЦЕРЕБРАЛЬНОЇ ГЕМОДИНАМІКИ У ЧОЛОВІКІВ ТА ЖІНОК ПОХИЛОГО ВІКУ З ІШЕМІЧНИМ ІНСУЛЬТОМ У ВІДНОВНИЙ ПЕРІОД - Автореферат - 48 Стр.
▪ МОДЕЛЬНО-ОРІЄНТОВАНЕ УПРАВЛІННЯ ІНТЕЛЕКТУАЛЬНИМИ ВИРОБНИЧИМИ СИСТЕМАМИ - Автореферат - 48 Стр.