Автореферат НЕЙРОННІ МЕРЕЖІ ПРЯМОГО ПОШИРЕННЯ З НЕІТЕРАЦІЙНИМ НАВЧАННЯМ

Автореферат - НЕЙРОННІ МЕРЕЖІ ПРЯМОГО ПОШИРЕННЯ З НЕІТЕРАЦІЙНИМ НАВЧАННЯМ

Загрузка...

Вступ

Державний комітет зв’язку та інформатизації України

Національна академія наук України

Державний науково-дослідний інститут інформаційної інфраструктури

ТКАЧЕНКО РОМАН ОЛЕКСІЙОВИЧ

УДК 681.142.37

НЕЙРОННІ МЕРЕЖІ ПРЯМОГО ПОШИРЕННЯ

З НЕІТЕРАЦІЙНИМ НАВЧАННЯМ

05.13.06 - Автоматизовані системи управління

та прогресивні інформаційні технології

АВТОРЕФЕРАТ

дисертації на здобуття наукового ступеня

доктора технічних наук

Львів-2000

Дисертацією є рукопис.

Робота виконана у Державному університеті “Львівська політехніка” Міністерства освіти і науки України.

Науковий консультант:

член-кореспондент НАН України, доктор технічних наук, професор,

Грицик Володимир Володимирович,

Державний науково-дослідний інститут інформаційної інфраструктури, директор

Офіційні опоненти:

член-кореспондент НАН України, доктор технічних наук, професор, Заслужений діяч науки України, Івахненко Олексій Григорович,

Міжнародний науково-навчальний центр інформаційних технологій НАН України, радник дирекції;

доктор технічних наук, професор, Василенко Юрій Андрійович,

Ужгородський державний інститут інформатики, економіки і права Міністерства освіти і науки України, декан;

доктор технічних наук, професор, Луцків Микола Михайлович,

Українська академія друкарства Міністерства освіти і науки України, завідувач кафедри.

Провідна установа:

Державний аерокосмічний університет ім. М.Є. Жуковського “ХАІ” Міністерства освіти і науки України (кафедра програмного забезпечення), м. Харків.

Захист відбудеться 25.04.2000 р. о 1230 годині на засіданні спеціалізованої вченої ради Д 35.813.01 при Державному науково-дослідному інституті інформаційної інфраструктури (79031, м. Львів, вул. Тролейбусна, 11).

З дисертацією можна ознайомитися у бібліотеці Державного науково-дослідного інституту інформаційної інфраструктури (79031, м. Львів, вул. Тролейбусна, 11).

Автореферат розісланий 01.03.2000 р.

Вчений секретар спеціалізованої вченої ради

доктор технічних наук Бунь Р.А.

ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ

Актуальність теми. Наявність значної уваги до прогресивних інформаційних технологій на основі штучних нейронних мереж, яка приділяється в останні роки з боку науковців, інженерів-інформатиків та користувачів-практиків різних сфер діяльності, підтверджується великою кількістю публікацій в наукових та науково-популярних виданнях, високим рівнем представництва на численних спеціалізованих науково-технічних конференціях в різних країнах світу та введенням відповідних рубрик в програми конференцій, присвячених різноманітним проблемам обчислювальної техніки, теорії зв`язку, мультимедійних систем. Є всі підстави стверджувати про досягнення помітних успіхів на шляху використання нейромережевих технологій в наукових дослідженнях, сфері бізнесу, авіації, митній справі. Якщо початкові дослідження в області нейромереж будувалися на використанні моделей біологічних нейронів У.Маккалоха, У.Пітса та гіпотетичного механізму діяльності головного мозку, то в 80-х роках нейрокомп`ютерна техніка збагатилася і деякими моделями, що мають відповідники в реальних фізичних системах.

Відчутний вплив на розвиток нейрокомп’ютерної техніки справили праці Ф.Розенблата, Т.Коонена, Дж.Гопфілда, Б.Відрова. Значним є внесок в розвиток теорії та практики нейронних та нейроподібних систем відомих українських вчених та наукових шкіл, очолюваних ними М.М.Амосова, В.В.Грицика, О.Г.Івахненка, Е.М.Куссуля, О.М.Резніка та ін.

Існуючу сукупність різноманітних архітектурних вирішень, що стосуються побудови нейронних мереж, можна розділити на два окремі класи, які суттєво різняться принципами синтезу, навчання та застосування: нейромережі зі зворотніми зв`язками та нейромережі прямого поширення. Останні з них, загалом, отримали значно ширше застосування в силу універсальності своєї концепції та порівняно вищих показників точності. Однак, починаючи з часів перцептрона Ф.Розенблата, для навчання таких нейромереж використовувались ітераційні процедури, що забезпечують отримання шуканих результатів величин ваг синаптичних зв`язків шляхом багаторазових повторень обчислень, або модифікацій, що сприяють поступовому покращенню якості результатів. За відсутності інших підходів створилася усталена думка, що навчання нейромереж прямого поширення може здійснюватися лише ітераційним шляхом, отже, останнім вже наперед властивий значний недолік повільність навчання, значення якого є вирішальним щодо практичного обмеження допустимої вимірності вирішуваних задач. Відома також вада, про яку менше згадується в літературі, це загалом, обмежена точність відгуків, що формуються нейромережами, як в режимі відтворення, так і в режимі передбачення. Остання обставина, наприклад, в значній мірі гальмує застосування нейромереж для побудови “інтелектуальних” давачів. Відсутні методи оцінок точності результатів, передбачуваних за допомогою нейромереж, що знижує рівень довіри до застосування останніх.

Врешті, слід відзначити ту обставину, що відомі нейропарадигми будуються на різнотипних аналогіях, обчислювальних процедурах, евристичних правилах, які підтверджені досвідом та грунтуються на позитивних результатах експериментів. Одночасно, відсутні спільні теоретична база, методологія побудови та навчання нейромереж для різноманітних задач застосування останніх, на основі яких би міг здійснюватися обгрунтований підбір елементів навчальних вибірок, налаштування параметрів. У зв`язку з цим навіть стверджується про назрівання чергової кризи в галузі нейрокомп`ютерної техніки та закінчення нейрокомп`ютерного буму, що розпочався в 1980-х роках.

Все це дає підстави вважати, що створення концептуальної моделі та базових нейропарадигм на її засадах для нейронних мереж прямого поширення, які би стали основою побудови неітераційних швидких алгоритмів навчання останніх, вироблення теоретично обгрунтованих методів налаштування нейромереж і планування процедур їх навчання та використання є гостро актуальною проблемою, вирішення якої сприятиме подальшому впровадженню нейромережевих інформаційних технологій в різноманітні сфери діяльності.

Зв`язок роботи з науковими програмами, планами та темами. Робота виконувалася в рамках гранту Українського Науково-Технологічного Центру за Проектною угодою №412 “Розробка інформаційних технологій функціонування, програмування і налаштування нейронних систем паралельної обробки сигналів”; згідно завдань на НДР ВИТА-20-УО 8/160/1 Програми фундаментальних та пошукових досліджень НАН України від 7 серпня 1992р.; проекту “Синтез, автоматизація налаштування та нові застосування нейронних мереж” (угода 2/441-97 з Міннауки України); проекту 06.05/07792 науково-технічної програми 06.05 “Перспективні інформаційні технології, прилади комплексної автоматизації, систем зв’язку” (ДКНТ України, 1997), а також господарських угод з ВАТ “Львівобленерго” “Створення програмної нейромережі прогнозування та планування технологічних втрат електричної енергії в електричних мережах компанії”, “Комп’ютерна підсистема розрахунку плинних режимів в електричній мережі 110 кВ “Львівобленерго” за даними телеметрії”. Робота також тісно пов’язана з планами науково-дослідної та навчальної роботи кафедри автоматизованих систем управління Державного університету “Львівська політехніка”.

Мета і задачі досліджень. Метою роботи є створення теоретичних основ побудови штучних нейронних мереж прямого поширення з неітераційним навчанням та розробка на цій базі інформаційних нейромережевих технологій підвищеної точності та швидкодії навчання.

Для досягнення поставленої мети необхідно розв’язати такі задачі:

розробити та теоретично обгрунтувати концептуальну модель нейромереж прямого поширення з неітераційним навчанням;

- розробити базові нейропарадигми мереж прямого поширення з неітераційним навчанням;

- запропонувати структурні методи покращення точності для нейромереж традиційної архітектури;

- запропонувати нові архітектури нейромереж з підвищеною точністю функціонування;

- дослідити особливості застосування розроблених нейромереж та алгоритмів їх навчання для розв’язування задач в режимі навчання “з вчителем”;

- подати обгрунтовані рекомендації по застосуванню розроблених нейромереж в режимі навчання “без вчителя”;

- дослідити підходи до апаратної та програмної побудови розроблених нейромереж, реалізувати універсальні та спеціалізовані програмні нейромережі;

- застосувати розроблені програмні нейромережі для вирішення практичних завдань.

Наукова новизна одержаних результатів. На основі виконаних теоретичних та експериментальних досліджень започатковано та розвинуто новий науковий напрям побудова, налаштування, розрахунок параметрів та застосування штучних нейронних мереж прямого поширення з неітераційним навчанням.

В рамках цього напрямку отримано наступні результати:

побудовано базову модель (“Функціонал на множині табличних функцій” ФТФ) неітераційного навчання, функціонування та застосування нейромереж прямого поширення, яка грунтується на представленні елементів множини реалізацій об’єкта, що відтворюється нейромережею, у вигляді таблиці значень функції двох аргументів (числової характеристики реалізації та номера ознаки) і наближенні функції двох змінних комбінацією функцій однієї змінної;

- на базі запропонованої моделі розроблено нейропарадигму, що включає сукупність архітектурних вирішень та методологію навчання для нейромереж з проективними зв’язками між шарами нейронних елементів (НЕ);

- розроблено нейропарадигму мереж з проективними зв’язками між шарами НЕ та додатковими впорядкованими латеральними (бічними) зв’язками між НЕ прихованого шару;

- розроблено та обгрунтовано способи розширення базової архітектури нейромереж з проективними зв’язками між шарами НЕ;

- побудовано геометричну модель процедури неітераційного навчання, на базі якої розроблено метод нелінійних перетворень системи координат простору реалізацій, що використано для підвищення точності; а також для розробки нових методів навчання “без вчителя”;

- розроблено та досліджено варіанти архітектур нейромереж з додатковими впорядкованими латеральними зв’язками з використанням нелінійних синаптичних зв’язків, або без них;

- розроблено та обгрунтовано методики і рекомендації по застосуванню розроблених нейромережевих засобів для розв’язування задач в режимах навчання “з вчителем” та “без вчителя”;

- здійснено постановку, розроблено методологію та вирішено нову задачу нейрокомп’ютерної техніки побудова ситуаційних карт особливостей.

Практичне значення результатів. Базова модель “Функціонал на множині табличних функцій” лежить в основі підходів до неітераційного навчання (шляхом розрахунку параметрів) багатошарових нейромереж прямого поширення, які суттєво скорочують час на здійснення цієї визначальної процедури. Розширення моделі навчання до розрахунку параметрів передатних функцій НЕ, крім ваг синаптичних зв`язків, дозволило суттєво підвищити точність гетерогенних (з неоднаковими НЕ) нейромереж.

Дві базові парадигми, розроблені на підставі моделі ФТФ, стали основою для створення низки архітектурних вирішень нейромереж та алгоритмів їх навчання. Кожне з розроблених вирішень оцінюється сукупністю характеристик, що забезпечують переваги нових структур при розв`язуванні задач різних типів.

Розроблені підходи до побудови нейромереж, алгоритми їх навчання та функціонування, методики розв’язування задач різних типів стали основою для створення універсальних та спеціалізованих програмних нейромереж.

Подані рекомендації по вибору типу структур нейромереж та встановленню їх параметрів забезпечують ефективне розв’язування задач для наявних навчальних вибірок з врахуванням обраного зовнішнього критерія.

Реалізація і впровадження результатів роботи. Розроблено програмну (віртуальну) нейромережу універсального типу, яка придатна для розв`язування широкого кола задач відображення, апроксимації, розпізнавання, що за сукупністю параметрів швидкодії навчання, точності та зручності користування переважає можливості апаратних та програмних нейрокомп`ютерів на основі традиційних нейропарадигм. Створено спеціалізований варіант програмної нейромережі для задач прогнозування часових рядів.

Розроблено програмні нейромережі для швидкого розв`язування задач кластеризації, нелінійного факторного аналізу, побудови ситуаційних карт особливостей.

Теоретичні і практичні результати дисертації використано за безпосередньою участю автора:

–

в окремих функціональних блоках підсистеми оперативно-диспетчерського керування в загальному комплексі АСДУ ВАТ”Львівобленерго”;

–

для вирішення багатопараметричних задач виділення і прогнозування геліоактивної компоненти (Державний науково-дослідний інститут інформаційної інфраструктури);

–

при розробці асоціативної пам’яті в рамках проектної угоди 06.05/07792 “Паралельно-потокові системи з організацією зв’язків через багатопортову пам’ять для обробки інтенсивних потоків інформації” згідно Державної науково-технічної програми 06.05 “Перспективні інформаційні технології, прилади комплексної автоматизації, системи зв’язку”;

–

в навчальному процесі Державного університету “Львівська політехніка” при підготовці магістрів за спеціальностями 8.080 401 “Інформаційні управляючі системи та технології” і 8.090 602 “Електричні системи та мережі”.

Апробація результатів дисертації. Основні наукові результати та положення дисертаційної роботи представлялися, доповідалися та обговорювалися на таких конференціях та семінарах: Міжрегіональній науково-технічній конференції “Цифрова обробка сигналів в системах зв’язку і керування” (Львів, 1992); науково-технічній конференції “Енергозбереження і облік енергії” (Київ, 1995); науково-технічній конференції “Комп`ютерні технології друкарства: алгоритми, сигнали, системи” (Львів, 1996); ІІІ Міжнародній науково-практичній конференції “Сучасні технології в аерокосмічному комплексі” (Житомир, 1997); ІІІ Conference “Neural Networks and their applications” (Poland, Kule, 1997); Міжнародній науково-технічній конференції “Сучасні проблеми засобів телекомунікації, комп`ютерної інженерії та підготовки спеціалістів” (Львів, 1998); Міжнародній науковій конференції “Сучасні проблеми механіки і математики” (Львів, 1998); І та ІІ Міжнародних науково-практичних конференціях “Проблеми економії енергії”, (Львів, 1998, 1999); Vedeckej konferencie “Elektro-energetika’ 98” (Slovakia, Vysoke ”Tatry-Stara’ Lesna”, 1998); IV Всеукраїнській Міжнародній конференції “Оброблення сигналів і зображень та розпізнавання образів” (Київ, 1998); V International Conference “Pattern recogniton and information processing” (Minsk, 1999); Міжнародній науково-технічній конференції "Математичне моделювання в електротехніці, електроніці та електроенергетиці" (Львів, 1999); Міжнародній науково-технічній конференції “Інформаційні системи та технології" (Львів, 1999); VI Українській конференції по автоматичному управлінню “Автоматика-99” (Харків, 1999); наукових семінарах Державного науково-дослідного інституту інформаційної інфраструктури 1996-1999; науково-технічних конференціях та семінарах Державного університету “Львівська політехніка”1988 1999.

Публікації. По темі дисертаційної роботи опубліковано 41 наукову працю, в тому числі 26 статтей в наукових журналах та збірниках наукових праць, 11 публікацій в збірниках матеріалів конференцій, отримано 4 авторські свідоцтва.

Структура дисертації. Дисертаційна робота складається з вступу, восьми розділів, висновків, списку використаної літератури із 201 найменування та додатків. Загальний обсяг дисертації становить 309 стор., в тому числі, 286 стор. основного тексту.

ОСНОВНИЙ ЗМІСТ РОБОТИ

У вступі обгрунтовано актуальність проблеми розроблення парадигм нейронних мереж прямого поширення з швидким неітераційним навчанням, сформульовано мету і задачі досліджень, подано анотацію основних результатів роботи, описано послідовність викладу матеріалу дисертації.

В першому розділі показано, що в основі методології штучних нейронних мереж є запозичення певних механізмів, які існують в живій природі, або ж у фізичних об’єктах, відтворення їх апаратними або програмними засобами з метою опрацювання інформації згідно встановлених правил. На основі аналізу існуючих моделей нейрокомп’ютерної техніки виділено базові архітектури нейромереж - структури без зворотніх зв’язків (прямого поширення), зі зворотніми зв’язками (рекурентні), або ж поєднання цих варіантів. Обгрунтовано вибір предмету досліджень нейромереж прямого поширення, як найбільш універсального і розповсюдженого засобу вирішення багатьох практичних завдань.

Дано оцінку існуючим правилам навчання нейромереж, зазначено, що в основі навчання нейромереж прямого поширення є ітераційні методи, пов’язані з великими затратами часу на їх здійснення. Виділено основні класи задач, що успішно розв’язуються існуючими засобами задачі кластеризації, моделювання асоціативної пам’яті та задачі відображення, проаналізовано можливості та специфіку застосування основних нейропарадигм для їх розв’язування.

Показано, що наявність великої кількості різнотипних нейропарадигм, відсутність об’єднуючих моделей нейромереж для задач різних типів, недосконалість процедур навчання, невисока точність функціонування, обмеження на вимірність вирішуваних завдань суттєво гальмують застосування нейромережевих інформаційних технологій, а подолання названих недоліків можливе на шляху розробки нових концептуальних моделей і підходів до побудови нейропарадигм.

В другому розділі запропоновано концептуальну модель неітераційного навчання, функціонування та застосування нейромереж прямого поширення. На основі запропонованої моделі розроблено дві нові нейропарадигми мереж прямого поширення з неітераційним навчанням:

з неявним заданням числових характеристик реалізацій;

- з прямим обчисленням характеристик реалізацій.

Визначено основні функції нейромережі як такі, що передбачають встановлення об’єктивних зв’язків між реалізаціями об’єкта (об’єктів) в процесі навчання, та їх відтворення в процесі використання мережі для вирішення поставленого завдання. Реалізацією названо вектор-результат спостереження об’єкта, що складається з компонентів-ознак об’єкта. Співвідношенням між векторами-реалізаціями та перетворенням останніх в процесі навчання і використання нейромережі надається геометрична, або інакше просторово-подібна інтерпретація. Множина можливих реалізацій довільного об’єкта, що досліджується за допомогою нейромережі, розглядається як простір реалізацій, елементами якого є власне реалізації. Одночасно елементи множини реалізацій можуть бути задані в просторі ознак (координат векторів-реалізацій). Тоді елементи простору породжують кінцевий набір точок-ознак в координатах можливих реалізацій. Число останніх, в загальному випадку, є нескінченним. Подібний дуалізм представлення виявився важливим елементом найбільш ефективних процедур навчання. В дисертації розглядався варіант евклідового n-вимірного простору. Це дозволило використати при розробці основних архітектурних засад нейромереж, побудови моделей їх застосування та алгоритмів навчання низку узагальнень аналітичної геометрії на багатовимірний простір, зокрема, поняття віддалі та довжини, проекції на гіперплощину, тощо.

В основу концептуальної моделі покладено положення:

множина точок-реалізацій об’єкта формує в n-вимірному евклідовому просторі над полем дійсних чисел тіло об’єкта, яке може бути промодельоване за допомогою нейромережі з метою вирішення конкретного завдання дослідження об’єкта; тіло об’єкта розглядається, як геометричне місце всіх його точок-реалізацій; навчальна множина є лише підмножиною множини точок-реалізацій;

- тіло об’єкта може бути відтворене при допомозі нейромережі з достатньою точністю після її навчання на основі навчальної множини, що є підмножиною множини реалізацій.

Модель функціонування довільної нейромережі описується зваженим орієнтованим графом, де кожна вершина орграфу відповідає окремому НЕ. Останні об’єднуються дугами синаптичними зв’язками, що можуть починатися з виходу довільного НЕ, а також від джерела вхідного сигналу. Зайві синаптичні зв’язки приймають нульові значення вагових коефіцієнтів. В такому випадку вичерпним описом навченої нейромережі є уніфіковане представлення її довільного НЕ та задані множини параметрів, що співвідносяться з кожним з них.

Отже, навчена нейромережа певної архітектури повністю описується множиною функцій синаптичних ваг {wj(i)} та множиною вихідних функцій {Fi(1)(N)}, де і номер довільного НЕ; j номер входу НЕ; N - числова характеристика реалізації. В режимі використання нейромережі на входи останньої подається вектор вхідних сигналів (xn+1, xn+2, …, xn+nx), де n кількість НЕ; nx кількість входів нейромережі. Вектор вхідних сигналів, по аналогії з попередніми припущеннями, представляємо, як функцію виду FN(2)(j), де j= n+1, n+2, …, n+nx, а для j= 1, 2, …, n

FN(2)(j)=0.

Вважаємо, що кожній реалізації відповідає своя функція входу.

Таким чином, для заданих множин функцій {wj(i)}, {(Fi(1)(N)}, FN(2)(j) кожному значенню N відповідає число, або вектор, що продукується нейромережею

, (1)

де Q оператор нейромережі.

Оскільки (1) кожному набору функціональних змінних, заданих по точках, ставить у відповідність по деякому закону певні числові значення, то даний вираз представляє функціонал від відповідних аргументних функцій. Останні задаються табличним способом. В зв’язку з цим запропоновано назву узагальненої моделі ”Функціонал на множині табличних функцій”.

Метою навчання нейромережі поставлено визначення множин аргументних функцій синаптичних ваг і вихідних функцій НЕ , що забезпечують (точне, або наближене) виконання рівності (1) на множині функцій входу {FN(2)(j)}, де N= N1, N2, …, Nm, … Основою для навчання є матриця реалізацій MNi(1). Враховуючи, що аргументні функції є функціями однієї змінної від числової характеристики реалізацій (N), або від номера НЕ (і), скористаємося таким варіантом представлення матриці реалізацій, що забезпечив би, в принципі, визначення шуканих аргументних функцій на основі швидких неітераційних підходів. Для цього матриці реалізацій поставимо у відповідність таблицю значень функції двох аргументів F2(N, i). Наближення функції двох змінних F2(N, i) шукаємо у вигляді комбінації функцій f1(N), f2(i) однієї змінної, де формула представлення задовільняє (1) з достатньою точністю на множині функцій входу.

Нейропарадигма 1. Початково розглядаємо варіант структури, що містить НЕ лише лінійного типу, тобто, фактично, багатовходові суматори (рис. 1).

Рис. 1. Лінійна нейромережа

Нейромережа містить два послідовно з’єднані шари НЕ-суматорів і по своїй дії еквівалентна відповідній лінійній структурі без прихованого шару НЕ. Для переходу до останнього варіанту достатньо лише перерахувати відповідні ваги зв’язків wpr(1), wrl(2), де p= 1, 2, …, nx; r= 1, 2, …, nk; l= 1, 2, …, ny. Навчання даної мережі вимагає виконання обчислень вказаних вагових коефіцієнтів, що передбачається здійснювати на основі заданої матриці навчальної множини . Елементи останньої повинні відповідати величинам сигналів у вузлах нейромережі. Кожен рядок названої матриці складає одну з реалізацій об’єкта, де перші nx стовпців відповідають вхідним сигналам, наступні ny вихідним сигналам нейромережі і, врешті, останні nk вихідним сигналам суматорів-НЕ прихованого рівня.

В основі нейропарадигми представлення функції двох змінних F2(N,i) кінцевою сумою. Використано спосіб розкладу, який грунтується на геометричних уявленнях. Для цього виконуються послідовні перетворення над елементами матриці реалізацій, де для j-го кроку маємо:

, (2)

, (3)

де Sj номер рядка матриці реалізацій перед початком jго кроку перетворень, сума квадратів елементів якого є максимальною, і=1, 2, …, jmax, jmax=nx+ny.

Показано, що рядки MS1i(1), MS2i(2), …, MSji(j), …, отримувані на основі описаної вище процедури, всі елементи котрих одночасно не нулі, є лінійно незалежними. Послідовні перетворення над матрицею реалізацій на основі співвідношень (2) та (3) визначають процедуру ортогоналізації Грама-Шмідта. Отримувані вектори MS1i(1), MS2i(2), ..., визначають базис лінійного простору. Елементи будь-якого рядка матриці MNi(1) представляється в даному базисі, як

. (4)

Замінимо елементи матриці навчальної множини MNi(1) їх наближеннями

. (5)

Похибка наближення зростає зі збільшенням числа відкинутих членів суми (4).

Враховуючи топологію лінійної нейромережі, формуємо неоднорідну систему лінійних алгебраїчних рівнянь

(6)

де d nx.

На основі розв’язку системи (6) визначаються вагові коефіцієнти між прихованим та вхідними шарами НЕ. Обчислення вагових коефіцієнтів синаптичних зв’язків між вихідним та прихованим шарами виконується на основі співвідношень

Припустимо, що похибка наближення елементів матриці MNi(1) сумою (5) є незначною. Якщо для поданого на вхід вектора сигналів (xN1(1), …, xNp(1), …, xNnx(1)), що входив в навчальну множину, на виходах суматорів прихованого шару формуються сигнали, рівні xN1(2), …, xNr(2), …, xNnk(2), де nknx, це забезпечує формування на виході сигналів xN1(3), …, xNl(3), …, xNny(3) з задовільною точністю. Однак, слід враховувати скінчені похибки наближення, внаслідок чого сигнали xN1(2), …, xNr(2), …, xNnk(2) можуть суттєво відхилятися від обчислених значень коефіцієнтів , а це часто призводить до неприпустимих відхилень на виході.

Сформуємо дві множини значень , де r =1, 2, …, nk; N =N1, N2, …, Nm; m число реалізацій для навчання.

Першу з множин складають коефіцієнти , що формуються навченою лінійною нейромережею, а другу коефіцієнти пораховані на основі (3). Вважаємо, що відповідні елементи двох множин представляють впорядковані пари. Тобто, кожному елементу першої множини відповідає один і лише один елемент другої множини. Отже, назване бінарне відношення може розглядатись як функція

що представляє собою, по суті, передатну функцію r-го НЕ задану по точках, необхідну для відтворення з певною точністю вихідних елементів навчальної множини. Тобто, на основі навчання для кожного НЕ можливо задати його передатну функцію, аргументом котрої є вихідний сигнал відповідного суматора прихованого шару нейромережі. Схема останньої набуває в цьому випадку вигляду (рис. 2).

Рис. 2. Нейромережа нелінійного типу

Зазначено деякі особливості нейромереж, що будуються у відповідності з даною нейропарадигмою:

принципово висока швидкодія в режимі функціонування, що обумовлена паралельною структурою графу обчислень;

- скінчена похибка відтворення елементів навчальної множини;

- обмеження щодо формування навчальної множини.

Порівнюючи нейромережі на основі нейропарадигми 1 з традиційними архітектурами, в яких використовується навчання методом зворотнього поширення похибок, відзначено, що в даному випадку при співвимірних показниках точності вдалося значно скоротити час (що іноді складає 2-3 порядки) на навчання, забезпечити надійність і однозначність цієї визначальної процедури.

Нейропарадигма 2. Для j-го кроку алгоритму навчання, де j=1, 2, …, jmax, i=1, 2, …, jmax , маємо

; (7)

; (8)

; (9)

Формули (7) (9) наближено реалізують процедуру ортогоналізації Грама-Шмідта, отже справедливою є рівність

Початкова матриця реалізацій MNi(1) може бути наближено представлена скінченою сумою виду

Сукупність співвідношень (7) (9) задає процедуру навчання нейромережі, в результаті якої визначаються вектори , а також набір функцій F(j), що є передатними для НЕ нейромереж даного типу.

В режимі функціонування для реалізації відтворення функцій відображення задаються компоненти вектора MNi(1), що відповідають входам, і =1, 2, ..., nx. Реалізації Nm+1, Nm+2, ... не входили до навчальної множини. Нейромережа здійснює формування з заданою точністю компонентів вектора, що відповідають виходам, тобто, для і = nx+1, nx+2, …, nx+ny.

На основі графу процесу функціонування отримуємо структурну схему нейромережі, яка включає додаткові впорядковані латеральні (бічні) зв’язки між НЕ прихованого шару (рис. 3).

Нейромережі на основі нейропарадигми 2 характеризуються очевидними перевагами, що не властиві іншим нейропарадигмам. Це швидке неітераційне навчання, відсутність практичних обмежень на формування навчальної множини, здатність точно відтворювати елементи навчальної множини.

Рис. 3. Структура нейромережі з проективними і впорядкованими

латеральними зв’язками

В третьому розділі розглянуто питання практичної побудови нейроархітектур з неявним заданням числових характеристик реалізацій, включаючи структурні методи покращення точності, формування передатних функцій НЕ вхідного, вихідного та прихованих шарів, особливості використання нейромереж даного типу для моделювання функцій асоціативної пам’яті.

На основі аналізу складових похибки методу вироблені та обгрунтовані деякі способи підвищення точності, найпростіший з яких полягає у введенні додаткового входу нейромережі, на який подається сигнал константи, відмінний від нуля. Проаналізовано ефект підвищення точності за рахунок збільшення числа прихованих шарів НЕ. Запропоновано ефективний варіант підвищення точності, пов’язаний з каскадуванням нейромереж, приклад якого показаний на рис. 4.

Запропоновано також структуру нейромережі, де функції НЕ виконують окремі нейромережі мережеві нейронні елементи.

Розглянуто варіанти вибору моделей передатних функцій НЕ прихованого шару, зокрема, на основі неперервних наближень, таблично-алгоритмічних відтворень, прискорених таблично-алгоритмічних відтворень, табличних відтворень. Показано, що елементи вхідного та вихідного шарів НЕ для нейромереж даного типу виконують допоміжні функції. Обгрунтовано вибір коефіцієнтів, що задають рівень нелінійних обмежень вхідних та вихідних сигналів сигмоїдальними передатними функціями цих НЕ.

Специфічні особливості навчання нейромереж з неявним заданням числових характеристик реалізацій можуть забезпечити їм певні переваги при побудові моделей асоціативної пам’яті. Для відтворення функцій асоціативної пам’яті в умовах значних відхилень вхідних даних від еталонів, запропоновано варіант двоступеневої нейромережі, де функція корекції вхідних змінних покладається на додаткову нейромережу.

Рис. 4. Нейромережа каскадного типу

Четвертий розділ присвячений розробці практичних варіантів реалізації нейромереж з прямим обчисленням характеристик реалізацій. Останнім властиві певні особливості, важливі з огляду їх можливого застосування, зокрема, відсутність теоретичних обмежень на формування матриці навчальної множини, відсутність необхідності розв’язування систем лінійних алгебраїчних рівнянь при навчанні. Для багатьох випадків цінною є можливість відтворювати елементи навчальної множини з нульовою методичною похибкою.

Запропоновано геометричну модель процедури навчання. Для випадку відображення двокомпонентного вектора (х1, х2) в однокомпонентний (у), кожному рядку матриці реалізацій ставиться у відповідність точка тривимірного простору реалізацій (рис. 5).

Рис. 5. Простір реалізацій

Першим кроком процедури навчання є вибір рядка навчальної матриці, сума квадратів елементів якого є максимальною. Геометрично, враховуючи відповідність рядків матриці MNi(1) та точок на рис. 5, це означає вибір точки (m), яка найбільш віддалена від початку координат. Проведемо вектор від точки m до початку координат. Через початок координат проведемо площину, перпендикулярну до останнього вектора (нормального), рівняння якої буде наступним

xm1x1+xm2x2+ymy=0.

Віддаль від довільної точки в заданому просторі реалізацій до площини рівна абсолютній величині l

Встановлено, що коефіцієнт пропорційності (KN(j)), на який помножуються елементи базового рядка перед виконанням кожного кроку процедури розкладу (2) це відносна віддаль (приведена до віддалі від базової точки до початку координат) кожної точки-реалізації до відповідної площини, що проходить через початок координат перпендикулярно до базового (нормального) вектора. На кожному кроці розкладу (ортогоналізації) базова точка проектується в початок координат, а інші точки на площину, побудовану описаним способом. На наступному кроці ортогоналізації геометричні перетворення здійснюються в просторі, вимірність якого зменшується на одиницю.

Помітне підвищення точності функціонування досягається шляхом лінійних та нелінійних перетворень системи координат простору реалізацій при допомозі додаткових елементів, що вводяться в структуру мережі.

Розширення моделі навчання забезпечується на основі проведення почергових кроків ортогоналізації над точками-рядками початкової навчальної матриці попередньо в просторі реалізацій, як це виконується у вже описаному алгоритмі навчання, а далі, по відповідних правилах (остаточно) в просторі ознак, причому за базовий вектор приймається вектор координат в новому базисі, отриманий в просторі реалізацій. Останнє передбачає заміну операцій над рядками матриці аналогічними операціями над її стовпцями.

Запропоновано варіант побудови нейромережі з нелінійними синаптичними зв’язками, мінімальну структуру якої з одним входом показано на рис. 6.

Для реалізації нелінійних синаптичних зв’язків запропоновано поліном виду

де М коефіцієнт, що рівний елементу базового рядка навчальної матриці (сума квадратів елементів якого є максимальною) стовпця, для якого встановлюється функція синаптичної ваги; Аі коефіцієнти полінома, які знаходяться на основі методу найменших квадратів. Завдяки такому вибору коефіцієнтів М, на кожному кроці розкладу здійснюється вилучення базового рядка, всі елементи якого набувають нульових значень.

Рис. 6. Мінімальний варіант структури нейромережі з нелінійними

синаптичними зв’язками

Перетворення матриці реалізацій для j-го кроку виконується на основі співвідношення

Розроблено архітектурний варіант побудови нейромереж з передатними функціями НЕ лінійного типу та нелінійними функціями ваг синаптичних зв`язків. Обгрунтовано метод попередніх перетворень простору реалізацій для таких нейромереж та задання функцій ваг синаптичних зв`язків на основі інтерполяційних поліномів найкращого наближення за Чебишовим. Приведено відповідні алгоритми навчання.

В п’ятому розділі проаналізовано підходи, що забезпечують ефективне розв’язування задач в режимі контрольованого навчання з використанням нейромереж на основі моделі ФТФ.

Виділено задачі проекційного типу (передбачення), як найбільш властиві для випадку застосування нейромереж прямого поширення. Задачі передбачення розділяються на основні типи, приймаючи за основу такого розділення способи отримання та особливості вхідних даних.

Розглянуто окремо випадок побудови одновходових функціональних перетворювачів для функцій, заданих таблично, на основі каскадних нейромереж. Показано, що залежність вихідного сигналу нейромережі такого типу від вхідного може бути описана еквівалентним поліномом високого степеня, побудова якого на основі методу найменших квадратів є недосяжною через великий вплив похибок заокруглення.

Введено етапи розв’язування задач передбачення, першим з яких є дискретний вибір архітектурного вирішення нейромережі, яке би відповідало особливостям даних, що задаються для її навчання, та складності форми відтворюваної гіперповерхні.

Вибір параметрів нейромережі визначеної архітектури перш за все передбачає вибір оптимальної кількості нейронів прихованого шару, яка в більшості випадків рівна числу входів. Іншими параметрами складності нейромережі є степені поліномів, що задають передатні функції НЕ та нелінійні синаптичні ваги. Показана методика вибору параметрів на основі поступового ускладнення моделі.

Неітераційні алгоритми навчання дозволяють швидко перенавчати нейромережу з метою вибору найкращого варіанту її структури. Об’єктивне порівняння варіантів можливо виконувати на основі зовнішніх критерїїв якості. В здійснюваних експериментах найчастіше використовувався критерій регулярності.

Об’єм вибірки реалізацій, що використовується для навчання, повинен відповідати параметрам складності нейромережі. Чим вищі степені поліномів НЕ та синаптичних ваг вибираються, тим більший об’єм навчальної вибірки необхідний. Вилучення будь-якої реалізації з навчальної вибірки не повинно приводити до помітних змін коефіцієнтів мережі, отримуваних при навчанні.

Запропоновано розділяти існуючу сукупність розв’язуваних задач на інтерполяційні та екстраполяційні. З огляду на використання для відтворення багатовимірних залежностей нейронних мереж прямого поширення, можна дати наступні трактування для точок інтерполювання та екстраполювання. В якості центрального процесорного елемента нейромережі виступає нейронний елемент, що здійснює нелінійне перетворення над сигналом його внутрішнього збудження. Незалежно від способу навчання нейромережі, для кожної точки-реалізації навчальної множини можливо вирахувати сигнали внутрішнього збудження всіх нейронів. Кожній реалізації навчальної множини можна поставити у відповідність вузол-точку на передатній характеристиці кожного нейрона, а для останніх задати діапазони зміни для сигналів внутрішнього збудження, що знаходяться в процесі навчання. Якщо в процесі функціонування нейромережі сигнали внутрішнього збудження для всіх нейронів потрапляють всередину діапазона, слід говорити про задачу інтерполяційного характеру, порушення цієї умови хоча би для одного НЕ приводить задачу до класу екстраполяційних.

Запропоновано способи підвищення точності передбачення для точок-реалізацій, що за приведеними ознаками потрапляють в розряд екстраполяційних.

Розглянуто питання здійснення прогнозів для часових рядів. Для випадку короткотермінових прогнозів можливо використовувати однокрокові методи прогнозування. Для виконання прогнозів середньої і великої тривалості пропонується використовувати відомий метод “часових вікон”. Задача суттєво ускладнюється для випадків багатопараметричного прогнозування, коли здійснюється оцінка майбутніх значень параметрів для кількох взаємопов’язаних процесів. В цьому випадку необхідно не лише підібрати всі можливі параметри, що визначають суть процесу, але і оптимальні розміри вхідного та вихідного часових вікон, що випливає з необхідності враховувати різні часові затримки (час післядії) впливу одних параметрів на інші. В результаті необхідні розміри часових вікон можуть виявитись достатньо великими, а вимірність нейромереж, що використовуються для прогнозів значною. В такій ситуації застосування нейромереж на основі моделі ФТФ, що забезпечують високу швидкість навчання для задач великої вимірності, виявляється особливо ефективним.

В шостому розділі розроблено рекомендації по використанню нейромереж на основі моделі ФТФ для розв’язування задач в режимі неконтрольованого навчання. В основі запропонованих підходів просторово-подібне представлення об’єктів, що моделюються за допомогою нейромереж, а також відповідні геометричні моделі навчання.

Застосування архітектур на основі концептуальної моделі ФТФ забезпечує здійснення кластеризації як в автоматичному режимі, де лише вказується про належність досліджуваної реалізації до того чи іншого кластера, так і в візуалізованому. В останньому з випадків вирішується завдання не лише класифікації вхідних реалізацій у відповідності з встановленою під час навчання системою класифікації, але і просторово відображаються співвідношення між окремими кластерами.

Значного поширення останнім часом для вирішення задач кластеризацій набули карти особливостей Коонена, де для відображення кожного класу образів виділяється окремий НЕ.

Відзначаючи ефективність згаданого методу, приймаємо до уваги, що останній реалізується шляхом здійснення ітерацій, отже, є загалом повільним. Суттєвим є також, що взаєморозташування кластерів не завжди вдається адекватно показати в двовимірному просторі. Останнє, фактично, передбачає значне компресування реальних даних, а, отже, часом приводить до надмірного спрощення реальної ситуації.

На основі відомого методу компресування даних, відомого під назвою “шийка пляшки” (bottle-neck), запропоновано архітектуру нейромережі для здійснення візуалізованої кластеризації з неітераційним швидким навчанням, яка придатна для графічного відображення елементів-реалізацій в одно-, дво-, три-, чотиривимірному перетвореному просторі реалізацій (в останньому випадку з внесенням певних умовностей, що накладаються існуючими реаліями сприйняття), в основі якої структура з лінійними НЕ. Структура нейромережі (в режимі навчання) для побудови карти особливостей в двовимірному просторі показана на рис. 7.

Рис. 7. Структура нейромережі для побудови карти

особливостей (режим навчання)

В даному випадку забезпечено відображення елементів простору реалізацій великої вимірності (х1, х2, ..., хn) в елементи простору меншої вимірності (KN(1), KN(2)).

Запропоновано варіант нейромережі для здійснення нелінійного факторного аналізу (рис. 8).

Рис. 8. Нейромережа для нелінійного факторного аналізу

Перевагою нелінійного факторного аналізу є забезпечення більш точних перетворень ознак об’єкта дослідження в фактори і навпаки. Крім того, матриця факторних навантажень будується для кожної реалізації, отже, створюється можливість оцінювання факторів, які діють для кожної точки-реалізації, що є важливим для здійснення технічної та медичної діагностики.

Як розширення принципу карт особливостей запропоновано нову інформаційну технологію побудови ситуаційних карт особливостей. Якщо по результатах попередньо здійсненої кластеризації визначити діапазони зміни , ввести число елементів зображення (пікселів) ситуаційної карти r, визначаться величини кроків дискретизації по кожній з координат при побудові сітки на відповідній карті

В кожному з рядків є значень, а число можливих комбінацій пар елементів по одному з кожного ряду складає r. Побудова ситуаційної карти здійснюється у відповідності з функціональною схемою на рис. 9.

Прогнозування на ситуаційній карті відображається переміщенням відповідної точки на площині. Проходження точки поблизу певних ділянок може вказувати на імовірність, за певних умов, потрапляння в екстремальні області. Подібні засоби можуть знайти застосування в автоматизованих системах управління, для прогнозування надзвичайних ситуацій, для ситуаційного керування, для глобальної оптимізації. Розглянуто апаратні засоби для формування ситуаційних карт особливостей.

Рис. 9. Функціональна схема побудови ситуаційної карти особливостей

Проаналізовано можливості застосування розроблених нейромережевих засобів для стиску (компресії) зображень, здійснення афінних перетворень та виконання функцій розпізнавання.

Запропонована двоступенева система стиснення зображень, де перший крок компресії передбачає перетворення векторів-реалізацій з входу на вихід мережі з мінімальними їх спотвореннями при мінімальному числі НЕ прихованого шару. На другому кроці компресії використовується нейромережа, що здійснює функціональне перетворення виду

де Zi біжуча компонента вектора, що формується і-м НЕ прихованого шару; k відповідний йому номер відтворюваної реалізації, який змінюється в діапазоні k=1kmax, де kmax число векторів-реалізацій зображення.

Оцінено можливості застосування розроблених нейромережевих засобів для виконання функцій розпізнавання.

В сьомому розділі показано альтернативні підходи до реалізації нейромереж на основі моделі ФТФ, проаналізовано властивості здійсненних реалізацій та особливості їх застосування.

Апаратна реалізація нейромереж в сучасних умовах не є одноваріантною, а вибір конкретного варіанту забезпечує загалом різну ефективність стосовно певних економічних показників. Враховучи, що нейромережі на основі моделі ФТФ в принципі забезпечують відтворення своїх функцій для задач великої вимірності лише програмними засобами з використанням персональних ЕОМ, дещо міняються самі підходи до апаратних реалізацій. Слід відмовитися від тези, згідно з якою використання апаратних нейромереж є неминучим для розв`язування задач великої вимірності, так як час навчання мереж при допомозі чисто програмних методів (для традиційних парадигм) може виявитися надто великим.

Сучасна персональна ЕОМ забезпечує навчання нейромереж на основі моделі ФТФ за час, що становить декілька секунд для найскладніших завдань, коли розмірності векторів реалізацій становлять порядку сотень. Розширення може вимагати основна пам`ть ЕОМ у випадку навчальної множини великого об`єму. Це не означає, що апаратні нейромережеві засоби не потрібні взагалі, однак, доцільність їх застосування повинна обгрунтовуватись умовами вирішуваних задач:

час навчання нейромережі та формування нею відгуку на вхідний вектор сигналів не є критичними (дозволяються в межах декількох секунд); використання додаткових апаратних засобів тут не є доцільним економічно, відтворення режиму навчання здійснюється з допомогою персональної ЕОМ, а функціонування на ній же, або з допомогою будь-якого процесорного пристрою середньої складності;

- вимоги до навчання нейромережі залишаються попередніми, однак функціонування останньої повинно здійснюватися з мінімальними часовими затримками, що обумовлюються специфікою задачі, наприклад, для побудови інтелектуальних давачів або класифікаторів; навчання подібних нейромереж здійснюється з допомогою персональної ЕОМ, а відтворення функціонування на спеціальних обчислювачах, що реалізують граф обчислювального процесу,

Сторінки: 1 2

��
��...

Наступні 7 робіт по вашій темі:

▪ ВПЛИВ ОСНОВНИХ МЕДІАТОРНИХ СИСТЕМ ОРГАНІЗМУ НА ЕКСПРЕСІЮ ПОВЕРХНЕВИХ ГЛІКОПРОТЕЇДІВ ЛЕЙКОЦИТІВ - Автореферат - 24 Стр.
▪ Клiнiко-фармакологічне обгрунтування застосування нового ненаркотичного анальгетика анальбену ДЛЯ ЛІКУВАННЯ РЕВМАТОЇДНОГО АРТРИТУ ТА ДЕФОРМУЮЧОГО ОСТЕОАРТРОЗУ - Автореферат - 24 Стр.
▪ СОЦІАЛЬНИЙ ЗАХИСТ НАСЕЛЕННЯ В УМОВАХ РИНКОВОЇ ТРАНСФОРМАЦІЇ ЕКОНОМІКИ - Автореферат - 48 Стр.
▪ УКРАЇНСЬКА ІСТОРИЧНА ПРОЗА ДРУГОЇ ПОЛОВИНИ ХІХ СТ. (ІСТОРИЧНІ ДЖЕРЕЛА ТА ХУДОЖНІЙ ДИСКУРС) - Автореферат - 28 Стр.
▪ РОЗВИТОК ІСТОРИЧНОГО КРАЄЗНАВСТВА НА ПОЛТАВЩИНІ - Автореферат - 29 Стр.
▪ ОРГАНІЗАЦІЙНО-ЕКОНОМІЧНИЙ МЕХАНІЗМ ВІДТВОРЕННЯ ОСНОВНИХ ЗАСОБІВ В АПК - Автореферат - 26 Стр.
▪ АНОДНА ОБРОБКА ОЛОВ'ЯНИХ ПОКРИТТІВ В ЛУЖНИХ ЕЛЕКТРОЛІТАХ - Автореферат - 22 Стр.