У нас: 141825 рефератів
Щойно додані Реферати Тор 100
Скористайтеся пошуком, наприклад Реферат        Грубий пошук Точний пошук
Вхід в абонемент





Одеський національний політехнічний університет

Одеський національний політехнічний університет

ПОБЕРЕЖНИК Сергій Михайлович

УДК 681.3.016:519.272.11

автоматизація ПРОЦЕСІВ відтворення

функціональних залежностей в системах

інформаційної підтримки прийняття рішень

Спеціальність 05.13.06 – Автоматизовані системи управління

та прогресивні інформаційні технології

Автореферат

дисертації на здобуття наукового ступеня

кандидата технічних наук

Одеса – 2003

Дисертацією є рукопис.

Робота виконана в Одеському національному політехнічному університеті Міністерства освіти і науки України на кафедрі "Системне програмне забезпечення".

Науковий керівник: кандидат технічних наук, доцент Крісілов Віктор Анатолійович, завідувач кафедри "Системне програмне забезпечення" Одеського національного політехнічного університету.

Офіційні опоненти: доктор технічних наук, старший науковий співробітник Степашко Володимир Семенович, завідувач відділу "Інформаційні технології індуктивного моделювання" Міжнародного науково-навчального центру ЮНЕСКО інформаційних технологій і систем НАНУ та МОНУ;

кандидат технічних наук, доцент Савєльєва Оксана Степанівна, доцент кафедри нафтогазового та хімічного машинобудування Одеського національного політехнічного університету.

Провідна установа: Навчально-науковий комплекс "Інститут прикладного системного аналізу" Національного технічного університету "Київський політехнічний інститут" НАНУ та МОНУ, м. Київ.

Захист відбудеться "27" лютого 2003 року о 1330 на засіданні спеціалізованої вченої ради Д 41.052.01 Одеського національного політехнічного університету за адресою: 65044, м. Одеса, проспект Шевченка, 1, ауд. 400 - А.

З дисертацією можна ознайомитись у бібліотеці Одеського національного політехнічного університету за адресою: 65044, м. Одеса, проспект Шевченка, 1.

Автореферат розісланий "27" січня 2003 року.

Вчений секретар спеціалізованої

вченої ради Ямпольський Ю.С.

ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ

Актуальність теми. До систем підтримки прийняття рішень (СППР), спрямованих на розв'язання задач інтелектуального аналізу даних (IАД) в галузях, що лежать на межі природничонаукових та гуманітарних дисциплін, таких, як управління, бізнес, медицина, екологія, тощо, висувається низка специфічних вимог. З одного боку, СППР повинна бути досить гнучкою та універсальною, з огляду на різноманіття, різнорідність і слабку формалізацію процесів формулювання задач і формування множини чинників, які враховуються. З іншого боку, система повинна проектуватись з огляду на те, що потенційний користувач СППР, фахівець у своїй галузі з високою імовірністю не володітиме спеціальними знаннями з програмування експертних систем або побудови математичних моделей. Таким чином, синтез моделі об'єкту дослідження на всіх його етапах повинен проводитися системою максимально автономно, без втручання в цей процес ані експерта в даній галузі, ані фахівця з методів ІАД.

На сьогоднішній день практично відсутні засоби інтелектуального аналізу даних, які повною мірою відповідають даним вимогам. Це частково пов'язано з тим, що багато питань формалізації синтезу функціональних моделей і забезпечення необхідного рівня їхньої адаптивності та універсальності не вирішені на методологічному рівні. Актуальність цих досліджень і необхідність розробки досить гнучкого, автономного та універсального інструмента моделювання зумовила вибір теми роботи.

Зв'язок роботи з науковими програмами, планами, темами. Дисертація виконувалася відповідно до завдань НДР Одеського національного політехнічного університету № 329-73 "Розробка інформаційного та програмного забезпечення сучасних автоматизованих систем" (номер державної реєстрації 01000001400) та № 393-73 "Інформаційні системи в проектуванні та керуванні".

Мета і задачі дослідження. Мета дисертаційного дослідження полягає в підвищенні ефективності інформаційної підтримки прийняття рішень в широкому спектрі задач ІАД за рахунок автоматизації та прискорення в СППР процесів відтворення функціональних залежностей за вибірковими даними, підвищення їх вірогідності і функціональної гнучкості, а також за рахунок удосконалення комплексності та адаптивності СППР у напрямку динамічного розширення складу методів ІАД, які підтримуються системою.

Згідно з метою дослідження в роботі були розв'язані такі задачі:–

проаналізовано специфіку сучасної області застосування СППР і сформульовано перелік вимог до методу відтворення функціональних залежностей, розглянуто відомі підходи до розв'язання цієї задачі та обрано найбільш адекватний, визначені необхідні напрямки його розвитку;–

розроблено динамічну модель формування структури лінійної залежності та швидкий метод обчислення її параметрів при змінах складу незалежних чинників для підвищення рівня автоматизації структурного синтезу залежності;–

запропоновано підходи до автоматизованого розширення функціонального класу залежностей на базі адитивної композиції степеневих та тригонометричних багатовимірних рядів;–

розроблено методику врахування дискретних чинників в функціональних залежностях;–

розроблено СППР, яка забезпечує динамічне компонування складу типів IАД, які підтримуються системою;–

виконано практичну реалізацію одержаних в роботі результатів у програмному блоці автоматизованого відтворення функціональних залежностей, динамічно інтегрованому до складу розробленої СППР.

Об'єкт дослідження – функціональні залежності, зокрема, лінійні за параметрами, які відтворюються по вибіркових даних, а також структурні елементи системи інформаційної підтримки прийняття рішень.

Предмет дослідження – методи структурного і параметричного синтезу функціональних моделей, властивості і склад необхідних критеріїв та інші умови, яким має відповідати метод параметричного синтезу для реалізації алгоритмів побудови оптимальної структури залежності, а також принципи проектування структурно-розширюваної архітектури системи інформаційної підтримки прийняття рішень.

Методи дослідження. Для відтворення функціональних залежностей у класі квазілінійних функцій і оцінки якості одержаних функціональних моделей були використані методи теорії імовірностей, математичної статистики та регресійного аналізу. При розробці структури СППР використовувались методи об'єктно-орієнтованого моделювання інформаційних систем.

Наукова новизна одержаних результатів:–

дістав подальший розвиток рекурентний підхід до оцінювання коефіцієнтів лінійних залежностей в інформаційних системах ІАД; розроблений за його принципами редукційний метод відрізняється використанням коефіцієнтів проміжних лінійних моделей замість обчислення зворотної матриці нормальних рівнянь;–

удосконалено критерій інформаційної вагомості чинників лінійної залежності на базі оцінки їх взаємної множинної кореляції; метод обчислення коефіцієнтів множинної кореляції відрізняється використанням матриці редукційних коефіцієнтів замість побудови додаткових регресійних моделей;–

розроблено комплексну модель представлення структури квазілінійних залежностей в СППР, яка сполучує степеневі та тригонометричні багатовимірні ряди в єдиній залежності і одноманітно формалізує гнучке формування структури кожного з них на базі заданих структурних параметрів – максимальних рівнів входження чинників в структуру ряду, а також початкових значень та кроків приросту кратності чинників (степені – для степеневого ряду, частотного коефіцієнту – для тригонометричного ряду);–

побудовано структурну модель розширюваної СППР, яка формалізує взаємодію різноманітних типів ІАД з системою, користувачем, потоком даних для аналізу, відокремлює функції, властиві всім типам ІАД в загальні структурні елементи ядра системи та стандартизує розробку і динамічне включення в склад системи нових програмних блоків ІАД.

Практичне значення одержаних результатів.

Застосування розробленого редукційного методу обчислення параметрів лінійних залежностей дозволяє приблизно на 50 % прискорити розрахунок параметрів моделі при збільшенні її розмірності.

Розроблений метод швидкої оцінки множинної кореляції між незалежними чинниками лінійної моделі дозволяє застосувати запропонований критерій вагомості чинників в процесі вибору їх оптимального складу, що на практиці підвищує компактність та вірогідність моделей об'єктів дослідження, які автоматизовано відтворюються в СППР за вибірковими даними.

Використання розробленої моделі представлення структури квазілінійних залежностей дозволяє автоматизовано виявляти широке коло різноманітних складних закономірностей у фактичних даних, підвищити вірогідність та функціональну гнучкість залежностей, які відтворюються за вибірковими даними.

Використання розробленої структурної моделі розширюваної СППР дозволяє відповідно до специфіки конкретної задачі гнучко компонувати склад необхідних інструментальних засобів ІАД, скоротити часові витрати на розробку нових програмних блоків ІАД, підвищити надійність СППР та її прозорість для користувача.

За результатами дисертаційної роботи розроблено програмний продукт, який є оригінальним інструментом для розв'язання широкого спектру реальних задач інтелектуального аналізу даних. Цей програмний продукт, зокрема, був застосований для розв'язання таких практичних задач:

·

моделювання доходу промислових підприємств на базі вибірки по 20-ти підприємствах Одеської області за 3 роки функціонування (вірогідність одержаної моделі за критерієм множинного коефіцієнта кореляції склала 99 %, а якість прогнозування за критерієм крос-контролю – 93 %);

· дослідження тенденцій і прогнозування залишку на зовнішньому кореспондуючому рахунку банку "Південний" на базі вибірки спостережень за 1 рік і 7 місяців функціонування банку (адекватність моделі вибірковим даним – 73 %);

· моделювання соціально-економічних показників адміністративних районів Одеської області на базі вибірки по 26-ти об'єктах (адекватність моделі – 86 %);

· побудова моделі, що зв'язує головні параметри банку ДонбасЕнерго на базі вибірки щоденних вимірів показників за 7 місяців (адекватність моделі – 96 %).

Розроблений програмний продукт та методологічні розробки, викладені в дисертації, використані в навчальному процесі на кафедрі "Інформаційні системи в менеджменті" ОНПУ у дисципліні "Інформаційні системи маркетингу" і на кафедрі "Системне програмне забезпечення" ОНПУ в дисципліні "Засоби інтелектуальної обробки даних".

Особистий внесок здобувача полягає в аналізі існуючих, виборі та удосконаленні найбільш перспективних методів автоматизованого відтворення функціональних залежностей за вибірковими даними в СППР, формулюванні мети і задач виконання роботи. Автор розробив редукційний метод обчислення параметрів лінійних залежностей, сформулював новий підхід до оцінки інформаційної вагомості регресорів, спроектував структуру СППР, динамічно розширюваної щодо складу методів ІАД, створив програмну реалізацію СППР і блоку автоматизованого відтворення функціональних залежностей, брав участь в обробці та аналізі результатів практичного моделювання на базі створених програмних інструментів, формулюванні висновків і рекомендацій по роботі, виробничих випробуваннях та їхній оцінці.

Апробація результатів дисертації. Основні результати роботи доповідалися та обговорювалися на Міжнародній виставці-симпозіумі "Комп'ютер, банк, офіс" (Одеса, 1996), Сьомій міжнародній конференції "Information Processing and Management of Uncertainty in Knowledge-based Systems" (IPMU), (Париж, Франція, 1998), Другій міжнародній конференції з індуктивного моделювання (МКІМ), (Львів, 2002), а також на щорічних конференціях студентів і молодих дослідників ОНПУ (Одеса, 1996 – 1999).

Розроблена програмна система демонструвалася на III і IV Міжнародних виставках-симпозіумах EnterEx'95, EnterEx'96 "Сучасні інформаційні технології" (Київ 1995, 1996), Міжнародній виставці-симпозіумі "Комп'ютер, банк, офіс" (Одеса, 1996), Міжнародній виставці "CEBIT 2000" (Ганновер, Німеччина, 2000).

Публікації. Результати дисертації викладені в шести публікаціях, у тому числі – п'яти статтях в журналах зі списку фахових видань ВАК України, а також у матеріалах конференції.

Структура дисертації. Дисертація складається з вступу, чотирьох розділів, чотирьох додатків. Обсяг дисертації – 168 стор., додатків – 45 стор. Дисертація містить 53 рисунки, 30 таблиць (з них 25 рисунків та 15 таблиць – у додатках) та посилання до 122 літературних джерел.

ОСНОВНИЙ ЗМІСТ РОБОТИ

У вступі наведена загальна характеристика роботи, яка підкреслює її актуальність, відповідність державним науковим програмам, наукову новизну та практичне значення; визначено об'єкт та предмет дослідження, сформульована його мета та задачі.

У першому розділі дано формальну постановку задачі відтворення залежностей за вибірковими даними. Запропоновано оригінальну класифікацію задач ІАД, яка показує місце задачі відтворення залежностей у загальному переліку задач ІАД і намічає напрямки інтеграції методів рішення окремих задач. На цій базі, з урахуванням вимог до систем оперативної аналітичної обробки даних, сформульованих Коддом, було розроблено сукупність вимог до автоматизованих систем, які реалізують методи ІАД.

1. Автономність – максимально повна автоматизація рутинних операцій на робочих етапах процесу побудови моделі. Участь експерта можлива лише на початковому етапі постановки задачі, але експерт не повинен виступати в ролі необхідного елемента в процесі формування оптимальної структури та параметрів моделі.

2. Універсальність – незалежність методу побудови моделі від специфіки об'єкта моделювання.

3. Вибірковість – здатність автоматично відокремлювати з великої кількості чинників невідомої вагомості лише базові, які описують природу явища без істотної втрати вірогідності моделі.

4. Здатність врахування якісних і слабко формалізованих параметрів, які описані, наприклад, переліком можливих значень або виражені у відсотках відповідності до деякого еталону.

Проаналізовано підходи до формалізації структурного синтезу функціональної залежності та сформульовано сукупність вимог, яким має відповідати базовий метод параметричного синтезу для автоматизації побудови структури залежності:–

наявність кількісної оцінки оптимальності структури залежності і, якщо можливо, найменша трудомісткість її обчислення;–

можливість локалізації одного або обмеженої кількості варіантів структури – кандидатів на наступну перевірку в процесі перебору; виконання цієї умови і додає упорядкованість переборному процесу структурної оптимізації;–

прийнятна трудомісткість параметричного синтезу моделі для забезпечення принципової можливості структурної оптимізації залежності шляхом цілеспрямованого перебору її варіантів, на кожному кроці якого відбувається обчислення параметрів.

З позицій сформульованих вимог розглянуті і проаналізовані найбільш відомі методи відтворення залежностей за вибірковими даними, такі, як лінійна і квазілінійна регресія, група сплайн-методів, методи нейромережевого моделювання. За результатами аналізу особливостей автоматизованого синтезу залежностей був зроблений висновок, що метод відтворення лінійної за параметрами регресії є найбільш адекватним сформульованим вимогам, а також визначені необхідні напрямки його розвитку:–

врахування динамічності складу чинників при параметричному синтезі;–

формулювання критерію оцінки вагомості чинників у моделі, що враховує ступінь їхньої лінійної незалежності;–

розробка технології врахування якісних чинників у моделі;–

підвищення функціональної адаптивності залежностей.

У другому розділі представлена методологічна база, яка дозволяє розвинути лінійно-регресійний підхід у напрямку автоматизації структурного синтезу та автоматизованого підвищення функціональної адаптивності залежностей.

Редукційний метод прискореного обчислення параметрів лінійної регресії при змінах складу чинників. Однією з головних проблем автоматизації структурного синтезу лінійних залежностей є високий рівень трудомісткості переобчислення параметрів лінійної залежності при змінах у складі регресорів. Алгоритми пошуку оптимального складу регресорів виконують послідовне включення або виключення незалежних чинників з обчисленням нових параметрів моделі на кожному кроці переборного процесу (метод групового урахування аргументів, метод структурної мінімізації ризику, метод покрокової регресії, тощо). Одним з найшвидших сучасних методів обчислення коефіцієнтів регресії при включенні додаткового регресора або виключенні одного з наявних в моделі є метод рекурентного оцінювання коефіцієнтів.

Хай є лінійна модель розмірністю m чинників:

,

де y – залежний чинник; X=(X1, X2,…, Xm) – множина незалежних чинників; a(m) – вектор коефіцієнтів регресії лінійної залежності.

Використання методу найменших квадратів дає таку систему рівнянь, рішенням якої є коефіцієнти регресії

Wm Ч a(m) = Vm, (1)

де Wm та Vm – коефіцієнти системи, що обчислюються за формулами:

, , " i, j = [1, m] ,

n – кількість об'єктів у навчальній вибірці; yt та (xt1, xt2,…,xt,m-1) – значення залежного чинника та вектора незалежних чинників для t-спостерігання вибірки.

Хай в модель тепер необхідно додатково ввести новий чинник Xm+1, підвищивши тим самим її розмірність до величини m+1. Базові співвідношення рекурентного методу для обчислення нових коефіцієнтів з деякими модифікаціями та використанням прийнятих позначень можна записати наступним чином:

; (2)

, " j = [1, m], (3)

де – новий коефіцієнт регресії при додатково введеному чиннику Xm+1; – кореговані коефіцієнти при "старих" чинниках; , "j=[1, m] – допоміжні коефіцієнти, які обчислюються в базовому методі за зворотною матрицею (Wm)-1 системи нормальних рівнянь (1). Корегована зворотна матриця обчислюється за допомогою методу блочної декомпозиції.

Аналіз показав, що оцінка кількості обчислювань за рекурентним методом з розрахунком зворотної матриці становить Tрек = 1,5m2 + 3,5m елементарних алгебраїчних дій – операторних блоків алгоритму.

На відміну від базового рекурентного методу, процес обчислювань пропонується будувати на використанні фізичного сенсу допоміжних коефіцієнтів b, виключивши розрахунок зворотної матриці. В роботі встановлено, що вектор b містить коефіцієнти регресії для лінійної моделі, яка зв'язує новий регресор Xm+1 з попередніми незалежними чинниками:

. (4)

При цьому новий чинник Xm+1, по суті, піддається редукції, виражається через попередні чинники моделі. Тому запропонований в роботі метод здобув назву редукційного методу, а коефіцієнти b – редукційних коефіцієнтів.

Далі, оскільки додаткова модель (4) є також лінійною регресією, для її декомпозиції можливо вдруге скористатися рекурентними співвідношеннями (2) і (3). При цьому редукції піддасться попередній чинник Xm, а невідомі коефіцієнти b(m) будуть виражені, у свою чергу, через коефіцієнти лінійних моделей Xm+1=F(X1,X2,...,Xm-1) та Xm=F(X1,X2,...,Xm-1) попереднього рівня розмірності. Редукція триватиме, доки процес не досягне моделі Xm+1=F(X1) розмірністю в один незалежний чинник, коефіцієнт при якому визначатиметься за формулою

.

Алгоритмізація описаної ідеї потребує введення додаткової матриці даних та певного порядку збереження в ній редукційних коефіцієнтів. Позначимо цю матрицю як B і будемо далі називати її матрицею редукційних коефіцієнтів. Тоді на кожному кроці після включення чергового чиннику Xi до моделі обчислені коефіцієнти лінійної залежності Xi=F(X1,X2,…,Xi-1) будемо зберігати у черговому рядку матриці B. З матрицею B, заповненою редукційними коефіцієнтами для попередніх регресорів, і працює розроблений алгоритм розрахунку редукційних коефіцієнтів для додаткового регресора, введеного до моделі. Алгоритм базується на рекурентних співвідношеннях для редукційних коефіцієнтів, виведених з (2) та (3).

, " i=[1, m]; (5)

, " i=[1, m], j=[1, i-1] . (6)

Одноразове використання (5) та (6) формує вектор bm+1, i коефіцієнтів лінійної залежності Xm+1=F(X1,…,Xi). Циклічне використання (5) та (6) для i=[1, m] дає змогу обчислити bm+1, m – лінійні коефіцієнти для Xm+1=F(X1,…,Xm), які використовуються для отримання коефіцієнтів регресії нової моделі Y=F(X1,…,Xm+1) за відомими рекурентними формулами (2) і (3).

Схема редукційної декомпозиції та структура обчислень наведені на рис. 1.

Рис. 1. Процес редукційної декомпозиції задачі обчислення коефіцієнтів

моделі Y=F(X1,X2,...,Xm+1) при включенні додаткового чинника Xm+1

Підсумкова трудомісткість розрахунку регресійних коефіцієнтів при включенні додаткового чинника за редукційним методом становить Tред = m2 + 3m елементарних алгебраїчних дій. Це приблизно у 1,5 рази менше, ніж з використанням методу блочної декомпозиції для обчислення зворотної матриці (рис. 2).

Зниження кількості обчислювань в редукційному методі пояснюється використанням матриці редукційних коефіцієнтів – більш специфічної та агрегованої інформації у порівнянні зі зворотною матрицею системи нормальних рівнянь. Однак в цьому містяться і деякі труднощі при виключенні регресорів. Виражаючи з рекурентного співвідношення (3) попередні коефіцієнти через наступні, з моделі можна виключити лише крайній незалежний чинник Xm+1. Для виключення будь-якого попереднього чиннику для редукційного підходу розроблено спеціальний алгоритм “транспортування” редукційних коефіцієнтів по цьому чиннику в останній рядок матриці B. Цей алгоритм реалізує послідовні парні перестановки поточного чинника з його "попереднім сусідом" для матриці редукційних коефіцієнтів на базі співвідношень (5) і (6). Процедура виключення регресорів в редукційному методі потребує приблизно в 1,5 рази більше обчислювань ніж при використанні зворотної матриці. Однак в більшості алгоритмів підбору оптимального складу чинників виключення регресорів використовується рідше аніж включення, або не використовується зовсім, як, наприклад, у селекційно-комбінаторному алгоритмі. Тому застосування розробленого редукційного методу доцільне саме в подібних алгоритмах і дозволяє знизити підсумковий об'єм обчислювань автоматизованого структурного синтезу залежності.

Рис. 2. Залежність кількості операцій обчислення регресійних коефіцієнтів від розмірності моделі

Критерій вагомості чинників лінійної залежності. До переваг розробленого редукційного підходу можна також віднести здатність без високих обчислювальних витрат кількісно оцінити множинну лінійну незалежність регресорів, яка є незамінним критерієм вагомості чинників в моделі. Так, в якості проміжних даних використовуються коефіцієнти регресійної залежності кожного з чинників від інших незалежних чинників моделі (редукційні коефіцієнти – матриця B). Ці дані є головною передумовою в оцінці множинної кореляції. Отже, на базі редукційної інформації виведене співвідношення для множинного коефіцієнта кореляції чиннику Xm:

. (7)

Для редукційних структур даних розроблено також метод швидкого обчислення критерію оптимальності структури залежності за методом крос-контролю.

Редукційний метод дозволяє прискорити відтворення лінійної регресії. Однак це не вирішує задачу автоматизованого виявлення більш складних закономірностей, які не укладаються у межі звичайних лінійних залежностей.

Модель представлення структури багатовимірних адитивних функціональних рядів. Відомі підходи, в яких пропонується сполучити різнорідні (степеневі та тригонометричні) одночлени в єдиній залежності, а також використовувати дробові і негативні показники степені первинних чинників у поліноміальних одночленах. Автоматизація цих методик вимагає формалізації процесів синтезу складу членів адитивного ряду та одноманітного підходу до генерації структури як степеневого, так і тригонометричного ряду.

В дисертаційній роботі розроблено комплексну модель представлення структури адитивних рядів, яка дозволяє одноманітно і формалізовано описувати структуру ряду і цілеспрямовано формувати склад його членів, незважаючи на конкретну функціональну природу адитивного ряду.

Структура ряду в запропонованій моделі задається матрицею структурних коефіцієнтів R.

x1 x2 … xm

R = r11 r12 … r1m

r21 r22 … r2m

… … … …

rl1 rl2 … rlm

Структурний коефіцієнт rkj будемо називати кратністю чиннику xj у k-члені ряду. Підсумкову кратність первинних чинників в члені ряду (вторинному чинникові) назвемо кратністю даного члена ряду. –

кратність k-члена ряду.

Так, наприклад, деякий k-член багатовимірного степеневого ряду формується за k-рядком матриці R наступним чином:

.

Для гармонійного багатовимірного ряду k-рядок матриці R задаватиме вигляд двох вторинних чинників – членів ряду:

– синусна частина k-гармоніки;

– косинусна частина k-гармоніки,

де wj – частота чинника Xj, а rkj – частотний коефіцієнт Xj у k-гармоніці.

Далі був сформульований емпіричний принцип неперервності формування структури адитивного функціонального ряду, який забезпечує найменшу складність ряду при збереженні його апроксимуючої можливості.

Новий член, в якому чинник Xj має кратність r, може бути включеним до ряду, якщо вже є члени ряду, в яких цей чинник присутній з кратністю r-1.

На базі цього принципу розроблений економічний алгоритм генерації структури ряду, який дозволяє окремо задавати максимальну кратність по кожному з первинних чинників. Параметром алгоритму є вектор рівнів кратності для кожного з первинних чинників (u1,u2,…,um). Алгоритм формує матрицю R, для якої:

, "j=1,m.

Породження нових членів ряду з членів, які вже присутні в структурі, реалізується підвищенням на 1 кратності первинних чинників (рис. 3). Такий підхід, з одного боку, гарантує виконання сформульованого принципу неперервності ряду, а з іншого – дозволяє зупинити процес породження нових членів, коли по деякому чиннику досягнуто встановленого максимального рівня кратності. Для усунення ефекту дублювання членів ряду, позначеного пунктиром на рисунку, в розробленому алгоритмі передбачені спеціальні засоби – динамічні межі нарощування кратності по різних гілках дерева породження членів ряду, які не знижують швидкодію алгоритму.

Рис. 3. Породження членів ряду нарощуванням кратностей чинників

Для підвищення функціональної гнучкості залежностей запропонована та емпірично обґрунтована ідея зміщення початкового рівня та кроку приросту кратності ряду в область значень менше одиниці. Це означає, що структура ряду буде додатково характеризуватись таким переліком параметрів:

R0 = (r01, r02, …, r0m) – вектор початкових кратностей для X1, X2, …, Xm;

DR = (dr1, dr2, …, drm) – вектор кроків прирощування кратності окремо по кожному з X1, X2, …, Xm.

Елементами обох векторів, в загальному випадку, можуть бути негативні та дробові числа. Із врахуванням цих параметрів, результуюча кратність чинника Xj в k-члені ряду визначатиметься за формулою:

r*kj = r0j + rkj Ч drj, " j=1…m, k=1…l.

Приклад застосування нових можливостей автоматизованого управління структурними параметрами рядів наведено на рис. 4.

Рис. 4. Приклад апроксимації даних

сполученням зміщених степеневого та тригонометричного рядів

Застосування зміщеного степеневого ряду дозволяє пояснити загальну тенденцію зростання з уповільненням темпу змін, а введення тригонометричного ряду дає можливість апроксимації періодичних змін. Таким чином, з'являється можливість автоматизованого відтворення залежності, виду

,

графічно наведеної на рис. 4.

В якості ще одного прикладу використання зміщених структурних параметрів ряду наведемо фрагмент одновимірного степеневого ряду з початковою кратністю чинника X, рівною –0,5 та кроком приросту кратності 0,5:

,

структура якого може бути одержана при автоматизованому моделюванні.

Врахування дискретних чинників. Запропоновано також підхід до перетворення значень якісних чинників у кількісну форму, який реалізує чисельне кодування вимірювань дискретного чинника. Це дозволило враховувати такі параметри як незалежні чинники моделі, а також здійснювати класифікацію методами відтворення неперервних функцій, коли дискретним є залежний чинник.

У третьому розділі наведено загальну архітектуру розширюваної СППР (рис. 5), яка дозволяє динамічно інтегрувати програмні блоки різних типів ІАД.

Така архітектура, зокрема, була використана для розробки реальної СППР Expek та інтеграції у її склад блоку автоматизованого відтворення функціональних залежностей, який реалізує методологічні розробки другого розділу.

Архітектура СППР повинна передбачати можливість розв'язання довільного і заздалегідь не фіксованого переліку задач інтелектуальної обробки даних. Різні задачі ІАД істотно відрізняються методологічно. Однак загальною рисою усіх подібних методів є орієнтація на аналіз деяких зовнішніх даних. У зв'язку з цим, запропоновано поняття джерела вибіркових даних. Цей структурний елемент повинен витягти дані з зовнішнього сховища і подати їх у формі, придатній до аналізу будь-яким з методів ІАД.

Рис. 5. Загальна архітектура розширюваної СППР

Таким чином, розширювана СППР складається з таких підсистем:–

підсистема управління даними (її інтерфейс у складі Expek реалізовано у вигляді програмного компонента "Менеджер джерел даних"); –

підсистема управління конкретними задачами, які розв'язуються системою, і типами інтелектуального аналізу даних (реалізована у вигляді програмного компонента "Менеджер проектів");–

нефіксований склад програмних блоків ІАД, кожний з який реалізує певний тип аналізу даних і контролює відповідну підмножину задач.

Джерело вибіркових даних виконує ряд функцій з витягу, перетворення та інтерпретації даних. Його загальна схема подана на рис. 6.

Головними функціями джерела вибіркових даних є.

1. Витяг даних із групи зв'язаних по ключових полях зовнішніх таблиць – реалізована за допомогою SQL-запиту.

2. Попереднє перетворення даних, яке не може бути реалізовано в SQL-запиті. Типові приклади такого роду перетворень – метод вікон при аналізі часових рядів, виділення першої і другої похідних з часового ряду, зміщення по записах початкової таблиці для врахування стратифікації даних.

3. Логічна інтерпретація полів таблиць. Цей блок повинний здійснити перехід від фізичного типу даних (строкове, ціле, дійсне) до логічного типу властивостей об'єктів аналізу для методів ІАД.

Властивості об'єктів аналізу розподіляються по таких логічних типах:–

реєстраційний тип – властивість, яка ідентифікує об'єкти вибірки;–

перелічуваний тип – фіксований набір дискретних градацій; –

чисельний тип – дійсне число з указівкою можливих меж.

Рис. 6. Структура джерела вибіркових даних розширюваної СППР

Фізичний тип поля зовнішньої таблиці, у загальному випадку, ніяк не впливає на логічний тип відповідної властивості об'єкта. Наприклад, властивість "колір" може зберігатися в зовнішній базі як у вигляді формулювань ("червоний", "синій", "зелений"), так і у вигляді кодованих значень (1, 2, 3). Співвіднесення формулювань до відповідних кодів – також функція джерела вибіркових даних.

У четвертому розділі представлений опис програмного блоку автоматизованого відтворення функціональних залежностей за вибірковими даними.

У складі блоку реалізований ряд режимів відповідно до етапів настроювання регресійної моделі:

·

режим формування вторинних чинників – дозволяє сформувати склад степеневого і тригонометричного рядів, які використовуються для апроксимації вибіркових даних; реалізовані як ручне визначення виду членів функціональних рядів, так і автоматизований режим формування структури неповного ряду по заданих максимальних рівнях входження базових чинників;

· режим кореляційного аналізу – розраховує і демонструє первинні статистичні характеристики чинників моделі;

· режим регресійного аналізу – дозволяє вибрати залежний чинник і побудувати регресійну модель; реалізовано автоматичні процедури побудови моделі на базі розроблених в роботі методів;

· режим прогнозування – призначений для використання відтвореної залежності для прогнозування поводження об'єкту моделювання; реалізовані засоби ручного моделювання ситуації, верифікації вибіркових даних і робоче моделювання за зовнішніми даними; є також розвинені засоби графічної візуалізації побудованої залежності і результатів прогнозування.

Реалізовано автоматизований режим послідовної побудови моделі, який крок за кроком веде користувача по всіх етапах настроювання моделі і дає можливість втручання у ключові моменти роботи автоматичних процедур.

Опис застосування програмного блоку показує порядок користування, можливості математичного апарату та створеного інтерфейсу при розв'язанні кількох практичних задач моделювання.

Прогнозування доходу промислового підприємства. Модель будували в автоматичному режимі. До її складу увійшли такі економічні показники, що описують функціонування підприємства, як об'єм основних фондів, оборотні кошти, масштаб підприємства, тощо. Ступінь наближення моделі до фактичних даних склала 99,85 %, середня помилка прогнозування склала 2,18 % від повної варіації залежного чинника (доходів підприємства). Повний час побудови моделі з використанням автоматизованого режиму склав 40 секунд.

Прогнозування залишку на кореспондуючому банківському рахунку. Прогнозуюча модель була побудована із двох складових: модифікованого степеневого та гармонійного рядів. Вірогідність одержаної моделі 73 %. Час побудови моделі склав, приблизно, 1 хвилину.

ВИСНОВКИ

1. За результатами аналізу відомих методів відтворення залежностей по вибіркових даних з урахуванням сформульованих вимог до можливості методу автоматизувати синтез структури залежності в сучасній СППР був обраний в якості найбільш перспективного математичний апарат відтворення лінійної за параметрами регресії.

2. Розроблено редукційний метод прискореного розрахунку параметрів лінійної залежності при змінах у складі регресорів. Метод розвиває ідеї рекурентного оцінювання коефіцієнтів і відрізняється використанням замість зворотної матриці нормальних рівнянь більш агрегованої та специфічної регресійної інформації – коефіцієнтів лінійних моделей, які зв'язують чинники із регресорами, уведеними до моделі раніше. Це дозволяє приблизно на 50 % прискорити розрахунок параметрів моделі при збільшенні її розмірності. При виключенні регресорів розроблений метод на 50 % повільніше ніж відомі рекурентні процедури. Однак в більшості алгоритмів пошуку оптимального складу чинників операція виключення регресорів використовується рідше, ніж включення, або не використовується зовсім, як, наприклад, у селекційно-комбінаторному алгоритмі. Застосування редукційного методу в таких алгоритмах дозволяє підвищити продуктивність автоматизованого синтезу залежностей за вибірковими даними.

3. На основі редукційної інформації розроблено критерій оцінки вагомості чинників у лінійній моделі, який враховує ступінь їхньої множинної лінійної незалежності, що є більш адекватною оцінкою вагомості чинників в процесі структурної оптимізації моделі, ніж критерії, які звичайно застосовуються для вирішення цієї задачі. Використання розробленого критерію підвищує на практиці компактність та вірогідність залежностей, які автоматизовано відтворюються в СППР за вибірковими даними.

4. Розроблено модель представлення структури багатовимірних адитивних функціональних рядів в СППР, яка формалізує управління структурними параметрами рядів і дозволяє автоматизувати розширення функціонального класу лінійних залежностей на базі сполучення степеневих та тригонометричних рядів. Застосування розробленої моделі в СППР дозволяє автоматизовано виявляти більш складні закономірності, характерні для багатьох реальних задач ІАД.

5. Розроблено інформаційну технологію врахування дискретних чинників в лінійно-регресійній моделі на базі кодування дискретних значень чинника неперервними числами. Розроблена технологія, зокрема, забезпечує розв'язання задач класифікації, якщо дискретним параметром є залежний чинник.

6. Розроблено структурну модель розширюваної системи ІАД та здійснено програмну реалізацію комплексної СППР, динамічної щодо складу вирішуваних задач, яка відповідає сформульованим вимогам до сучасної системи інформаційної підтримки прийняття рішень. Редукційний метод та інші методологічні розробки дисертаційної роботи реалізовано в програмному блоці автоматизованого відтворення залежностей, інтегрованому до складу розробленої СППР.

7. Розроблені програмні засоби було застосовано для розв'язання кількох практичних задач моделювання:

·

моделювання доходу промислових підприємств на базі вибірки по 20-ти підприємствах Одеської області за 3 роки функціонування (вірогідність одержаної моделі за критерієм множинного коефіцієнта кореляції склала 99 %, а якість прогнозування за критерієм крос-контролю 93 %);

· дослідження тенденцій і прогнозування залишку на зовнішньому кореспондуючому рахунку банку "Південний" за вибіркою спостережень за 1 рік і 7 місяців функціонування банку (адекватність моделі вибірковим даним – 73 %);

· моделювання соціально-економічних показників районів Одеської області на базі вибірки по 26-ти об'єктах (вірогідність моделі – 86 %);–

побудова моделі, що зв'язує головні параметри банку ДонбасЕнерго на базі вибірки щоденних вимірів показників за 7 місяців (адекватність моделі вибірковим даним – 96 %).

Усі моделі було сконструйовано в автоматизованому режимі синтезу структури прогнозуючої функції. Часові витрати на конструювання моделей склали від 40 секунд до 1,5 хвилин на комп'ютері Intel Pentium 133 МГц / 64 Мб.

Одержані в роботі методологічні розробки і програмні засоби впроваджені в навчальний процес.

СПИСОК ОПУБЛІКОВАНИХ праць За ТЕМою ДИСЕРТАЦІЇ

1. Крисилов В.А., Побережник С.М., Тарасенко Р.А. Сравнительный анализ моделей представления знаний в интеллектуальных системах // Труды Одесского политехнического университета. – 1998. – Вып. 2. – С. 45 – 49.

2. Крисилов В.А., Антонов А.А, Побережник С.М. Проблема автоматизации построения модели предметной области в задачах искусственного интеллекта // Труды Одесского политехнического университета. – 1999. – Вып. 3. – С. 119 – 123.

3. Крисилов В.А., Побережник С.М. Редукционный метод построения регрессии в условиях изменяющегося состава факторов // Труды Одесского политехнического университета. – 2001. – Вып. 2. – С. 105 – 110.

4. Крисилов В.А., Побережник С.М. Средства обеспечения динамичности архитектуры системы информационной поддержки принятия решений // Праці Міжнар. конф. з індуктивного моделювання (МКІМ–2002). – Т. 3. – Львів: Державний НДІ інформаційної інфраструктури. – 2002. – С. 64 – 69.

5. Крисилов В.А., Побережник С.М. Ускорение параметрического синтеза линейной регрессии на основе редукционного оценивания коэффициентов // Реєстрація, зберігання і обробка даних. – 2002. – Т. 4. – №. 3. – С. 62 – 68.

6. Крисилов В.А., Побережник С.М. Механизмы расширения состава блоков интеллектуального анализа данных в СППР // Праці УНДІРТ. – 2002. – №. 2. – С. 53 – 59.

Побережник С.М. Автоматизація процесів відтворення функціональних залежностей в системах інформаційної підтримки прийняття рішень. – Рукопис.

Дисертація на здобуття наукового ступеня кандидата технічних наук за спеціальністю 05.13.06 – Автоматизовані системи управління та прогресивні інформаційні технології – Одеський національний політехнічний університет, Одеса, 2003.

Запропонована редукційна модель відтворення лінійно-регресійних залежностей, метод її швидкого параметричного синтезу в процесі структурних змін, що дозволяє суттєво знизити рівень трудомісткості і дозволяє підвищити рівень автоматизації синтезу оптимальної структури залежності. Запропоновано засоби автоматизованого підвищення функціональної адаптивності лінійних моделей на базі застосування модифікованих степеневих та тригонометричних функціональних рядів. Розроблена загальна архітектура розширюваної системи підтримки прийняття рішень, яка дозволяє динамічно інтегрувати до її складу програмні блоки різних типів інтелектуальної обробки даних. Створено програмну реалізацію комплексної СППР і блоку автоматизованого відтворення функціональних залежностей, динамічно інтегрованого до складу розробленої системи, за допомогою яких розв'язано кілько практичних задач моделювання. Вірогідність автоматично відтворених залежностей в розв'язаних задачах – від 73 % до 99,85 %, а часові витрати на конструювання моделей склали від 40 секунд до 1,5 хвилин.

Ключові слова: лінійно-регресійний аналіз, степеневий ряд, тригонометричний ряд, інтелектуальний аналіз даних, підтримка прийняття рішень.

Poberezhnik S.M. Automation of dependencies reconstructing in systems of information decision-making support. – Manuscript.

Thesis for a candidate's degree by speciality 05.13.06 – automated control systems and progressive information technologies. – Odessa national polytechnic university. Odessa, 2003.

The reduction model and based on it, fast method of linear regression parametric synthesis in restructuring process are proposed. It allows essentially decrease amount of calculations and improves the automation of optimal model constructing. A new approach to increasing potential dependencies authenticity by extension the functional flexibility of linear model is proposed. This approach based on combination of modified power and trigonometric functional series. General architecture of distensible data mining system was designed. It provides dynamic integration of new data mining modules into the system. The software realization of complex data mining system and the automated regression module, dynamically integrated into the system, was developed. Some practical modeling tasks was decided using developed software. The Reliability of automatic constructed dependencies in decided tasks is 73 % – 99,85 % and the constructing durations are between 40 seconds and 1.5 minutes.

Key words: linear regression analysis, power series, trigonometric series, data mining, decision-making support.

Побережник С.М. Автоматизация процессов восстановления функциональных зависимостей в системах информационной поддержки принятия решений. – Рукопись.

Диссертация на соискание ученой степени кандидата технических наук по специальности 05.13.06 – Автоматизированные системы управления и прогрессивные информационные технологии – Одесский национальный политехнический университет, Одесса, 2003.

На сегодняшний день ощущается недостаток гибких программных средств информационной поддержки принятия решений, позволяющих в рамках широкого круга предметных областей автоматизировать интеллектуальный анализ данных и выявление количественных закономерностей. Существующие системы либо специализированы и жестко настроены на решение узкого круга конкретных задач (экспертные системы на базе фактов и правил, специализированные нейронные сети), либо являются набором математического инструментария, предполагающего участие специалистов высокой квалификации в настройке и эксплуатации системы, либо требуют достаточно больших вычислительных мощностей и не меньших временных затрат, что делает невозможным их применение на персональных ЭВМ.

Отсутствие адаптивного программного инструмента автоматизированного моделирования, гибко настраиваемого на решение широкого круга задач восстановления функциональных зависимостей, и обусловило выбор темы исследований. В работе представлен ряд разработок, представляющих элементы методологической и реализационной новизны, позволивших в итоге создать такой инструмент.

Предложена редукционная модель восстановления линейной зависимости, на основе которой разработан метод быстрого расчета ее параметров при изменении структуры – состава независимых факторов. Он позволяет приблизительно на 50 % снизить трудоемкость параметрического синтеза зависимости и ускорить работу алгоритмов подбора оптимального состава регрессоров.

На основе редукционной информации разработан критерий оценки значимости отдельных факторов в модели, учитывающий степень их линейной независимости. Разработанный критерий более адекватен специфике автоматизированного структурного синтеза линейной зависимости, нежели критерий Стьюдента.

Разработана технология учета качественных факторов в линейно-регрессионной модели. Ее применение обеспечивает, в частности, решение задач классификации на базе метода восстановления регрессии, в том случае, если дискретным является зависимый фактор.

Для повышения потенциальной достоверности и гибкости восстанавливаемых зависимостей предложена модель представления структуры квазилинейной зависимости, основанная на сочетании многомерных степенных и гармонических рядов, позволяющая автоматизировать управление уровнем


Сторінки: 1 2