У нас: 141825 рефератів
Щойно додані Реферати Тор 100
Скористайтеся пошуком, наприклад Реферат        Грубий пошук Точний пошук
Вхід в абонемент





Моделювання системи інтелектуального аналізу даних на основі реляц ійних баз даних Національний університет “Львівська політехніка”

Кравець Руслан Богданович

УДК 51.001.57+004.652.4+004.852

Моделювання системи інтелектуального аналізу даних на основі реляційних баз даних

01.05.02 – математичне моделювання та обчислювальні методи

Автореферат дисертації на здобуття наукового ступеня

кандидата технічних наук

Дисертацією є рукопис.

Робота виконана в Національному університеті “Львівська політехніка”,

Міністерство освіти і науки України

Науковий керівник - | доктор технічних наук, доцент

Пасічник Володимир Володимирович,

Національний університет “Львівська політехніка”,

завідувач кафедри “Інформаційні системи та мережі”

Офіційні опоненти - | доктор фізико-математичних наук, професор

Кожевнікова Галина Павлівна,

професор Всеросійського заочного

фінансово-економічного інституту

доктор технічних наук, професор

Соловйова Катерина Олександрівна,

Харківський національний університет радіоелектроніки,

професор кафедри програмного забезпечення ЕОМ, завідувач науково-учбової лабораторії Придбання знань

Провідна установа - | Державний науково-дослідний інститут інформаційної інфраструктури Державного комітету зв’язку та інформатизації і НАН України (м. Львів)

Захист відбудеться 7 березня 2003 р. о 16 год. на засіданні спеціалізованої вченої ради Д 35.052.05 у Національному університеті “Львівська політехніка” (79013, м. Львів, вул. С.Бандери, 12)

З дисертацією можна ознайомитись у науково-технічній бібліотеці Національного університету “Львівська політехніка” (79013, м. Львів, вул. Професорська, 1)

Автореферат розісланий 6 лютого 2003 р.

Вчений секретар спеціалізованої вченої ради,

доктор технічних наук, професор Федасюк Д.В.

ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ

Актуальність теми. На сучасному етапі розвитку програмного та апаратного забезпечення комп’ютерних систем стало можливим накопичувати великі об’єми інформації. Це спричинило появу нової концепції збереження корпоративних даних, яку у 1992 році запропонував W.Inmon, а саме – сховища даних. Як зауважив N.Raden, “багато підприємств створили чудові сховища даних, ідеально розклавши по поличках гори інформації, яка не використовується і сама по собі не забезпечує ні швидкої, ні достатньо грамотної реакції на ринкові події”. У зв’язку з цим виникає необхідність створення новітніх методів та засобів інтелектуального опрацювання інформації, що зберігається в сховищах даних інформаційних систем, які б дозволяли людині поповнювати свої знання про предметну область. У свою чергу великої актуальності набуває подальший розвиток технологій побудови інтелектуальних систем підтримки прийняття рішень, які б поєднували у собі як наявні методи опрацювання інформації, так і ті, що розроблюються, і виконували б функцію інформаційного забезпечення процесів прийняття керівних рішень, використовуючи при цьому усі доступні дані та знання про предметну область.

Для багатьох інтелектуальних систем підтримки прийняття рішень важливою компонентою є система інтелектуального аналізу даних, функція якої полягає у пошукові закономірностей на великій зростаючій множині даних, що зберігаються в сховищі даних, та у допомозі людині при формуванні знань про предметну область на основі віднайдених закономірностей. Зазначимо, що на сьогодні для інтелектуального аналізу даних пропонується використовувати достатньо широкий спектр методів, великий вклад у розроблення та дослідження яких внесли вчені С.А.Айвазян, В.П.Гладун, М.Г.Загоруйко, А.Г.Івахненко, Г.С.Лбов, Б.Г.Міркін, R.Agrawal, R.J.Bayardo, W.Buntine, U.M.Fayyad, J.Han, D.Heckerman, H.Mannila, G.Piatetsky-Shapiro, J.R.Quinlan, R.Srikant, H.Toivonen та ін. Частина цих методів спеціально розроблялася для вирішення окремих підзадач інтелектуального аналізу даних (пошук асоціацій та послідовностей, побудова дерев рішень та індукція правил). У той же час інші були розроблені поза контекстом баз даних та інформаційних систем (баєсівські методи, нейронні мережі, методи міркування на основі аналогій, генетичні алгоритми, методи нечіткої логіки, методи прикладного статистичного аналізу тощо). Це призвело до певної розрізненості у пропонованих підходах.

Подальші дослідження за цією проблематикою автор вбачає у виробленні єдиної методики розв’язання задачі інтелектуального аналізу даних, як пошуку значущих закономірностей у даних, та побудові на основі цієї методики моделі системи інтелектуального аналізу даних, яка дозволяє реалізувати процес пошуку.

Основою для розв’язання поставленої у дисертації задачі стали теорія реляційних баз даних, яка створювалась та формувалась такими вченими як C.J.Date, E.F.Codd, D.Maier, А.А.Стогній, М.Ш.Цаленко, а також багатовимірний підхід до аналітичного опрацювання інформації, ідею якого у 1993 році висунув E.F.Codd, та інформаційно-статистичний підхід до виявлення значущих закономірностей, теоретичні основи якого сформував S.Kullback.

Зв’язок роботи з науковими програмами, планами, темами. Робота виконана в рамках пріоритетного наукового напрямку Міністерства освіти і науки України “Перспективні інформаційні технології, прилади комплексної автоматизації, системи зв’язку” по темах: “Дослідження процесів проектування розподілених інтелектуальних інформаційних систем прийняття рішень для слабо-структурованих проблем на основі реляційних баз даних (на прикладі сфери фінансів, бізнесу та управління)”, шифр 0196U000179; “Розробка макетів та моделей для проектування розподілених інтелектуальних інформаційних систем, алгоритмів і програм виявлення та апробації систем переваг особи, що приймає рішення, методів відсіювання та відбору альтернатив в слабо-структурованому середовищі”, шифр 0198U002391. При виконанні цих робіт автором розроблено: модель системи інтелектуального аналізу даних; математичну модель багатовимірного подання та опрацювання даних; алгоритми пошуку закономірностей у даних, що зберігаються в реляційній базі даних.

Метою дисертаційної роботи є побудова моделі системи інтелектуального аналізу даних, які зберігаються у реляційній базі даних, як основи проектування прикладних систем інтелектуального аналізу даних та розроблення методів і алгоритмів, що забезпечують виконання процесу інтелектуального аналізу даних.

Мета дисертаційної роботи визначає необхідність розв’язання таких задач:

-

формалізація постановки задачі інтелектуального аналізу даних, які зберігаються у реляційній базі даних (РБД);

-

побудова моделі системи інтелектуального аналізу даних як інформаційної системи (ІС), що дозволяє сформувати знання про предметну область (ПО) на основі даних, що зберігаються в РБД;

-

побудова математичної моделі багатовимірного подання даних в РБД, яка враховує характер їх опрацювання під час аналізу;

-

побудова алгоритмів інтелектуального аналізу даних в РБД, базованих на інформаційно-статистичному підході до формування значущих закономірностей;

-

апробація результатів дисертаційних досліджень шляхом створення програмної реалізації системи інтелектуального аналізу даних.

Об’єктом дослідження виступає інтелектуальний аналіз даних (ІАД) як процес пошуку закономірностей у даних про ПО, які зберігаються в РБД.

Предметом дослідження є система інтелектуального аналізу даних (СІАД) та методи і алгоритми ІАД, які забезпечують функціонування СІАД.

Методи дослідження. Дослідження, виконані під час роботи над дисертацією, ґрунтуються на теорії реляційних баз даних для постановки задачі ІАД та побудови моделі багатовимірного подання даних в РБД, загальної теорії систем для побудови моделі СІАД, теорії імовірностей і математичній статистиці та теорії інформації для розроблення алгоритмів ІАД.

Наукова новизна роботи полягає у досягненні таких результатів.

-

Удосконалено математичну постановку задачі ІАД в РБД з використанням апаратів теорії реляційних баз даних та теорії ймовірностей і математичної статистики. Така постановка задачі забезпечує знаходження статистично значущих закономірностей у даних та дозволяє застосовувати статистичний підхід для розроблення методів і алгоритмів ІАД в РБД.

-

Уперше побудовано математичну модель СІАД із застосуванням апарату загальної теорії систем. Створення СІАД на основі запропонованої моделі дозволяє розв’язувати поставлену у роботі задачу ІАД. При цьому СІАД розглянуто як підсистему більш загальної інтелектуальної системи підтримки прийняття рішень (ІСППР). Побудована модель є основою для створення прикладних СІАД як окремих систем, так і компонент ІСППР.

-

Уперше побудовано модель багатовимірного подання даних на основі застосування апарату теорії реляційних баз даних, визначено основні операції над гіперкубами даних та досліджено властивості цих операцій. Ця модель є основою для здійснення аналітичного опрацювання даних та побудови методів та алгоритмів ІАД в РБД.

Практичне значення одержаних результатів.

-

Розроблено алгоритми ІАД із застосуванням інформаційно-статистичного підходу до формування статистично значущих закономірностей. Алгоритми побудовано на основі математичної моделі багатовимірного подання даних, що дає змогу застосовувати їх для аналізу великих об’ємів даних, які зберігаються в РБД.

-

Реалізовано операції моделі багатовимірного подання даних в РБД засобами реляційної алгебри, що дозволяє розробляти алгоритми ІАД та реалізовувати СІАД із використанням реляційних систем керування базами даних (СКБД).

-

Створено СІАД засобами реляційної СКБД, яку було використано як компоненту ІАД у прикладних системах підтримки прийняття рішень, зокрема, експедиторської діяльності, фінансово-економічної діяльності, діагностування кардіологічних захворювань.

Впровадження результатів роботи. Розробки впроваджені у фонді “Транспорт” (м. Ужгород), Львівському банківському інституті, Сокальській районній лікарні, Львівській картинній галереї, ТзОВ “СофтСерв” (м. Львів), а також у навчальному процесі НУ “Львівська політехніка”, зокрема при викладанні дисциплін “Проектування інтелектуальних інформаційних систем підтримки прийняття рішень”, “Технології сховищ даних”, “Прикладні інтелектуальні системи”, у яких використовувалися результати наукових досліджень як в окремих розділах лекційних курсів, так і в циклах лабораторних та практичних робіт.

Особистий внесок здобувача. Усі наукові результати, подані у дисертації, одержані здобувачем особисто. У друкованих працях, опублікованих у співавторстві, особистий внесок здобувача такий: [] – побудова моделі даних та бізнес-алгоритмів функціонування автоматизованої системи “Збут-Фінанси”; [] – правила побудови функціональної ієрархії семантично відкритої ІС; [] – правила побудови аналітичної компоненти семантично відкритої ІС; [] – компонента ІАД системи підтримки прийняття рішень; [] – підхід до моделювання складних ІС; [] – технологія ІАД у сфері соціального страхування; [] – математична постановка задачі ІАД та модель СІАД; [] – формулювання принципів об’єктно-часової методики проектування семантично відкритих ІС; [] – математична модель багатовимірного подання даних та побудова алгоритмів видобування асоціативних правил на основі цієї моделі; [] – технологія виконання процесу ІАД.

Апробація результатів дисертації. Основні результати дисертаційної роботи доповідалися на семінарах та конференціях: науковий семінар міжнародної комп’ютерної виставки “Комп’ютер і Офіс” – Львів, 1997, 1998, 1999, 2000, 2001; науковий семінар міжнародної комп’ютерної виставки “Комп’ютер+Бізнес” – Львів, 1997, 1998, 1999, 2000, 2001; шостій всеукраїнській науковій конференції “Застосування обчислювальної техніки, математичного моделювання та математичних методів у наукових дослідженнях”, Львів, 1999; міжнародній науково-практичній конференції KDS-2001 “Знание-Диалог-Решение”, Санкт-Петербург, 2001; восьмій всеукраїнській науковій конференції “Застосування обчислювальної техніки, математичного моделювання та математичних методів у наукових дослідженнях”, Львів, 2001; щорічні (1996, 1997, 1998, 1999, 2000, 2001) наукові семінари кафедри “Інформаційні системи та мережі” та наукові конференції викладачів та науковців Національного університету “Львівська політехніка”.

Публікації. За темою дисертації опубліковано 12 наукових праць, із них 2 – одноосібні. 9 праць опубліковані у фахових виданнях ВАК України, 3 – як тези конференцій.

Структура та обсяг дисертації. Дисертаційна робота складається з вступу, чотирьох основних розділів, висновків, списку літератури і додатків. Загальний обсяг дисертації 140 сторінок, список літератури містить 110 найменувань.

ОСНОВНИЙ ЗМІСТ РОБОТИ

У вступі обґрунтовано актуальність теми, відображено зв’язок роботи з науковими програмами та темами, визначено мету і задачі досліджень, відзначено наукову новизну та практичне значення одержаних результатів.

Перший розділ роботи присвячений побудові моделі системи інтелектуального аналізу даних як загальної. При цьому автор виходив з таких передумов: по-перше, СІАД повинна працювати як окрема система, що виконує функцію інтелектуального аналізу даних і містить усі компоненти, необхідні для виконання цієї функції; по-друге, СІАД повинна розглядатися як підсистема ІСППР, яка виконує загальнішу функцію підтримки процесів прийняття рішень. З цією метою у першому розділі проведено аналіз інформаційних технологій, спрямованих на підтримку процесів прийняття рішень. До цих технологій належать: системи підтримки прийняття рішень (СППР), бази даних (БД) і сховища даних (СД), системи баз знань (БЗ) та моделі подання знань.

Головною функцією СППР є інформаційне забезпечення процесів підтримки прийняття рішень у конкретній ПО. З огляду на це СППР має виконувати такі завдання: накопичувати та зберігати первинні дані про усі об’єкти конкретної ПО та зв’язки між ними; надавати особі, що приймає рішення (ОПР), інформацію довідково-нормативного та звітного характеру; надавати ОПР аналітичну та статистичну інформацію на різних рівнях деталізації; накопичувати та зберігати експертні знання про ПО; здійснювати пошук закономірностей у накопичених даних про ПО; надавати ОПР інформацію, виведену на основі накопичених знань та даних.

Перераховані завдання є окремими підфункціями головної функції СППР, які доцільно реалізовувати як окремі підсистеми загальної СППР. Окрім того, СППР має містити ще дві компоненти, у яких зберігаються дані та знання про ПО і до яких звертаються підсистеми СППР. Побудова СППР з такою структурою стає можливою завдяки поєднанню перерахованих вище технологій. При цьому як компоненту для збереження даних СППР пропонується використовувати СД, а як компоненту для збереження знань – БЗ. У результаті отримуємо ІСППР на основі СД.

Далі у першому розділі проаналізовано технологію ІАД. Інтелектуальний аналіз даних визначається як ”нетривіальний процес ідентифікації адекватних, невідомих раніше, потенційно корисних і прийнятних для розуміння моделей у наборах даних”. На основі цього автором сформульовано вимоги, яким повинні відповідати методи ІАД:

-

побудована модель має відображати закономірності, які виникають у ПО, причому значущість закономірностей повинна мати кількісні характеристики;

-

побудована модель повинна описувати закономірності у такому вигляді, щоб їх міг проінтерпретувати користувач системи;

-

побудована модель мусить охоплювати усі значущі закономірності, які можна отримати на основі наявних даних, або, якщо вона охоплює лише деяку частину закономірностей, то метод має чітко окреслювати, які саме закономірності знайдено, а які ні;

-

метод повинен бути простим у використанні, тобто не містити набору параметрів, визначення яких потребує глибокого розуміння роботи самого методу користувачем.

Процес ІАД супроводжується етапами, зображеними на рис. .

Рис..Етапи, що супроводжують інтелектуальний аналіз даних.

Далі у розділі побудовано моделі ІСППР та СІАД. ІСППР задана, як трійка , де – схема СД, – схема БЗ, – набір операцій над множинами та . Схеми СД та БЗ конкретної ІСППР визначаються на етапі проектування цієї системи. Набір операцій визначає, які дії можна виконувати над даними та знаннями у системі, а, отже, якого типу ІС можна побудувати, використовуючи наявні у наборі операції. Набір містить операції таких типів: операції над даними вигляду , операції над знаннями вигляду , операції формування знань із даних та операції виведення нових даних .

Система інтелектуального аналізу даних є підсистемою ІСППР і задається, як відображення

, ()

де – структура ПО.

Система функціонує на основі набору операцій , який містить операції попереднього опрацювання даних , операції аналітичного опрацювання даних , операції формування узагальнень та правил , операції верифікації узагальнень та правил на відповідність даним .

Структура СІАД, яка відповідає запропонованій у роботі математичній моделі (), зображена на рис..

Рис..Структура системи інтелектуального аналізу даних.

Структури множин , та операції набору конкретизовані у наступних розділах роботи.

У другому розділі виконана математична постановка задачі ІАД. При цьому ми виходимо з передумов, що дані подаються за допомогою реляційної моделі, а знання – у вигляді узагальнень та правил, які утворюють атрибути інформаційних відношень.

Структура ПО задається, як кортеж:

,

де – множина атрибутів, – множина доменів, – функція, яка кожному атрибуту з ставить у відповідність домен з , – структура класу об’єктів ПО, – структура співвідношення між об’єктами ПО, – структура класу подій ПО, – структура співвідношення між подіями ПО.

У СД дані про об’єкти та події ПО, а також співвідношення зберігаються у вигляді інформаційних відношень. Структура ПО відповідно відображається у схему СД.

Отже, як результат відображення даних про ПО та її структури у СД отримуємо сховище даних , якому відповідає схема . Схема інформаційного відношення визначається відповідною структурою класу об’єктів, подій чи співвідношення.

Розрізнятимемо дескриптивні (описові) та прогностичні (передбачувальні) знання для елементів ПО. Дескриптивні знання подаватимемо у вигляді узагальнень даних, а прогностичні – у вигляді правил.

Узагальненням , утвореним на основі інформаційного відношення зі схемою , будемо називати вираз вигляду , де , , якщо у відношенні існує непорожня підмножина, для якої виконується узагальнення. Множину узагальнень будемо позначати як , тобто . Підмножина атрибутів задає схему узагальнення, яку позначатимемо як .

Позначимо через деяку функцію, яка відображає узагальнення на множину з встановленим на ній відношенням порядку, тобто . Узагальнення називатимемо значущим, якщо , де . Підмножину значущих узагальнень множини будемо позначати як , тобто .

Правилом , утвореним на основі інформаційного відношення зі схемою , будемо називати вираз вигляду , де , , , , якщо у відношенні існує непорожня підмножина, для якої виконується правило. Множину правил будемо позначати як . Підмножин та атрибут задають схему правила .

Позначимо через деяку функцію, яка відображає правила на множину з встановленим на ній відношенням порядку, тобто . Правило називатимемо значущим, якщо , де . Підмножину значущих правил множини будемо позначати як , тобто .

Задача ІАД сформульована автором так. Нехай маємо сховище даних зі схемою . Атрибути описують номінальні величини і набувають значень на відповідних дискретних доменах , на яких не задано відношення порядку. На основі даних, які зберігаються в інформаційних відношеннях СД , потрібно сформувати БЗ , яка складається з множини узагальнень вигляду , правил вигляду , і має схему .

Далі у розділі визначені функції значущості узагальнень та правил. Введені такі позначення: – кількість кортежів інформаційного відношення , які задовольняють умову , – кількість усіх кортежів інформаційного відношення .

Значущість узагальнень визначається за допомогою функції , яка обчислюється на основі величин та . Для визначення значущості правил використовуються функції значущості та , які обчислюються на основі величин , , та .

Далі у розділі досліджені властивості запропонованих функцій значущості.

Нехай та – узагальнення, отримані на основі інформаційного відношення , причому на підмножині відношення, на якій виконується , виконується також . Тоді має місце нерівність

.

Якщо існує значуще правило вигляду , то будемо говорити, що залежить від . Для обчислення значущості залежності вигляду використовуються функції значущості

та

.

У роботі показано, що мають місце такі співвідношення

,

.

Окрім того, для залежностей вигляду та , таких, що , мають місце нерівності

,

.

На основі отриманих співвідношень у роботі сформульовані такі твердження.

Твердження . Якщо узагальнення , яке описує деяку підмножину відношення , не є значущим, то узагальнення , яке описує підмножину відношення , також не є значущим.

Твердження . Якщо значущість залежності вигляду менша за порогове значення значущості правил, то усі правила вигляду , отримані на основі відношення , не є значущими.

Твердження . Якщо значущість залежності вигляду менша за порогове значення значущості правил, то значущість залежності вигляду , таких, що , також менша за порогове значення значущості правил.

Ці твердження покладені в основу пропонованого у роботі інформаційно-статистичного методу формування значущих узагальнень та правил. Далі у роботі описані алгоритми інформаційно-статистичного методу.

Алгоритм формування множини значущих узагальнень.

Крок 1. Сформувати початкову множину одноатрибутних узагальнень.

Крок 2. Дослідити значущість сформованих узагальнень та залишити у множині тільки значущі узагальнення.

Крок 3. Якщо множина отриманих значущих узагальнень не порожня, то сформувати нову множина узагальнень так, що нові узагальнення є комбінаціями найдовших значущих узагальнень та одноатрибутних значущих узагальнень, і перейти до кроку 2; інакше – закінчити алгоритм.

Описаний алгоритм будує множину усіх значущих узагальнень. Наступний алгоритм формує базисну множину значущих узагальнень. До цієї множини входять значущі узагальнення вигляду , для яких узагальнення вигляду , де , не є значущими.

Алгоритм формування базисної множини значущих узагальнень.

Крок 1. Сформувати початкову множину найдовших узагальнень.

Крок 2. Дослідити значущість сформованих узагальнень та розподілити усі узагальнення між множинами значущих та незначущих узагальнень.

Крок 3. Якщо множина отриманих незначущих узагальнень не порожня, то сформувати нову множину узагальнень, які коротші від отриманих на 1, і перейти до кроку 2; інакше – закінчити алгоритм.

На рис. зображена загальна схема алгоритму формування усіх значущих залежностей та правил.

Рис.. Загальна схема алгоритму формування залежностей та правил.

Наведений алгоритм формує множину усіх значущих залежностей та правил. На рис. зображена загальна схема алгоритму формування базисної множини значущих залежностей та правил. Базисну множину складають значущі залежності вигляду , такі, що залежності , де , не є повними або значущими.

Рис.. Загальна схема алгоритму формування базисної множини залежностей та правил.

Кількість інформації про залежність вигляду визначається через ентропію Шенона за формулою:

,

яка, у свою чергу, обчислюється за формулою:

,

де .

Отже, усі обчислення в алгоритмах пропонованого автором інформаційно-статистичного методу, які потребують звертань до інформаційних відношень сховища даних, визначаються через величини та . Для обчислення цих величин у роботі використано багатовимірний підхід до аналітичного опрацювання даних.

У третьому розділі описана пропонована автором формалізація багатовимірного підходу аналітичного опрацювання інформації в РБД. Визначені основні поняття багатовимірного подання даних: вимір та гіперкуб даних.

Рис.. Багатовимірне подання даних.

Вимір визначений, як підмножина декартового добутку атрибутів . Схема виміру задається сукупністю атрибутів цього виміру .

Гіперкуб даних визначений, як відображення вимірів на множину , на якій задана функція агрегації елементів множини. Схема гіперкуба даних задається сукупністю схем вимірів та множиною значень гіперкуба даних . Кількість вимірів, від яких залежить гіперкуб даних , визначає вимірність гіперкуба даних. Отже, гіперкуб даних має вимірність , або, інакше кажучи, є -вимірним.

Далі для опису концептуальних ієрархій автором введено поняття відношення між вимірами та , яке задає зв’язок між значеннями цих вимірів. Схема відношення між вимірами та задається сукупністю схем вимірів – ключ відношення.

Для реалізації аналітичного опрацювання даних у роботі введені основні операції над гіперкубами даних: об’єднання по виміру, зрізу, проекції та згортки по відношенню.

Операція об’єднання по виміру. Нехай та – гіперкуби даних зі схемою , причому . У результаті виконання операції об’єднання по виміру над гіперкубами даних , утворюється гіперкуб даних , який об’єднує у собі усі дані з обох гіперкубів даних. Операція позначається, як

.

Операція зрізу. Нехай – гіперкуб даних зі схемою . Операція зрізу по значенню над гіперкубом даних вибирає із цього гіперкуба даних ту частину, для якої вимір набуває значення . Операція позначається, як

.

Операція проекції. Нехай – гіперкуб даних зі схемою . Результатом виконання операції проекції по виміру над гіперкубом даних є гіперкуб даних , значення якого агрегуються по вимірах . Операція позначається, як

.

Операція згортки по відношенню. Нехай – гіперкуб даних зі схемою ; нехай – вимір зі схемою і – відношення між вимірами та зі схемою . Згортка по відношенню дозволяє агрегувати значення гіперкуба даних на основі зв’язку між вимірами. У результаті отримуємо такий гіперкуб даних:

Для пропонованих операцій автором наведені основні властивості: комутативність операції зрізу, комутативність операцій зрізу та проекції, комутативність операції проекції (за умови комутативності функції агрегації), комутативність зрізу та згортки по відношенню, комутативність згортки по відношенню (за умови комутативності функції агрегації).

Далі у роботі за допомогою запропонованих операцій аналітичного опрацювання даних описані алгоритми інформаційно-статистичного методу формування узагальнень та правил, які відповідають наведеним вище схемам. З цією метою величини та виражені через операції аналітичного опрацювання даних.

У четвертому розділі здійснена конкретизація набору операцій СІАД на основі запропонованих у роботі операцій моделі багатовимірного подання даних та алгоритмів інформаційно-статистичного методу формування узагальнень та правил.

Набір операцій попереднього опрацювання даних реалізовано так:

-

вибірка даних виконується за допомогою стандартних реляційних операцій;

-

для верифікації даних використано метод перевірки статистичних гіпотез про однорідність вибірок даних (на основі інформаційної міри Кульбака-Лейблера);

-

дискретизація здійснюється наявними на сьогодні методами;

-

невизначеності опрацьовуються методом усунення невизначених даних або методом заповнення на основі попередньо побудованої множини правил.

Набір операцій аналітичного опрацювання даних містить описані вище операції об’єднання гіперкубів даних по виміру, зрізу, проекції та згортки по відношенню.

Набір операцій містить операцію формування узагальнень та операцію формування правил, які реалізовано відповідними алгоритмами пропонованого у роботі інформаційно-статистичного методу.

Набір операцій містить операцію верифікації узагальнень та операцію верифікації правил. Для верифікації узагальнень використано метод перевірки статистичних гіпотез про однорідність вибірок даних (на основі інформаційної міри Кульбака-Лейблера). Для верифікації правил дані розділяються на навчальну та тестову вибірки, формування правил здійснюється за навчальною вибіркою, отримані правила застосовуються до тестової вибірки, і на основі цього обчислюється похибка передбачення. Операція верифікації правил використовує операцію виведення нових даних. Для виведення нових даних у роботі використано баєсівський підхід, зокрема принцип максимуму апостеріорної імовірності та принцип максимуму відношення правдоподібностей.

На основі отриманих теоретичних результатів моделювання у роботі побудовано систему ІАД. Програмна реалізація системи здійснена засобами реляційної СКБД Oracle9i. Зокрема, структури даних створені засобами мови запитів SQL, прикладні програми, які реалізують алгоритми інформаційно-статистичного методу, – засобами мови програмування PL/SQL.

Однією з областей, у яких застосована система, є задача діагностування кардіологічних захворювань. У БД цієї системи зібрано дані про симптоми, обстеження та діагнози, встановлені медиками, понад 3500 пацієнтів. У результаті проведеного аналізу даних отримані такі результати:

-

кількісні оцінки впливу окремих симптомів та обстежень на результуючий діагноз, які були використані при подальших медичних дослідженнях в області кардіологічних захворювань;

-

множина залежностей та правил встановлення діагнозу, яка формалізує набутий лікарями досвід; отримані правила використані в експертній системі діагностування кардіологічних захворювань.

У додатках наведено коди прикладних програм, які реалізують запропоновані у роботі алгоритми, сценарії створення структур даних, акти впровадження результатів роботи.

ОСНОВНІ РЕЗУЛЬТАТИ ТА ВИСНОВКИ

У дисертаційній роботі розв’язано актуальну наукову задачу побудови моделі системи інтелектуального аналізу даних і розроблено алгоритми формування значущих узагальнень та правил на основі даних, які зберігаються в РБД. Системи інтелектуального аналізу даних, побудовані на основі запропонованої моделі, дозволяють реалізувати процес інтелектуального аналізу даних та знаходити статистично значущі закономірності у даних РБД. Прикладами застосування стали компоненти інтелектуального аналізу даних СППР у галузях експедиторської діяльності, фінансово-економічної діяльності, медицини тощо.

У ході дослідження отримано такі основні результати.

1.

Удосконалено математичну постановку задачі ІАД в РБД з використанням апаратів теорії реляційних баз даних та теорії ймовірностей і математичної статистики як формування множин значущих узагальнень та правил на основі даних РБД, що забезпечило знаходження статистично обґрунтованих закономірностей у даних.

2. Уперше побудовано математичну модель СІАД, як відображення множини даних у множину узагальнень та правил, і формалізовано набір операцій СІАД, реалізація яких забезпечує функціонування системи. Створення СІАД на основі запропонованої моделі дозволило розв’язувати поставлену у роботі задачу ІАД для різних ПО. СІАД розглянуто як підсистему більш загальної ІСППР, що дозволило створювати прикладні СІАД як окремі системи, так і компоненти ІСППР.

3. Уперше побудовано математичну модель багатовимірного подання даних на основі застосування апарату теорії реляційних баз даних, формалізовано основні операції над гіперкубами даних та досліджено властивості цих операцій. Побудована модель дозволила проводити аналітичне опрацювання даних, які зберігаються в РБД.

4. Досліджено властивості функцій значущості узагальнень та правил, на основі чого запропоновано інформаційно-статистичний метод формування множин значущих узагальнень та правил і розроблено алгоритми формування цих множин із використанням операцій аналітичного опрацювання даних, що дало змогу аналізувати великі об’єми даних, які зберігаються в РБД.

5. Реалізовано операції над гіперкубами даних засобами реляційної алгебри, що дозволило реалізувати СІАД засобами реляційних СКБД.

6. Створено СІАД засобами реляційної СКБД, яку було використано як компоненту ІАД у прикладних системах підтримки прийняття рішень, зокрема, експедиторської діяльності, фінансово-економічної діяльності, діагностування кардіологічних захворювань.

СПИСОК ОПУБЛІКОВАНИХ ПРАЦЬ ЗА ТЕМОЮ ДИСЕРТАЦІЇ

1.

Кравець Р.Б., Мікула А.В., Пелещишин А.М. Розробка комплексних інформаційних систем архітектури “клієнт-сервер” на прикладі АСУ “Збут-Фінанси”. //Львів: Вісник Національного університету “Львівська політехніка” “Інформаційні системи та мережі”, №315, 1997. – с.71-100.

2.

Кравець Р.Б. Введення в технологію сховищ даних. //Львів: Вісник Національного університету “Львівська політехніка” “Інформаційні системи та мережі”, №315, 1997. – с.100-112.

3.

Кравець Р.Б. Багатовимірна модель даних у системах аналітичної обробки інформації. //Львів: Вісник Національного університету “Львівська політехніка” “Інформаційні системи та мережі”, №330, 1998. – с.147-153.

4.

Жежнич П.І., Кравець Р.Б., Пасічник В.В., Пелещишин А.М. Семантично відкриті інформаційні системи. //Львів: Вісник Національного університету "Львівська політехніка" “Інформаційні системи та мережі”, №383, 1999. – с.73-84.

5.

Жежнич П.І., Кравець Р.Б., Пасічник В.В., Пелещишин А.М. Основні правила побудови семантично відкритих інформаційних систем. //Львів: Вісник Національного університету "Львівська політехніка" “Інформаційні системи та мережі”, №383, 1999. – с.84-95.

6.

Кравець Р.Б., Пелещишин О.П. Структура системи підтримки прийняття рішень. //Львів: Вісник Національного університету “Львівська політехніка” “Інформаційні системи та мережі”, №438, 2001. – с.90-94.

7.

Литвин В.В., Кравець Р.Б. Інтелектуальні системи з кількома інтерпретаторами. //Львів: Вісник Національного університету “Львівська політехніка” “Інформаційні системи та мережі”, №438, 2001. – с.104-108.

8.

Марецька Е., Кравець Р.Б. Інформаційні технології інтелектуального аналізу даних у сфері соціального страхування. //Львів: Вісник Національного університету “Львівська політехніка” “Інформаційні системи та мережі”, №438, 2001. – с.108-115.

9.

Кравець Р.Б., Оградіна Ю.М. Формальні підходи до моделювання систем інтелектуального аналізу даних. //Харків, Вісник Харківського національного університету радіоелектроніки “Проблеми біоніки”, №54, 2001. – с.126-132.

10.

Жежнич П.І., Кравець Р.Б., Пелещишин А.М. Семантично відкриті інформаційні системи (основні правила побудови). //Львів: Державний університет ім. І.Франка, Шоста Всеукраїнська наукова конференція “Застосування обчислювальної техніки, математичного моделювання та математичних методів у наукових дослідженнях”, Тези доповідей, 1999. – с.40-41.

11.

Пасічник В.В., Кравець Р.Б. Видобування асоціативних правил на основі багатовимірної моделі даних. //Санкт-Петербург: Северо-Западный государственный заочный технический университет, Труды Международной научно-практической конференции KDS-2001 “Знание-Диалог-Решение”, 2001. – с.526-532.

12.

Кравець Р.Б., Нікольський Ю.В. Вибір технологічної схеми інтелектуального аналізу даних у системах підтримки прийняття рішень. //Львів: Національний університет ім. І.Франка, Восьма Всеукраїнська наукова конференція “Сучасні проблеми прикладної математики та інформатики”, Тези доповідей, 2001. – с.40-41.

АНОТАЦІЇ

Кравець Р.Б. Моделювання системи інтелектуального аналізу даних на основі реляційних баз даних. – Рукопис.

Дисертація на здобуття наукового ступеня кандидата технічних наук за спеціальністю 01.05.02 – “Математичне моделювання та обчислювальні методи”. – Національний університет “Львівська політехніка”, 2003.

Дисертацію присвячено питанням моделювання систем інтелектуального аналізу даних на основі реляційних баз даних. Розглянуто та проаналізовано інформаційні технології, спрямовані на підтримку процесів прийняття рішень, зокрема технологію інтелектуального аналізу даних. Виконано математичну постановку задачі інтелектуального аналізу даних як задачі формування знань про предметну область на основі даних, що зберігаються у реляційній базі даних. Побудовано модель системи інтелектуального аналізу даних, призначеної для розв’язання поставленої задачі. Побудовано модель багатовимірного подання даних у реляційних базах даних. Визначено основні операції аналітичного опрацювання даних та досліджено їх властивості. Побудовані алгоритми формування знань із реляційної бази даних із використанням операцій аналітичного опрацювання даних. Результати наукових досліджень застосовано при розробленні компонент інтелектального аналізу даних прикладних систем підтримки прийняття рішень.

Ключові слова: інтелектуальний аналіз даних, аналітичне опрацювання інформації, реляційні бази даних, сховища даних.

Кравец Р.Б. Моделирование системы интеллектуального анализа данных на основе реляционных баз данных. – Рукопись.

Диссертация на соискание научной степени кандидата технических наук по специальности 01.05.02 – “Математическое моделирование и вычислительные методы”. – Национальный университет “Львовская политехника”, 2003.

Диссертация посвящена вопросам моделирования систем интеллектуального анализа данных на основе реляционных баз данных. Рассмотрены и проанализированы информационные технологии, направленные на поддержку процессов принятия решений, в частности технология интеллектуального анализа данных. Осуществлена математическая постановка задачи интеллектуального анализа данных как задачи формирования знаний о предметной области на основе данных, хранящихся в реляционной базе данных. Построена модель системы интеллектуального анализа данных, предназначенной для решения поставленной задачи. Построена модель многомерного представления данных в реляционных базах данных. Определены основные операции аналитической обработки данных и исследованы их свойства. Построены алгоритмы формирования знаний из реляционной базы данных с применением операций аналитической обработки данных. Результаты научных исследований применены при разработке компонент интеллектуального анализа данных прикладных систем поддержки принятия решений.

Ключевые слова: интеллектуальный анализ данных, аналитическая обработка информации, реляционные базы данных, хранилища данных.

Kravets R.B. Modeling of intelligent data analysis system based on relational databases. – Manuscript.

Thesis for a Ph.D. science degree by specialty 01.05.02 – “Mathematical modeling and calculating methods”. – National university “Lvivska Polytechnika”, Lviv, 2003.

The thesis is dedicated to the problem of intelligent data analysis systems based on relational databases. Author has described and analyzed information technologies dedicated to decision support processes and particularly intelligent data analysis. Author has formulated intelligent data analysis mathematical problem definition as a problem of generating a set of knowledge about subject area from data stored in database. The model of intelligent data analysis system dedicated to the problem solving was built. The multidimensional data representation in relational databases model was developed. Main analytical data processing operations were defined and their features were investigated. Algorithms of knowledge generating from relational database was developed based on analytical data processing operations. Scientific research results were applied in intelligent data analysis component of application decision support systems.

In the Chapter 1 author has considered information technologies of decision support systems, data warehouses, knowledge bases and intelligent data analysis. We consider intelligent data analysis as a process of knowledge obtaining based on data stored in the data warehouse and putting it into knowledge base. Subsequently this knowledge is used for decision support. Therefore, intelligent data analysis system considered as a system that can be single system or component of decision support system. Author construct mathematical model of intelligent data analysis system as mapping data set into knowledge set using proper operations with data and knowledge.

In the Chapter 2 author formulated intelligent data analysis mathematical problem definition as a problem of generating knowledge set from data set stored in relational databases. Author has distinguished two types of knowledge – descriptive and predictive. Descriptive knowledge we represent as significant generalizations and predictive – as significant rules. Significance of generalizations is calculated using probability function and significance of rules – using chi-square function and Kullback-Leibler information divergence. In this chapter author investigated features of significance functions. Author constructed significant generalizations and rules generating algorithms using proved features as searching constraints.

In the Chapter 3 author has built multidimensional data model representation in relational databases. Author mathematically describes main concept of the model – data dimension and data hypercube. Further, author defines main analytical processing operations as operations with data hypercube. Generalizations and rules generating algorithms use analytical data processing operations for data access.

In the Chapter 4 author described a kernel of intelligent data analysis system, reflects major scientific and practical results of research. The intelligent data analysis system implemented with relational database management system Oracle9i using SQL query language and PL/SQL programming language. The system deployed as intelligent data analysis component of application decision support systems in several problem areas, such as shipping business, financial and economic activity, medicine.

Keywords: intelligent data analysis, knowledge discovery in databases, data mining, on-line analytical processing, relational database, data warehouse.