Реферат Сховище даних

Реферат - Сховище даних

Сховище даних

План

1. Організація сховищ даних

2. Багатомірна модель сховища

3. Проектування сховищ даних

Організація сховищ даних

Сховище даних (Data Warehouse, DW) - система, що підтримує несуперечливу інтегровану предметно-орієнтовану сукупність історичних даних організації з метою підтримки

прийняття стратегічних рішень. Сховище даних представляє також різнобічні інструментальні засоби для аналізу даних.

Концепція сховищ даних - це концепція підготовки даних для подальшого аналізу. Інформаційні сховища призначені для систем підтримки прийняття рішень. Сховища даних розробляються з урахуванням специфіки предметної області, а не застосувань, які обробляють дані. Дані у сховищі повинні бути інтегровані, зведені до єдиного синтаксичного і семантичного вигляду, перевірені на цілісність і несуперечливість.

В основі концепції сховищ даних лежить ідея розподілу на дві групи даних, що використовуються: для оперативної обробки (OLTP) і для рішення задач аналізу (OLAP).

OLTP (On-Line Transaction Processing) - системи оперативной обробки транзакцій, які призначені для підтримки поточної діяльності різного роду організацій.

OLAP (On-Line Transaction Processing) - системи оперативної аналітичної обробки, які призначені для підтримки прийняття рішень і орієнтовані головним чином на нерегламентовані запити. Термін OLAP дозволяє описувати технологію обробки даних, в якій застосовується багатомірне представлення агрегованих даних для забезпечення швидкого доступу до даних для поглибленого аналізу.

Порівняльний аналіз OLTP і OLAP систем наведено в табл. 12.1.

Архітектура сучасних сховищ даних базується або на використанні багатомірної моделі БД (Multidimension OLAP, MOLAP), або на реляційній моделі БД (Relational OLAP, ROLAP).

Складність створення сховищ даних викликала необхідність розробки і організації підмножин даних сховища, які називаються кіосками даних.

Кіоск даних (вітрина даних) - спрощений варіант сховища даних, який містить тільки тематично об'єднані дані. Кіоск даних максимально наближений до кінцевого користувача і містить дані орієнтовані на нього.

Одна з найважливіших частин сучасних аналітичних систем - це засоби інтелектуального аналізу даних. Виконання більшості аналітичних запитів користувачів потребує складної статистичної обробки, застосування штучного інтелекту.

Data Mining - дослідження і знаходження комп'ютером (засобами штучного інтелекту) в даних прихованих

закономірностей, які не були раніше відомі, нетривіальні, практично корисні, доступні для інтерпретації людиною.

На рис. 12.1 показана логічна схема аналітичної системи зі сховищем даних.

Багатомірна модель сховища

Багатомірна модель передбачає, що дані зберігаються не у вигляді плоских таблиць, як в реляційній БД, а у вигляді гіперкубів - впорядкованих багатомірних масивів. Багатомірне

представлення даних тут реалізується фізично. Багатомірні СУБД забезпечують більш швидкий у порівнянні з реляційними системами пошук і читання даних. В цьому випадку немає потреби у багаторазовому з'єднанні таблиць. Такий підхід вимагає більше пам'яті для зберігання даних, при його використанні важко модифікувати структуру даних.

У багатомірній моделі розглядаються такі операції маніпулювання даними:

- переріз, який передбачає формування підмножини гіперкуба, в якому значення одного або більшої кількості вимірів є фіксованим;

- обертання, при якому змінюється порядок представлення вимірів;

- згорнення, передбачає заміну одного з вимірів іншим більш високого рівня ієрархії;

- деталізація - це операція зворотна до згорнення і забезпечує перехід від узагальнених даних до деталізованих.

Багатомірна СУБД краще за інші системи виконує складні нерегламентовані запити.

Проектування сховищ даних

При створенні сховища даних однією з основних задач є визначення оптимальної структури зберігання даних з точки зору забезпечення прийнятного часу відповіді на аналітичні запити і потрібного об'єму пам'яті.

Всі дані в сховищі даних поділяються на категорії:

- детальні дані;

- агреговані дані;

- метадані.

Детальні дані - дані, які переносяться безпосередньо від оперативних джерел інформації (OLTP). Вони відповідають елементарним подіям, що фіксуються в звичайних БД. Всі дані поділяються на виміри і факти. Вимірами називаються набори даних, які необхідні для опису подій (студенти, факультети і т.ін.). Вимір є аналогом домену в реляційній моделі. Виміри грають роль індексів для ідентифікації конкретних значень в комірках гіперкуба. Фактами називаються дані, які відображають сутність події (результати екзамену, кількість студентів і т.ін.). Непотрібні детальні дані можуть зберігатися в архівах у стислому вигляді.

Агреговані дані - дані, які отримують агрегуванням детальних даних по певних вимірах. Частина агрегованих даних безпосередньо зберігається в сховищі даних, а не обчислюється при виконанні запитів.

Метадані - це високорівневі засоби відображення інформаційної моделі. Метадані містять таку інформацію: опис структури даних сховища, структури даних, які імпортуються з різних джерел, відомості про періодичність імпортування, методах завантаження і узагальнення даних, засобах доступу і правилах представлення інформації, оцінки витрат часу на отримання відповіді на запит. Метадані знаходяться в репозиторії метаданих.

Послідовність проектування сховища даних показана на рис. 12.2.

Розмірності встановлюють контекст для пошуку відповідей на питання, що стосуються фактів в таблиці фактів. Вдало підібрані розмірності дозволяють зробити магазин даних зрозумілим і легким у використанні. Одна і та ж розмірність в різних магазинах даних повинна бути однаковою, або бути підмножиною іншої розмірності. Всі факти повинні бути визначені на відповідному рівні деталізації.

Існують інші підходи до створення сховища даних. Один з найбільш поширених передбачає декомпозицію проекту сховищ даних на магазини даних з подальшою інтеграцією інформації.

При моделюванні сховищ даних використовуються концепції ER-моделювання з деякими обмеженнями. Кожна модель складається з таблиці зі складовим ключем, яка називається таблицею фактів, і набору невеликих таблиць, які називаються таблицями розмірностей. У таблиці фактів розміщуються дані, які найбільш інтенсивно використовуються для аналізу. Запис фактологічної таблиці відповідає комірці гіперкуба. У довідковій таблиці перелічені можливі значення одного з вимірів гіперкуба. Кожен вимір описується своєю власною таблицею.

Кожна таблиця розмірності має простий первинний ключ, який точно відповідає одному з компонентів складового ключа в таблиці фактів. Тобто первинний ключ таблиці фактів складається з декількох зовнішніх ключів. Така централізована структура називається схемою "зірка".

Приклад. Розглянемо організацію сховища даних для вищих навчальних закладів України. За вимірювання візьмемо такі величини:

- параметри, що характеризують діяльність ВНЗ (кількість студентів, конкурс і т.ін.);

- опис ВНЗ (назва, факультети, спеціальності і т.ін.);

- момент часу (рік, квартал, місяць і т.ін.).

Кількість можливих параметрів, ВНЗ, а також моментів часу, що розглядаються, кінцева, тому всі значення можливо представити у вигляді гіперкуба. У цьому гіперкубі кожне значення знаходиться в окремій комірці. На рис. 12.3 наведена спрощена схема структури сховища даних.

Приклади запитів до сховища даних: "Визначити середню успішність студентів в технічних університетах", "Як змінився конкурс студентів на економічні спеціальності за останні п'ять років?"

Якщо БД включає велику кількість вимірів, то можна використовувати схему "сніжинка". В цій схемі атрибути таблиць розмірності можуть бути деталізовані у додаткових довідкових таблицях.

Література

1. Гайдамакин Н.А. Автоматизированные информационные системы, базы и банки данных. Вводный курс. - М.: Гелиос АРВ, 2002. - 368 с.

2. Гайна Г.А. Організація баз даних і знань. Мови баз даних: Конспект лекцій.-К .:КНУБА, 2002. - 64 с.

3. Гайна Г.А., Попович Н.Л. Організація баз даних і знань. Організація реляційних баз даних: Конспект лекцій. - К.:КНУБА, 2000. - 76 с.

4. Гарсиа-Молина Г., Ульман Д., Уидом Д. Системы баз данных.-М.: Издательский дом "Вильямс", 2003. - 1088 с.

5. Григорьев Ю.А., Ревунков Г.И. Банки данных.-М.: Изд-во МГТУ им. Н.Э.Баумана, 2002. - 320 с.

6. Грофф Дж., Вайнберг П. Энциклопедия SQL. - СПб.: Питер, 2003. - 896 с.

7. Дейт К.Дж. Введение в системы баз данных. - К.: Диалектика, 1998. - 784 с.

8. Диго С.М. Проектирование и использование баз данных.-М.: Финансы и статистика, 1995. - 208 с.

9. Карпова Т.С. Базы данных: модели, разработка, реализация. - СПб.: Питер, 2001. - 304 с.

10. Когаловский М.Р. Энциклопедия технологий баз данных.- М.: Финансы и статистика, 2002. - 800 с.

11. Конноли Т., Бегг К. Базы данных. Проектирование, реализация и сопровождение. Теория и практика. - М.: Издательский дом "Вильямс", 2003. - 1440 с.

12. Кренке Д. Теория и практика построения баз данных. - СПб.: Питер, 2003. - 800 с.

13. Малыхина М.П. Базы данных: основы, проектирование, использование. - СПб.: БХВ-Петербург, 2004. - 512 с.

14. Роб П., Коронел К. Системы баз данных: проектирование, реализация и управление. - СПб.: БХВ-Петербург, 2004. - 1040 с.