Автореферат ІДЕНТИФІКАЦІЯ ЕКОЛОГІЧНОГО ЗНАННЯ В АВТОМАТИЗОВАНИХ ІНФОРМАЦІЙНО-БІБЛІОТЕЧНИХ СИСТЕМАХ

Автореферат - ІДЕНТИФІКАЦІЯ ЕКОЛОГІЧНОГО ЗНАННЯ В АВТОМАТИЗОВАНИХ ІНФОРМАЦІЙНО-БІБЛІОТЕЧНИХ СИСТЕМАХ

МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ

ХЕРСОНСЬКИЙ ДЕРЖАВНИЙ ТЕХНІЧНИЙ УНІВЕРСИТЕТ

Єлісєєв Віктор Валентинович

УДК 004.9:[02+504]

ІДЕНТИФІКАЦІЯ ЕКОЛОГІЧНОГО ЗНАННЯ В
АВТОМАТИЗОВАНИХ ІНФОРМАЦІЙНО-БІБЛІОТЕЧНИХ СИСТЕМАХ

05.13.06. - Автоматизовані системи управління
та прогресивні інформаційні технології

Автореферат

дисертації на здобуття вченого ступеня

кандидата технічних наук

Херсон 2002

Дисертацією є рукопис

Робота виконана в Харківському гуманітарному інституті "Народна українська академія" Міністерства освіти і науки України

Науковий керівник: доктор технічних наук, професор Шаронова Наталія

Валеріївна, Харківський гуманітарний інститут "Народна українська академія", проректор з наукової роботи

Офіційні опоненти: доктор технічних наук, професор Петров Едуард

Георгійович, Харківський національний університет радіоелектроніки, завідувач кафедри системотехніки

кандидат технічних наук, доцент Лепа Євген Володимирович, Херсонський економіко-правовий інститут, завідувач кафедри інформаційних систем

Провідна установа: Національний технічний університет "Харківський

політехнічний інститут", кафедра автоматизованих систем управління

Захист відбудеться 27 червня 2002 р. о 12.00 годині на засіданні спеціалізованої вченої ради Д 67.052.01 в Херсонському державному технічному університеті за адресою: 73008, м. Херсон – 8, Бериславське шосе, 24, корп 1, ауд. 223.

З дисертацією можна ознайомитися в бібліотеці Херсонського державного технічного університету за адресою: 73008, м. Херсон – 8, Бериславське шосе, 24, корп 1.

Автореферат розісланий 27 травня 2002 р.

Вчений секретар

спеціалізованої вченої ради В.О. Костін

ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ

Актуальність теми. Сучасний стан розвитку автоматизованих інформаційних систем та їх широке впровадження визначають ефективні засоби вирішення проблемних питань у різних галузях. Однією з найбільш актуальних сучасних проблем є погіршення стану навколишнього середовища. Відкритий і швидкий доступ до інформації, що стосується довкілля, є основою належного рівня екологічної безпеки і гарантується міжнародним і національним законодавством.

Велику роль в забезпеченні інформаційних потреб різних груп населення відіграють бібліотеки. Їх функції в сучасних умовах трансформуються через підвищення загального рівня автоматизації і зростання кількості електронних видань. Концепція електронних бібліотек втілюється в багатьох країнах на національному рівні. Бібліотеки інтегрують ресурси Інтернет як на рівні електронних каталогів, так і повнотекстових баз даних (ПТБД).

Значний науковий і теоретичний внесок в розвиток галузі автоматизації доступу до інформації в бібліотеках зроблений: Ф.С. Воройським, Р.Т. Гарбором, Л.Й. Костенком, Дж. Солтоном, Я.Л. Шрайбергом та іншими.

Ефективність аналітико-синтетичної обробки документів і інформаційне забезпечення потреб користувачів у галузі екології та охорони навколишнього середовища утруднені через складність комплексу екологічних дисциплін, велику кількість джерел, відсутність адекватних інформаційно-пошукових мов. Вирішення цієї проблеми полягає в підвищенні ефективності пошуку введенням до автоматизованої інформаційно-бібліотечної системи (АІБС) додаткових засобів автоматичної обробки, побудованих на основі алгоритмів, що моделюють роботу фахівців і враховують структуру предметної галузі.

Значний внесок у вивчення міждисциплінарної структури екологічного наукового знання зроблений фахівцями у цій предметній галузі: Ю. Одумом, Н.Ф. Реймерсом, И.И. Дедю, А.М. Гиляровим, Г.М. Білявським та іншими, колективами укладачів бібліотечно-бібліографічних класифікацій, рубрикаторів і класифікаторів.

Аналітико-синтетична обробка екологічних текстів є складним і наукомістким процесом, який вимагає від суб’єктів вичерпного розуміння особливостей структури предметної галузі і високого рівня спеціальних предметних знань, залучення колективу бібліотечних фахівців із різною предметною спеціалізацією. Її автоматизація є ефективним шляхом вирішення цієї проблеми. Інтеграція до АІБС спеціальних засобів на основі математичних алгоритмів ідентифікації наукового знання разом із використанням відповідного лінгвістичного забезпечення надає можливості практично реалізувати моделі професійної поведінки експертів. Розробка таких алгоритмів передбачає дослідження і моделювання інтелектуальних процесів.

Важливий внесок у розвиток теорії і практики алгоритмічного моделювання функцій інтелекту і властивих йому процесів зробили: Т. Виноград, Д. Мінськи, Д.О. Поспєлов, Н. Хомський, Р. Шенк та інші науковці. Вітчизняна наукова школа проф. Ю.П. Шабанова-Кушнаренка розробила напрямок, який отримав назву теорії інтелекту. В його межах вирішуються завдання моделювання й автоматизації функцій інтелектуальної діяльності. Теорія інтелекту дає ефективний математичний апарат опису інтелектуальних процесів.

Розв’язаня вказаної проблеми передбачає ґрунтовне вивчення структури предметної галузі й особливостей поведінки досвідчених фахівців, розробку необхідного математичного, лінгвістичного та програмного забезпечення відповідних підсистем АІБС.

Зв’язок роботи з науковими програмами, планами, темами. Робота виконувалась на кафедрі екології Миколаївської філії Національного універ-си-те-ту "Києво-Могилянська Академія" в період з 1998 по 1999 роки за планом науково-дослідної роботи в межах наукової теми "Розробка авто-мати-зованої навчальної інформаційної системи з екології". Робота була закінчена в термін з 2000 по 2002 р.р на кафедрі інформаційних технологій і документознавства Харківського гуманітарного інституту "Народна українська академія", в межах комплексної наукової теми кафедри "Дослідження актуальних проблем побудови інтелектуальних систем". Алгоритми аналізу текстів були використані під час виконання держбюджетної теми Міністерства оборони "Корекція-А" Харківського військового університету. Частина досліджень, що стосується аналізу предметної галузі, була виконана в межах плану науково-дослідних робіт кафедри комп’ютерних технологій МФ НаУКМА за темою "Аналіз сучасних інформаційних технологій в бібліотечній справі та розробка системи автоматизації бібліотечної і інформаційної діяльності (САБІД)" (ДР № 0198U5007814 від 10.12.1998).

Мета і завдання дослідження. Метою дисертаційної роботи є розв’язання проблеми автоматичної ідентифікації екологічних текстів у складі баз даних автоматизованих інформаційних бібліотечних систем, на основі застосування формальних моделей їх інтелектуального аналізу фахівцями у предметній галузі і суб’єктами аналітико-синтетичної обробки документів, для здійснення тематичного і семантичного пошуку.

Для досягнення мети дослідження були вирішені наступні завдання:

1. Досліджено семантичну структуру предметної галузі комплексу екологічних дисциплін і визначено особливості їх застосування в процесі аналітико-синтетичної обробки екологічних текстів.

2. Побудовано формалізовану модель процесу ідентифікації змістовних ознак екологічних лінгвістичних об’єктів на основі методу компараторної ідентифікації.

3. На основі вивчення лінгвістичних особливостей екологічних текстів розроблено методику та математичні засоби їх лексико-семантичного аналізу.

4. Розроблено методику автоматичної побудови семантичної мережі спеціалізованого багатомовного тезаурусу, систематизації текстів ПТБД і пошуку в множині текстів, релевантних запиту користувача, який виражено обмеженою природною мовою.

5. Реалізовано розроблені методи у вигляді програмних процедур і визначено можливі схеми реалізації розроблених формальних алгоритмів у вигляді модулю, який інтегрований у підсистему каталогізації і користувальницького доступу існуючої АІБС, а також в пошукову систему на основі HTTP-серверу.

Об’єкт дослідження - автоматизовані інформаційно-бібліотечні системи, призначені для аналітико-синтетичної обробки екологічних текстів.

Предмет дослідження – моделі й алгоритми інтелектуальних процесів ідентифікації змісту текстів екологічної спрямованності, їх аналітико-синтетичної обробки і пошуку в їх масивах.

Методи дослідження. Аналіз і моделювання інтелектуальних процесів базується на методах компараторної ідентифікації лінгвістичних об’єктів, алгебри скінченних предикатів, математичної статистики, теорії множин, теорії графів, лінгвістичного аналізу.

Наукова новизна одержаних результатів. У процесі розв’язання завдань, згідно мети отримано такі результати:

- запропоновано оригінальний метод аналізу структури міждисциплінарної галузі знання комплексу екологічних дисциплін, який оснований на властивостях екологічної інформації;

- обґрунтовано використання методу компараторної ідентифікації екологічних текстів і розроблено формальний апарат опису процесу їх аналізу на основі моделі предметної галузі;

- вперше сформульовано алгоритм автоматичної побудови спеціалізованого тезаурусу на основі ознак галузевої належності дескрипторів;

- розроблено формальні алгоритми і реалізовано процедури автоматичної індексації і предметизації сукупності екологічних текстів в АІБС із врахуванням стилістичних особливостей їх графемної структури, ідентифікації їх позиції в ієрархічній структурі динамічної класифікаційної системи, що об’єктивно відображає предметну галузь, яка представлена текстами у складі АІБС.

Наукова новизна полягає в забезпеченні можливості використання розроблених моделей для автоматичної аналітико-синтетичної обробки підмножини текстів в АІБС, що неможливо було ефективно зробити із використанням традиційних методів. Розроблений метод формалізації структури складної міждисциплінарної галузі комплексу екологічних дисциплін також може бути застосований до інших міждисциплінарних галузей наукового знання.

Практичне значення отриманих результатів. Розроблені алгоритми дозволяють значно підвищити ступінь автоматизації аналітико-синтетичної обробки текстів екологічної спрямованості. Реалізовано методи автоматичної побудови семантичної мережі тезаурусу, реферування, індексації, побудови динамічної класифікації предметної галузі комплексу екологічних дисциплін, систематизації і пошуку екологічних текстів.

Практичні результати дисертаційних досліджень було використано для покращення автоматизації аналітико-синтетичної обробки підфонду текстів екологічної спрямованості у науково-методичному відділі Центральної науко-вої біб-ліотеки Харківського національного університету ім. В.Н.Каразіна і в Хар-ківському науковому інформаційно-бібліотечному центрі ветеринарної медицини. Вони також були використані для удосконалення аналітико-синтетичної обробки екологічних текстів в бібліотеці і на кафедрі екології Миколаївської філії Національного університету "Києво-Могилянська Академія". Окрім цього, результати роботи були використані при виконанні науково-дослідних робіт за темою "Корекція - А" в Харківському військовому університеті. Практичне впровадження підтверджено документально.

Теоретичні наукові положення, результати аналізу семантики предметної галузі і особливостей її лінгвістичних об’єктів використані у навчальному про-цесі у МФ НаУКМА при розробці навчально-методичних комплексів і змісту кур-сів "Банки екологічної інформації", "Системи екологічної інформації", "Іно-зем-на екологічна інформація", "Екологічні інформаційні технології", а також частко-во – при розробці курсу "Біометрія" і підготовці навчального посібника "Біометрія".

Особистий внесок здобувача. Всі результати дослідження отримані автором самостійно. В роботі, що була виконані у співавторстві, дисертантом особисто:

- розроблено формальний опис структури екологічного тексту;

- запропоновано модель аналізу предметної галузі на основі виділення сукупності пов’язаних дисциплін;

- обґрунтовано використання методу компараторної ідентифікації для моделювання інтелектуальної обробки екологічних текстів і розроблено відповідний математичний апарат;

- запропоновано систему ознак галузевої належності дескрипторів.

- розроблено і програмно реалізовано моделі підсистем автоматичного реферування, індексації, систематизації і предметизації екологічних текстів в АІБС.

Апробація результатів дисертації. Результати досліджень оприлюднено на:

1. Науково-методичних конференціях "Могилянські читання", Миколаїв, 1999 - 2002;

2. Наукових семінарах з екології МФ НаУКМА, Миколаїв, 1998 - 2000;

3. Міжнародній конференції "Лісотехнічна освіта і наука в контексті проблем довкілля і розвитку: стратегія на ХХІ століття", Львів, 1999;

4. Шостій щорічній науковій конференції "Україна: людина, суспільство, природа", Київ, 2000;

5. Науково-практичній конференції "Проблеми розвитку культури Миколаївської області", Миколаїв, 2000;

6. Науково-практичній конференції "Атомна промисловість: точка зору молодих науковців", м. Южноукраїнськ, 2000;

7. Науково-практичній конференції "Інноваційні методи в екологічній освіті", Харків, 2000.

Публікації. Основні положення дисертації опубліковані в 8 друкованих наукових роботах, з них 7 статей у наукових збірках і 1 тези доповіді.

Структура і обсяг роботи. Дисертаційна робота складається із вступу, чотирьох розділів, заключення, списку літератури з 114 найменувань, чотирьох додатків; включає 10 рисунків. Загальний обсяг роботи складає 157 сторінок, в тому числі 124 сторінки основного тексту.

ОСНОВНИЙ ЗМІСТ РОБОТИ

У вступі обґрунтована актуальність дисертаційної роботи, сформульовані основна мета і завдання дослідження, наведені відомості про зв’язки досліджень із науковими програмами, планами і темами, висвітлено наукову новизну одержаних результатів, їх практичне значення та впровадження результатів дослідження.

У першому розділі проведено аналіз проблеми і постановку завдань дослідження. Описано сучасний стан автоматизації спеціальних і наукових бібліотек, новітні підходи в цій галузі і головні тенденції її розвитку. Визначено місце і роль інформаційно-пошукових засобів АІБС в аналітико-синтетичній обробці екологічної інформації. Показано, що аналітико-синтетична обробка масивів таких текстів є складним наукомістким процесом, який вимагає залучення знань значної кількості фахівців із різною фаховою підготовкою.

Автоматизація аналізу і пошуку екологічних текстів утруднена через відсутність релевантних інформаційно-пошукових засобів, що в значній мірі обумовлено методологією цієї галузі знання. Розповсюджені АІБС не підтримують автоматизовану аналітико-синтетичну обробку фондів екологічних текстів, що проявляється в структурі їх лінгвістичного забезпечення. В той же час алгоритми аналізу екологічних текстів передбачають використання (в межах методики спеціальної систематизації) експертного знання про структуру предметної галузі, сукупності пов’язаних понять різних наукових дисциплін, а також прийняття класифікаційного рішення на основі виявлення семантичних зв’язків між окремими смисловими елементами текстів.

Розглянуто можливості використання різних видів інформаційно-пошукових мов для ідентифікації екологічного знання в ПТБД АІБС і обґрунтовано необхідність застосування більш ефективних засобів для відображення структури предметної галузі. Напрямком дослідження було обрано створення надійних і точних засобів ідентифікації екологічного знання в АІБС.

У розділі проаналізовані джерела екологічної інформації та перетворення, яких вона зазнає під час проходження по інформаційних комунікаціях. Екологія як наука спирається в плані постачання наукових відомостей про окремі системоутворюючі об’єкти на інформацію, яка отримана дослідниками інших наукових напрямків. Отже, існує коло наукових дисциплін, які пов’язані з екологією такого роду інформаційними відношеннями.

У другому розділі розроблені математичні засоби формалізації екологічної інформації в АІБС. У якості методологічної основи побудови математичних моделей використано формальну мову алгебри скінченних предикатів і теорію компараторної ідентифікації лінгвістичних об’єктів, розвинутої на її базі.

Аналіз проблеми дозволив визначити сукупність множин, що є базовими для побудови моделей із використанням методу компараторної ідентифікації: текстів у складі ПТБД АІБС: , ключової термінології предметної галузі: , дисциплін предметної галузі: . Для кожної пари елементів і є осмисленим предикат P(ti, kj)=, ={0,1}, що виражає здатність лексичної одиниці предметної області описувати зміст конкретного тексту. При його автоматичному визначенні на множинах Т і К предикат буде для одних і тіх же і постійно приймати однакові значення.

Міждисциплінарний характер предметної галузі обумовлює складну тематичну структуру множини текстів. Спостерігається стійка тенденція до використання в них термінологічних одиниць із складу тезаурусів різних наукових дисциплін, які є джерелами інформації про природні об’єкти і закономірності фізичного світу. Виділення множини D цих дисциплін і напрямків досліджень дозволяє виявити лексико-семантичну структуру предметної галузі і формально описати процес ідентифікації змісту екологічного тексту. На добутку множин KxD введений предикат P(kj, dh)=, ={0,1}, що описує належність дескрипторів kj до тезаурусів дисциплін dh. Визначення значення предикату P(kj, dh) для всіх пар елементів множин ставить у відповідність кожному елементові множини D певний набір дескрипторів.

Ключові терміни у складі тексту можуть виконувати функцію індикаторів наявності ознак елементів множини D у текстах з множини T. На основі входження ключових термінів до тексту можливо встановити сукупність всіх dh, що пов’язані з ним. Показник частотності ключових термінів із врахуванням графемного статусу даної лексичної одиниці в тексті дозволяє визначити сумарну вагу для кожного dh.

Операція сортування елементів dh за спаданням значення їх ваги ставить у відповідність кожному тексту впорядковану послідовність . Вона інтерпретується як встановлення множини логічних значень тематично-текстового предикату:

. (1)

Ця послідовність відбиває загальну тематику тексту таким чином, що чисельно визначає співвідношення окремих семантичних компонентів тексту. Аналогом цієї процедури при виконанні аналітико-синтетичної обробки суб’єктом є пошук складеного класифікаційного індексу для тексту із невизначеною галузевою або тематичною належністю.

Існування можливості визначити індекс тексту свідчить про те, що цей текст знаходиться в межах предметної галузі комплексу екологічних дисциплін. Предикат (1) задає структуру семантичних відношень на множині текстів і визначає формальний вигляд відношення еквівалентності Ф між будь-якими двома семантично близькими текстами таким чином, що:

. )

Відношення Ф визначає розбивку множини Т на шари умовної еквівалентності, якими представлені семантично близькі тексти, і задає на декартовому добутку TxT предикат . Аналогічно, на множині всіх індексів визначене відношення еквівалентності Y:

, )

яке задає на множині всіх індексів предикат , що визначає розбивку множини на шари еквівалентних індексів.

Предикати , , дозволяють виконати логічну і математично обґрунтовану класифікацію сукупності текстів міждисциплінарної галузі знання. Кожному класу всіх текстів, виділених при розбивці множини Т, умовно еквівалентних тексту , відповідає предикат , який задає відношення:

. )

Кожному класу всіх послідовностей, виділених при розбивці множини , умовно еквівалентних послідовності , відповідає предикат , який задає відношення:

. (5)

Існує сюр’єкція , яка відображає множину класів умовно еквівалентних текстів на множину груп умовно еквівалентних індексів. Таким чином, індекси виступають у ролі імен шарів розбивки .

Застосування алгоритму систематизації розглянуто в роботі на прикладі вибірки текстів (i=10) і ключових термінів (j=10), що відносяться до предметної галузі. Отримано множину шарів умовної еквівалентності текстів, які виражаються через диз’юнктивну форму тематично-текстового предикату і множину шарів умовно еквівалентних індексів , що виступають як ідентифікатори або класи текстів.

Предметизація текстів полягає в відображенні змісту тексту через присвоєння йому сукупності предметних рубрик. Зміст тексту t визначає його предмет :

, , )

де T - множина всіх предметів текстів з множини T. Значення предикату визначається не безпосередньо, а через усвідомлення виражених ключовими термінами понять ,. Отже, на добутку множин тем текстів і понять заданий предикат . Значення предикату також встановлюється суб’єктом не безпосередньо, а через усвідомлення належності поняття до семантичного поля певної дисципліни d. Отже на добутку множин понять і семантичних полів дисциплін заданий предикат .

Визначення індексу виконується через усвідомлення суб’єктом складу множини семантичних полів , релевантних темі даного тексту і з’ясування їх відносної ваги у формуванні загального смислу тексту. Тому тематично-текстовий предикат (1) може бути виражений через новий предикат , який описує здатність суб’єкту знаходити місце теми даного тексту в семантичній структурі міждисциплінарної предметної галузі.

Наявність предикату X(,) дозволяє виразити предикати еквівалентності ) і через предикати еквівалентності і , що описують інтелектуальні процеси у свідомості суб’єкту аналітико-синтетичної обробки.

Формальний опис обробки екологічних текстів надає можливість відтворювати процеси індексації, систематизації і предметизації текстів однієї з найскладніших предметних галузей за допомогою програмних засобів АІБС.

В третьому розділі описується лінгвістичне забезпечення (ЛЗ) аналітико-синтетичної обробки текстів екологічної спрямованості. Визначено межі предметної галузі, на прикладах розглянуто лексико-семантичні особливості екологічних текстів, проаналізовано структуру термінологічного комплексу.

Міждисциплінарна інтеграція і складність об’єктів досліджень є критичними факторами по відношенню до обсягів наукової інформації і спеціалізованих інформаційно-пошукових мов, кількості інформації на вході лінгвістичного процесору, семантичної структури тезаурусів спеціалізованих АІБС. Вони утруднюють розробку лінгвістичного забезпечення АІБС для даної предметної області із використанням стандартних підходів.

Розроблені математичні моделі надають можливості ефективно вирішити цю проблему. Було виконане виділення достатньої, ненадлишкової і несуперечливої множини D пов’язаних дисциплін, придатної для класифікаційної розбивки тексту. Кожному елементу множини D було однозначно поставлено у відповідність знову сформульоване мнемонічне ім’я, повний перелік яких наведено у додатку додатку А до дисертації.

Фіксація відношення ключових термінів до елементів множини D виконується експертно, за допомогою спеціально розроблених допоміжних засобів. Обробка текстів починається з визначення їх типу за обсягом текстової інформації. Всі тексти поділяються за обсягом на: графемно-короткі; середні; графемно-довгі. Виконується виділення в структурі тексту найбільш інформативних графемних елементів. Графемний аналіз також дозволяє виділити для довгих текстів структурні субодиниці: розділи, глави тощо та виконати їх подальшу незалежну обробку. На основі пошуку специфічних ознак національних наборі символів визначається мова тексту, в тому числі й текстів зі змішаними наборами літер, що характерно для природознавчих текстів.

На етапі лексичного аналізу виконується пошук в тексті дескрипторів, які зберігаються в БД багатомовного ІПТ, що для кожної з мов містить їх повні словникові форми та нормалізовані морфологічно незмінні основи. Алгоритм нормалізації морфологічного аналізатору зберігається процедурно і використовує бази даних флексій і квазифлексій для всіх мов тезаурусу. Це дозволяє уникнути накопичення у дескрипторних статтях тезаурусу словозмінних парадигм.

У розділі розглянуто розроблену математичну модель структури ІПТ для даної предметної галузі. На відміну від традиційної дескрипторно-аскрипторної схеми ІПТ, у наведеній моделі логічна структура семантичної мережі обумовлена характером заповнення певного багатовимірного простору, утвореного системою елементів множини , вимірність якого дорівнює потужності множини D.

Для семантично пов’язаних дескрипторів і в даній моделі визначені чотири типи взаємовиключних відношень (R1, R2, R3, R4), а саме: збіг множин (R1(,) ~ , умовна еквівалентність дескрипторів); асоціативне включення (R2(,) ~
~ ); асоціативне перетинання (R3(,) ~ ()); відсутність зв’язку (R4(,) ~ ()).

Формальним показником ступеня тісноти асоціативного семантичного зв’язку між дескрипторами є числове значення відносного показника nab потужності перетинання , що характеризується для різних типів відношень наступним чином: R1 (nab=na=nb); R2 ((nab=na, nab<nb)); R3 ((nab<na, nab<nb)); R4 (nab=0).

Кожна пара дескрипторів множини К зв’язана відношеннями одного з чотирьох наведених типів: , які утворюють на множині К семантичну мережу ІПТ.

Наведено математичну модель процесу систематизації множини текстів екологічної спрямованості. На етапі обробки ПТБД автоматичний компаратор ставить у відповідність кожному тексту індекс . Відображення в індексі лише першорядних семантичних компонентів тексту відбувається на основі зважування значень відносно значення першого елементу індексу і суми значень всього індексу. Для формування індексів у якості елементів використовуються мнемонічні імена.

Аналіз структури простору, заповненого індексами, надає уяву про класифікаційний розподіл текстів по семантичному полю предметної галузі. Впорядкованість індексів задає структуру відношень між ними і є основою побудови ієрархічної деревоподібної класифікаційної системи. Для кожних двох текстів a,bT та їх індексів , де індекси і їх перетинання характеризуються потужністю , можливо встановити один з п’яти типів взаэмовиключних відношень, а саме: збіг індексів (R1(,) ~
~ ); родовидове включення індексів (R2(,) ~
~() () () (); асоціативне включення індексів (R3(,)~() ()); асоціативне перетинання індексів (R4(,)~() () ()
()); відокремленість індексів (R5(,)~( )).

У роботі визначено вигляд відношення, яке для кожної пари індексів задає шукану ієрархічну класифікаційну систему, що характеризується наявністю більш ніж однієї верхівки, системою родовидових і асоціативних зв’язків, більш загальним змістом коротких індексів у порівнянні із довгими, залежністю структури від тематичної структури ПТБД, завдяки чому зберігається об’єктивність і функціональність класифікації.

В четвертому розділі описано практичну реалізацію розроблених математичних моделей і алгоритмів у вигляді пакету прикладних програм аналітико-синтетичної обробки екологічних текстів і пошуку в повнотекстовій базі даних "Экотекст". Використана мова програмування - Visual Basic 6.0.

Виділені елементи предметної галузі заносяться до БД класифікатору з текстовими полями для мнемонічних імен і назв елементів. Значення предикату фіксується в одному полі дескрипторної статті у вигляді множини мнемонічних імен. Визначення класів на множині дескрипторів реалізується динамічно як відбір підмножин дескрипторних статей за параметрами. Динамічно відтворена на основі математичної моделі семантична мережа тезаурусу представляє собою зважений граф G(R,K) із циклами, де K – це множина дескрипторів тезаурусу, що є вершинами графу, а R – множина ребер графу, представлена парами ei=Rn (ki1, ki2), kijОK, RnО(R1, R2, R3, R4). Вага ребер дорівнює значенню показника nab.

Графемний аналізатор визначає мову тексту, тип тексту за обсягом, розбиває текст на абзаци, визначає їх графемний статус в тексті і фіксує його значення за допомогою числового показника ваги. На основі відбору інформативних елементів тексту створюється квазиреферат, який представляє найбільш семантично вагому частину тексту. Квазиреферат передається на вхід лексичного аналізатору, який шукає перетинання лексем тексту і дескрипторів тезаурусу із можливими комбінаціями морфологічно-незмінних основ у простих реченнях.

Компаратор знаходить множини значень предикатів P(ti,kj) і P(ti,dh), визначає для тексту значення ваг семантичних компонент і формує індекс тексту. Процедура побудови семантичної мережі класифікації аналогічна процедурі побудови мережі тезаурусу: для кожної пари індексів визначається один з п’яти типів взаємовиключних відношень. У разі визначення типу відношення для пари текстів, перевірка переривається і здійснюється перехід до іншої пари індексів (рис. 1).

Рис. 1. Хід прийняття рішення компаратором про тип відношення

між індексами текстів

Побудована мережа представляє собою зважений граф H(R,T) із циклами, де T – множина всіх елементів повнотекстової бази даних, відображена на множину індексів , а R - множина встановлених відношень.

Реалізовано два види пошуку в ПТБД: семантичний координатний пошук за структурою класифікації і пошук за формальними ознаками (автор, назва, ключові слова, кількісні характеристики тощо). Семантичний пошук реалізовано на основі компараторної ідентифікації змісту запиту користувача, вираженого природною мовою.

Запит аналізується із використанням вищеописаних процедур: для нього формується індекс , який тимчасово включається до семантичної мережі класифікації як додаткова верхівка va. Шукається ланцюг графу, до якого належить верхівка, що представляє запит. Класи умовної еквівалентності текстів інтерпретуються на даному графі як верхівково- та реберно-незалежні маршрути, причому вага всіх ребер маршрутів дорівнює одиниці, тобто представляє відношення збігу індексів повних текстів. При необхідності максимальної релевантності результатів пошуку і обмеженні їх кількості як результат пошуку представляються всі верхівки маршруту, на якому знаходиться va. При розширенні границь пошуку до множини релевантних текстів включаються індекси текстів, які пов’язані з індексом запиту іншими типами відношень.

У розділі наведено моделі інтеграції розроблених алгоритмів і програмного забезпечення до існуючих АІБС із бібліографічними БД у міжнародному форматі MARC і інформаційно-пошукових систем на основі HTTP-серверу у складі MS IIS під управлінням ОС Windows (рис 2).

Рис. 2. Схема здійснення семантичного пошуку текстів екологічної спрямованості через HTTP інтерфейс на основі Microsoft Information Server

На рис. 2 цифрами показано: (1) – запит користувача за URL веб-інтерфейсу системи; (2) – завантаження браузером гіпертекстового файлу із екранними формами графічного інтерфейсу; (3) – відправка серверу значень полів екранної форми і передача їх до прикладної програми ISAPI у вигляді масиву змінних; (4) – ініціація обробки запиту прикладною програмою і передача запиту у вигляді параметру до ActiveX-компонента рубрикації, який формує індекс запиту із використанням ІПТ (5) і повертає його прикладній програмі (6); ініціація прикладною програмою об’єктів компоненту семантичного пошуку і передача йому індексів із додатковими параметрами; (7) – знаходження масиву посилок на релевантні документи із використанням переданої пошукової директиви; (8) – прикладна програма на основі отриманих масивів записів формує гіпертекстовий файл і (9) – відправляє його через відкрите з’єднання браузеру-клієнту.

Для доступу до вмісту текстових полів MARC-сумісних БД АІБС пропонується застосовувати додаткове програмне забезпечення, яке безпосередньо звертається до БД, виділяє в записах придатні для компараторної ідентифікації за описаними алгоритмами текстові поля, індексує документи і імпортує бібліографічну інформацію до додаткових БД підсистеми ідентифікації екологічних текстів, яка також обробляє запити користувача і здійснює пошук.

ВИСНОВКИ

У дисертації наведено теоретичне узагальнення і нове вирішення наукової проблеми, що виявляється в автоматичній ідентифікації екологічних текстів у складі повнотекстових баз даних АІБС на основі застосування формальних моделей їх інтелектуального аналізу фахівцями. Вирішення цієї проблеми має велике значення для покращення доступу до екологічної інформації через підвищення ефективності аналітико-синтетичної обробки і здійснення тематичного і семантичного пошуку.

За матеріалами дисертації можна сформулювати такіі головні висновки і результати.

1. Досліджено семантичну структуру предметної галузі комплексу екологічних дисциплін і визначено особливості використання відомостей про її структуру в процесі аналітико-синтетичної обробки екологічних текстів.

2. Побудовано формалізовану модель процесу ідентифікації змістовних ознак екологічних лінгвістичних об’єктів на основі методу компараторної ідентифікації, розроблено математичні методи їх лексико-семантичного аналізу.

3. Із використанням системи введених предикатів і відношень розроблено компараторну методику автоматичної побудови семантичної мережі спеціалізованого багатомовного інформаційно-пошукового тезаурусу АІБС, систематизації елементів повнотекстової бази даних, пошуку текстів, що є релевантними природномовному запиту користувача.

4. Розроблено формальні алгоритми і реалізовано процедури автоматичної індексації і предметизації сукупності екологічних текстів в АІБС із врахуванням стилістичних особливостей їх графемної структури, ідентифікації їх позиції в ієрархічній структурі динамічної класифікаційної системи, що об’єктивно відображає підмножину тем предметної галузі.

5. Забезпечено можливість використання розроблених формалізмів для автоматичної аналітико-синтетичної обробки екологічних текстів в АІБС, що неможливо було ефективно зробити з використанням традиційних методів. Розроблений метод формалізації структури складної предметної галузі до інших міждисциплінарних галузей наукового знання.

6. Розроблені методи і алгоритми реалізовані у вигляді процедур пакету прикладних програм. Визначені моделі їх інтеграції у вигляді модуля підсистеми каталогізації і доступу користувачів до існуючої АІБС, та пошукової системи на основі HTTP-серверу.

7. Практичні результати дисертаційних досліджень було використано для покращення автоматизації аналітико-синтетичнолї обробки підфонду екологічних текстів, у науково-методичному відділі Центральної наукової бібліотеки Харківського національного університету і в Харківському науковому інформаційно-бібліотечному центрі ветеринарної медицини, на кафедрі екології та в бібліотеці Миколаївської філії Національного університету "Києво-Могилянська Академія". Алгоритми аналізу текстів були використані під час виконання держбюджетної теми Міністерства оборони "Корекція-А" Харківського військового університету.

Основний зміст дисертації відбито у публікаціях:

1. Єлісєєв В.В. Автоматизована дидактична інформаційна система з екології // Науковий вісник Укр. держ. лісотех. ун-ту.– 2000. – Вип. 10 (1). – С. 98 – 102

2. Єлісєєв В.В. Компараторна ідентифікація екологічних текстів для пошуку релевантних документів в повнотекстових БД та електронних каталогах АІБС // Вісн. Херсон. держ. техн. ун-ту. – 2001. – № 4(13). – С.17 – 19

3. Шаронова Н.В., Єлісєєв В.В. Математичне моделювання процесів ідентифікації і класифікації текстів з екологічної тематики в автоматизованих інформаційних бібліотечних системах // Вісн. Херсон. держ. техн. ун-та. – 2001. – № 1(10). – С. 18 – 21.

4. Єлісєєв В.В. Аналіз визначень терміну екологія // Наук. праці Миколаївської філії нац. ун-та "Києво-Могилянська Академія". – 1999. – Т.3. - С.124 – 125

5. Єлісєєв В.В. Впорядкування інформації – поточна проблема екологічної науки // Наук. записки Нац. ун-та "Києво-Могилянська Академія". – 2000. – Т.18, ч.ІІ. – С.334 –

6. Єлісєєв В.В. Екологічна інформація та її біологічна складова: деякі властивості // Наук. праці Миколаївської філії нац. ун-та "Києво-Могилянська Академія". – 2000. – Т.6. – С.42 – 43

7. Єлісєєв В.В. Систематизація і класифікація екологічної інформації як засіб підвищення якості екологічної освіти в ВНЗ // Людина і довкілля: Проблеми неоекології. – 2000. –№ 1(1). – С.60 – 66

8. Єлісєєв В.В. Радіоекологія і техногенна складова екологічної інформації // Тези доп. наук.-практ. конф. “Атомна промисловість: Точка зору молодих науковців". – Миколаїв: МФ НаУКМА, 2001. – С. 10 – .

АНОТАЦІЯ

Єлісєєв В.В. Ідентифікація екологічного знання в автоматизованих інформаційно-бібліотечних системах. – Рукопис.

Дисертація на здобуття наукового ступеня кандидата технічних наук за спеціальністю 05.13.06 – автоматизовані системи управління та прогресивні інформаційні технології. – Херсонський державний технічний університет, Херсон, 2002.

Дисертація присвячена розробці забезпечення обробки і ідентифікації екологічних текстів у складі повнотекстових БД автоматизованих інформаційних бібліотечних систем на основі моделей їх інтелектуального аналізу фахівцями.

Для розробки моделей і алгоритмів використано математичний апарат компараторної ідентифікації. Введена система предикатів і відношень дозволила автоматизувати процедури реферування, індексації, систематизації, предметизації і пошуку екологічних текстів, побудови семантичних мереж спеціалізованого інформаційно-пошукового тезаурусу і класифікаційної системи. Моделі і алгоритми програмно реалізовані в пакеті прикладних програм "Екотекст". Наведено відомості про впровадження результатів дослідження.

Ключові слова: автоматизовані бібліотечні системи, екологічна інформація, класифікація, пошукові системи, компараторна ідентифікація, алгебра скінченних предикатів.

SUMMARY

Yeliseyev V.V. Identification of ecological knowledge in automated information-library systems. - Manuscript.

Thesis for technical sciences candidate’s degree by speciality 05.13.06 – automated control systems and progressive information technologies. – Kherson State Technical University, Kherson, 2002.

The thesis considers the development of algorithms and software for identification of ecological texts in full-text databases of automated information-library systems on the base of models their intellectual analysis by specialists. For these goals the mathematical methods of comparer identifications were used.

The created system of predicates and relations allowed to automate the procedures of abstracting, indexing, systematizations, subject headlines defining and searching of ecological texts, building of semantic networks of specialized thesaurus and classification system. The models and algorithms are implemented in the 'Ecotext' software package. Information about introduction of the research results is given.

Keywords: automated library systems, ecological information, categorization, search systems, comparer identification, finite predicates algebra.

АННОТАЦИЯ

Елисеев В.В. Идентификация экологического знания в автоматизированных информационно-библиотечных системах. – Рукопись.

Диссертация на соискание ученой степени кандидата технических наук по специальности 05.13.06 – автоматизированные системы управления и прогрессивные информационные технологии. – Херсонский государственный технический университет, Херсон, 2002.

Диссертация посвящена разработке обеспечения автоматизации аналитико-синтетической обработки и идентификации экологических текстов в составе полнотекстовых БД автоматизированных информационных библиотечных систем (АИБС) на основе моделей их интеллектуального анализа специалистами предметной области и субъектами библиографической деятельности.

Решение данной проблемы крайне важно для полноценного, эффективного и быстрого доступа к экологической информации, который является основой необходимого уровня экологической безопасности общества, усовершенствования методов управления состоянием окружающей среды, повышения уровня научных исследований, экологического образования и культуры. Существование данной проблемы обусловлено неприспособленностью стандартных информационно-поисковых средств АИБС для проведения семантического анализа и поиска специальных текстов, порожденных в предметных междисциплинарных областях со сложной структурой, какой является экология.

Для разработки моделей и алгоритмов использован метод компараторной идентификации лингвистических объектов основанный на математическом аппарате алгебры конечных предикатов. Введенная система предикатов и отношений позволила построить формальную математическую модель семантической структуры предметной области, разработать методику автоматизации реферирования, индексации, систематизации, предметизации и поиска экологических текстов, построения семантических сетей специализированного информационно-поискового тезауруса и иерархической древовидной классификационной системы на основе оригинального метода анализа тематических индексов.

Математические модели предусматривают формализацию анализа лингвистических объектов в текстовом представлении на уровне интеллектуальных процессов понимания и анализа. В работе изложены результаты лексико-семантического анализа предметной области, рассмотрены особенности экологической информации.

Построение семантической сети тезауруса производится с использованием базы экспертных знаний о структуре предметной области. Автоматически устанавливается четыре типа отношений между дескрипторами, которые соответствуют степени семантической связи между ними. Индексация и предметизация текста производится на основе соотнесения автоматическим компаратором его содержания с отдельными элементами предметной области и фиксации, установленных соответствий в виде совокупности мнемонических обозначений, упорядоченных в порядке убывания веса данного семантического компонента в тексте.

Алгоритм поиска позволяют пользователю излагать поисковое предписание в виде предложений естественного языка, которые подвергаются лингвистическому анализу и соотносятся с информацией об охвате фондом электронных текстов предметной области для поиска в нем непосредственных, родовидовых и ассоциативных соответствий текстов теме запроса.

Все разработанные модели и алгоритмы реализованы в пакете прикладных программ аналитико-синтетической обработки и поиска экологических текстов "Экотекст". Сравнение результатов автоматизированной обработки текстов и поиска с аналогичными результатами, полученными с использованием стандартных поисковых средств, показало их более высокую релевантность в первом случае при значительном снижении времени поиска и уменьшении размеров баз данных индексов.

Эффективность разработанного программного, математического и лингвистического обеспечения подтверждается эффективностью внедрения практических результатов диссертационного исследования. Они были использованы в рамках автоматизации аналитико-синтетической обработки подфонда текстов, связанных с комплексом экологических дисциплин, в научно-методическом отделе Центральной научной библиотеки Харьковского национального университета и в Харьковском научном информационно-библиотечном центре ветеринарной медицины, на кафедре экологи и в библиотеке Николаевского филиала Национального университета "Киево-Могилянская Академия". Алгоритмы анализа текстов были использованы во время выполнения госбюджетной темы Министерства обороны "Коррекция-А" в Харьковском военном университете.

Ключевые слова: автоматизированные библиотечные системы, экологическая информация, классификация, поисковые системы, компараторная идентификация, алгебра конечных предикатов.