Автореферат СИСТЕМОТЕХНІКА ТА ТЕХНОЛОГІЯ ЛЕКСИКОГРАФІЧНИХ СИСТЕМ СЕМАНТИЧНОГО ТИПУ

Автореферат - СИСТЕМОТЕХНІКА ТА ТЕХНОЛОГІЯ ЛЕКСИКОГРАФІЧНИХ СИСТЕМ СЕМАНТИЧНОГО ТИПУ

Загрузка...

ДОПОВІДЬ

НАЦІОНАЛЬНА АКАДЕМІЯ НАУК УКРАЇНИ

НАЦІОНАЛЬНА БІБЛІОТЕКА УКРАЇНИ

імені В.І.ВЕРНАДСЬКОГО

ЯКИМЕНКО КОСТЯНТИН МИКОЛАЙОВИЧ

УДК 658.012.011.56

СИСТЕМОТЕХНІКА ТА ТЕХНОЛОГІЯ

ЛЕКСИКОГРАФІЧНИХ СИСТЕМ СЕМАНТИЧНОГО ТИПУ

Спеціальність - 05.13.06 Автоматизовані системи управління

та прогресивні інформаційні технології

Автореферат

дисертації на здобуття наукового ступеня

кандидата технічних наук

Київ – 2006

Дисертацією є рукопис.

Робота виконана в Українському мовно-інформаційному фонді

Національної академії наук України.

Науковий керівник: доктор технічних наук Широков Володимир

Анатолійович, директор Українського мовно-інформаційного фонду НАН України

Офіційні опоненти: доктор технічних наук, професор Рубан

Владислав Якович, професор кафедри економічної кібернетики Київського національного університету технологій та дизайну Міністерства освіти і науки України

кандидат технічних наук, старший науковий співробітник Чікіна Валентина Олексіївна, провідний науковий співробітник, завідуюча лабораторією "Штучний інтелект" кафедри Програмного забезпечення ЕОМ Харківського національного університету радіоелектроніки Міністерства освіти і науки України

Провідна установа: Інститут кібернетики ім. В.М.Глушкова

НАН України, м.Київ

Захист відбудеться "27" квітня 2006 року о 13 год. на засіданні спеціалізованої вченої ради Д26.165.01 по захисту дисертацій на здобуття наукового ступеня доктора (кандидата) технічних наук у Національній бібліотеці України імені В.І.Вернадського за адресою: м. Київ, 03039, просп. 40-річчя Жовтня, 3.

З дисертацією можна ознайомитись у Національній бібліотеці України імені В.І.Вернадського (м. Київ).

Автореферат розіслано "24" березня 2006 р.

Вчений секретар

спеціалізованої ради

кандидат економічних наук Чекмарьов А.О.

ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ

Останнім часом у теорії та практиці інформаційної науки все вагоміше місце займає роз-роб-ка моделей, методів і технологій, орієнтованих на використання природної мови в комп’ютерних системах. За прогнозами фахівців, протягом найближчих років значна частина інформаційних технологій буде переорієнтована саме на використання природної мови. В той же час, створення інтелектуальних систем обробки інформації та інтелектуальних людино-машинних інтерфейсів без глибокого розуміння механізмів природ-ної мови взагалі вважається немислимим. Саме тому все важливішим стає завдання розробки ефективних технологічних методів та засобів, що можуть бути засто-совані при розв’я-занні однієї з основних про-бле-м лінгвотехнології – про-бле-ми значення одиниць та конструкцій мови, тобто семантично-орієнтованих засобів обробки природномовних інформаційних масивів.

Розв’язання цього завдання у сучасній науці потребує нових підходів та способів опрацю-вання мовного матеріалу, оскільки у більшості лінгвістичних досліджень сло-во як об’єкт аналізу розглядається з позицій однієї чи двох граматичних категорій або окремих лексико-семан-тичних груп. При цьому обсяг досліджуваного матеріалу не завжди репрезен-та-ти-в--ний, а результати подібних досліджень фіксуються в описовій формі, не ада-п--тованій для форма-лі-зованого аналізу й ефективного засто-сування у прик-лад-них системах.

Викладене ставить перед інформаційною наукою вимогу комп-лекс-ної та ефек-тив-ної па-раметризації семантики, передусім граматичної і лексичної. Комп-лексність полягає у вста-нов--ленні мно-жини параметрів, які з до-статньою пов-но-тою описують семан-тичні вла-с-тивості мовних одиниць, та визначенні сут-тєвих зв’яз-ків між ними. Ефективність же вимагає, щоб, по-перше, результати було отри-мано на мовно-му ма-теріалі значного обсягу; по-друге, щоб було вироблено і застосовано єдині ме-то-дологічні прин-ципи кла-си-фікації матеріалу; по-тре-тє, щоб ре-зуль-тати представлялися в уніфікованій фор-мі, доступній та зручній для застосування в комп’ю-тер-них тех-но-логіях.

Прикладом семантичних досліджень, орієнтованих на комп’ютерні застосування, ста-ли спро-би автоматизованого ана-лізу змісту великих слов-ників із метою ви-яв-лен-ня в них різно-пла-но-вих се-мантичних структур, зокрема праці під керівництвом Симмонса з аналізу структури слов-ни-ка Вебстера, дослідження структури та побудова семантичних мереж на основі Longman Dictionary of Contemporary English (праці Міхелса, Накамури та Нагао, Фоссена) та ін. Ці дослідження розви-ва-ються з кінця 60-х років ми-нулого століття. Однак, у численних спробах побу-дови се-ман--тич-них систем на основі аналізу тлу-мачних слов-ни-ків струк--тура словника та словникової стат-ті розгляда-лися не як репре-зентанти онтоло-гіч-них влас-ти-вос-тей та зако-но-мірностей мови, а скоріше як засоби для забезпечення зруч-ності, ком-пакт--ності, еко-ном-ності і т. ін. при поданні різнохарактерної лінгвістичної інформації. Тим оче-вид-ні-шим постає завдання системного ос-мис-лен-ня та інтер-пре-тації словникових сис-тем аб-страговано від їхнього кон-крет--ного тексто-вого втілення. Апарат для цього надає теорія лексикографічних систем.

Тлу-ма-ч-ні сло-в-ни-ки є дже-ре-лом ве-ли-че-з-но-го ін-фор-ма-цій-но-го ре-сур-су, то-му не-ви-пад-ко-во ба-га-то-то-м-ні сло-в-ни-ки тлу-ма-ч-но-го ти-пу вва-жа-ю-ть-ся най-ви-щи-ми до-ся-г-нен-ня-ми ко-ж-ної на-ці-о-наль-ної ле-к-си-ко-гра-фії, і во-ни фа-к-ти-ч-но на-бу-ва-ють ста-ту-су на-ці-о-наль-но-го над-бан-ня. Саме тому надзвичайно великого значення набуває завдання укладання нового тлумачного Словника української мови. Ство--рен-ня подібного продукту є надзвичайно працемістким і виступає, фактично, як основне завдання у програмі створення Національної словникової бази, що виконується за Указом Президента України від 7 серпня 1999 р. № 967. Зважаючи на перспективи застосування цього словника як основи для комп’ютерних семан-тич-них аналізаторів природної мови, стає зрозумілим, що застосування комп’ютерних технологій для його розробки є безальтернативним.

Зауважимо, що лексикографічні системи семантичного типу покликані за--без-пе-чити ефективний ін-с-тру--мен--тарій для роз-в’я-зання проблем ство-рення ін-те-лек-туальних ін-фор-ма-цій-них сис-тем опра-цювання природної мови. При цьому такі систе-ми повинні інтегрувати максимально повний набір семантич-них відношень між елемен-тами мови, таких як синонімія, антонімія, гіпо- та гіперонімія, фразеоло-гічні відношення тощо. Отже, завдання створення подібних систем для української мови є актуальним. Варто додати, що воно визна-чається і завданнями, які випли-вають з постанови Кабінету Міністрів України від 02.10.03 № 1546 "Про затвердження Дер-жав-ної програми розвитку і функціонування української мови на 2004–2010 роки" (п. 10 "Створення і забезпечення функціонування української мови в інформаційному комп'ютерному середовищі" та п. 11 "Проведення фундаментальних і прикладних наукових досліджень у галузі лінгвістичної технології"). Викладене потребує одержання цілої низки формалізованих лінгвістичних фактів із лексичної та граматичної семантики на максимально повному мовному матеріалі, що неможливо без розробки нових лінгвістичних комп’ютерних технологій та відповідного інструментарію.

Проблемі розробки нових технологій для створення семантично-орієнтованих систем та проведення досліджень на їх основі і присвячене наше дисертаційне дослід-ження "Системотех-ніка та технологія лексикографічних систем семантичного типу".

Зв’язок дослідження з науковими програмами, планами, темами.

Ре-зу-ль-тати ди-сертаційного дослідження одержано в процесі вико-нання загаль-но--дер-жав-ної та ві-дом--чої тематики науково-дослідних робіт і рішень Уряду України, а саме:

1. Указу Президента України від 7 серпня 1999 р. № 967 "Про розвиток на-ці-о-нальної словникової бази" та розпорядження Кабінету Міністрів України від 22 листопада 2000 р. № 464-р "Про першочергові завдання із створення на-ціо-нальної словникової бази" (завдання . Роз-роб-лення комп’ютерної техно-ло-гії та ство-рення технологічного комплексу для укладання фундамен-тальної ба-га-то-том-ної академічної лексикографічної системи "Словник української мови").

2. Відомчих наукових тем НАН України "Україномовні лексикографічні системи" (Шифр теми: 4.19.15.) та "Дослідження мовно-інформаційних процесів та розподілених систем націо-наль-ної словникової бази" (Шифр теми: 0102U003221).

Мета і завдання дослідження. Метою дисертаційної роботи є розробка моделей лек-си-ко-графічних систем семантичного типу, створення комп’ютерних семантично-орієнтованих систем та ефективного інструментарію для проведення досліджень на їх основі.

Досягнення цієї мети передбачає виконання таких науково-технічних завдань:

– розвинення теорії лексикографічних систем для систем семантичного типу;

– розробку концептуальних моделей, алгоритмів та програмного забезпечення авто-ма-тизованого формування лекси-кографічних баз даних семантичного типу;

– розробку програмно-технологічного інструментарію для укладан-ня великих тлумачних словників, у першу чергу нового тлумачного 20-томного Словника української мови;

– розробку алгоритмів та програмних засобів автоматизованої конверсії, синтезу та інтег-рації семан-тичних систем на ос-нові лексикографічних баз даних тлумачного, фразео-логічного, синоні-мічного та етимоло-гічного типу;

– розробку та створення програмних засобів для проведення семан-тич-них досліджень на основі лексикографічних баз даних семантич-ного типу.

Об’єктом дослідження є лексикографічні системи семантичного типу як не-об--хід-ний компонент у лю-дино-машин-них систе-мах.

Предметом дослідження є нові інформаційні технології розробки, укладання та ведення лексикографічних систем семантичного типу.

Методи дослідження ґрунтуються на комп’ютерному моделюванні лінг-віс-тичних явищ. Використовується інформаційна те-о-рія лек-си-ко-гра-фіч-них си-с-тем, теорія баз даних, фор-малізована інтерпретація мов-ного матеріалу та засоби його автоматичної конверсії до лек-сико-графічних баз даних, сучасні інструментальні засоби програму-вання.

Наукова новизна:

– запропоновано структуру фундаментальної академічної лексикографічної сис-теми "Словник української мови" (ЛС СУМ) та відповідної лексикографічної бази даних (ЛБД);

– розроблено системо-технічні засади фундаментальної академічної ЛС СУМ і алгоритми та струк-тури баз даних для створення та ведення Українського національного лінгвістичного корпусу;

– на основі розви-неної концеп-туально-технологічної схеми запропоновано елемен-ти тех-нології для укладання тлумач-них словників інших мов, зокрема російської;

– роз-роблено системотехнічні та технологічні засади для інтеграції тлумачної ЛБД із фразеологічною та синонімічною;

– створено алгоритми для підтримки комп’ютерної версії Етимологічного словника української мови й відповідний інструмен-тальний комплекс;

– побудовано концептуальні моделі ЛБД для пред-став-лен-ня явищ грама-тичної та лексичної се-ман-тики дієслова, іменника та прикметника;

– при використанні дієслівної ЛБД одержано нові класифікації українських дієслів.

Практична цінність. Застосування розроблених технологій до ака-демічної лексико-графічної про----блематики дозволило одер--жати низку прак-тично цінних результатів. На основі розвиненої теорії створено інстру-мен-тальний комплекс укла-дання нового СУМа та Український національний лінгвістичний корпус, з використанням яких стало можли-вим створити 20-томний тлумач-ний Словник україн-ської мови протягом 4 років. Більше того, ЛБД СУМа та програмний комплекс було адаптовано для укладання тлумачних словників інших мов, зокрема "Словаря русского языка в четырех томах". Інтеграція ЛБД СУМа зі Словником фразеологізмів української мови дозволила значно розширити фразеоло-гічну систему СУМа. Синонімічна інструментальна ЛБД, ство-рена на основі Словника синонімів української мови, у сполученні з ЛБД СУМа стала основою української семантичної системи тезаурусного типу. Нова ЛБД синонімів увійшла також до складу останніх версій Інтегрованої лексикографічної системи (ІЛС) "Словники України". Етимологічна ЛБД у сполученні з інструментальним програмним комплексом стала засобом для редагування Етимологічного словника української мови, створення багатомовного індексу та проведення етимологічних досліджень. Семантичні ЛБД, побудовані на основі ЛБД СУМа, стали потужним інструментом для проведення серії лінгвістичних досліджень граматичної та лексичної семантики різних частин мови, зокрема була одержана принципово нова класифікація українських дієслів. Використання ЛБД СУМа дозволило створити систему семантичного маркування в системах опрацювання текстів, написаних природною мовою.

Особистий внесок здобувача. Всі результати дисертації, які винесено на захист, одержано автором самостійно. Їх висвітлено у наукових працях [1–12]. Конкретний особистий внесок автора в опублікованих разом зі співавторами наукових працях вказано в переліку публікацій за темою дисертації.

Апробація роботи. Основні положення та результати дисертаційного до-слід-жен-ня допо-ві-далися на міжнародних та місцевих конференціях, у тому числі: ІV Міжнародній науково-тех-нічній конференції "Електронні інформа-ційні ресурси: проблеми формування, збереження, об-робки, поширення, захисту і використання" (Київ, жовтень 2003 р.), Міжнародній конференції "EVA 2004 Москва. Информация для всех: культура и технологии информационного сообщества" (Москва, грудень 2004 р.), численних семі-нарах Україн-сь-кого мовно-інфор-маційного фонду НАН України.

Публікації з теми дисертації. Результати дисертаційної праці висвітлено у дванадцяти наукових працях, серед яких колективна монографія, три самостійних статті у виданнях, що ввійшли до переліку ВАК України, два електронних видання, два авторських свідоцтва, а також тези двох міжнародних наукових конференцій.

Структура роботи. Дисертація складається зі вступу, трьох розділів основного змісту, висновків, списку використаної літератури, який містить 133 найменування, та 4 додатків. Обсяг дисерта-цій-но-го дослідження без списку використаної літератури – 165 сторінок, загальний обсяг робо-ти (з бібліо-графією та додатками) – 205 сторінок.

ОСНОВНИЙ ЗМІСТ РОБОТИ

У першому розділі "Лексикографічні системи семантичного типу та їх застосування" розглянуто основні напрямки сучасної семантики та проблеми, що виникають у ході семантичних досліджень. Основою таких досліджень звичайно є тлумачні словники, що в ідеалі мають бути універсальними словниками, які з точ-ністю могли б відобразити мовну стихію, усі розряди оди-ниць лексикону зі всіма їх власти-вос-тями. Традиційні паперові словники є далекими від цього ідеалу і вже не в змозі виконувати весь спектр завдань, що постає перед лексикографами. Саме тому виникає необхідність використати теорію лексикографічних систем для моделювання Л_системи тлумач-ного словника, а згодом і побудови його ЛБД. Згідно з цією теорією, загальна структура лексико-гра-фічної системи подається діаграмою:

V(IQ(D))

F С (1)

(IQ(D)) H P(IQ(D))

де IQ(D) є класом елементарних інформаційних одиниць (ЕІО), V(IQ(D)) – множиною їх описів, а L(IQ(D)) і P(IQ(D)) – частини опису, котрі представляють відповідно форму та зміст елементів з IQ(D). Граф (2) символічно представляє процес рекурсивної редукції лексикографічної системи RRЇ[V(IQ(D))]

V (0; P0)

0 P0 (2)

01 P01 Р01 PР01

. . . . . . . . . . . . . . . . . . . .

Застосувавши цей підхід до тлумачного Словника української мови, отримаємо таке розви-нення, тобто Л-систему з класом ЕІО "СЛОВО", яка підтримує рекурсивну редукцію другого порядку:

V(IW(U)) (0(IW(U)); P0(IW(U)) ; Н0(IW(U)))

0(IW(U)) Н(I0W(U)) P0(I0W(U)) (3)

01 P01 Р01 PР01

Н01 НР01

Тут символом IW(U) позначено клас слів української мови; природною інтерпретацією структурного елемента L0(IW(U)) виступає його інтерпретація як носія граматичної семантики, а P0(IW(U)), відповідно, лексичної семантики. Їх зв’язок і поєднання лінгвістичного об’єкта в єдине ціле забезпечує функція Н0(IW(U)). У свою чергу, структурний елемент L0(IW(U)), розглядуваний як репрезентант граматичної семантики, набуває інтерпретації як Л-система, що підтримує відно-шення словозміни, словотвору (та, можливо, інші морфологічно-дериваційні відношення на рівні лексичної системи, а також, певною мірою, орфоепічні відношення – акцентуацію та вимову). У конструкції репрезентанта лексичної семантики P0(IW(U)) представлено цілу низку семан-тичних відношень, причому явно виділено ієрархію лексичних значень (для кожної лексеми вони зосе-реджені в структурному елементі LР01(IW(U)) і представлені у вигляді формул тлумачення) та від-повідних мікроконтекстів (прикладів слововживань), які репрезентовано в елементах PР01(IW(U)).

Другий розділ "Системотехніка та технологія лексикографічної системи тлумачного Словника української мови" присвячено побудові моделі даних та розробці технології створення ЛБД СУМа, ство-ренню на цій основі інструментального комплексу для використання в процесі укладання нового тлу-мач-ного Словника української мови та її адаптації до тлумачного словника російської мови.

Розглянуто структуру лівих частин словникових статей СУМа окремо для кожної частини мови та правих частин і побудовано їх концептуальні моделі. Аналіз структур правих частин P(x) словникових статей СУМа дозволив вичле-нити структуротвірні елементи, подані на рис. .

Найбільшим із них є той, що відтворює ефект багатозначності ре-єстрової одиниці – полісемію. Сi – це частина P(x), яка дає тлумачення і-го зна-чення реєстрової одиниці x. У кожній рубриці Сi розташовуються ілюстрації і-го зна-чен-ня, тобто прик-лади його використання у літературному тексті, які позначаємо символом J(i, q), а також фрагменти слов-никової статті, які відображають її відтінки; відтінки значення Сi познача-тиме-мо через V(i, j). До кожного відтінку мо-же по-даватися одна або кілька ілюстрацій. Символом JV(i,) позначимо k-ту ілю-страцію відтінку V(i,). У за-галь--ному випадку до значення Сi може належати комплекс стійких сполучень слів (ССС) F(i, j). Кожне ССС з комплексу може, у свою чергу, мати декілька значень FС(i, j, k); до кож-но-го значення подається кілька ілюстрацій J FС(i,, k, m) та відтінків V FС(i, j, k, r), останні, у свою чер-гу, можуть мати по декілька ілюстрацій J FСV(i, j, k, r, l).

Рис. 1. Графічна репрезентація структури правої частини словни-кової статті у СУМі

Саме цю модель було взято за основу структури ЛБД електронної версії СУМа.

З метою ство-рення ЛБД СУМа було здійснено конверсію паперо-вого варіанту 11-томника до елек-т-рон-ної форми. Цей етап виконувався засобами ска-ну-вання та розпізнавання тек-сту, в результаті чого було одержано цифровий варіант тексту 11-томного СУМа. Після цього текст СУМа (9856 сторінок) було збережено в RTF-форматі та роз-друковано для коректури з метою виправлення помилок, які виникли при роботі програми оптичного роз-піз-навання. Після подвійної коректури й внесення ви-правлень до електронного тексту СУМа було одержано еталонний варіант електронної версії тек-сту 11-томника. Ос-таннім етапом під-го-тов-ки до створення ЛБД стала конверсія з RTF-формату до HTML-формату з сис-темою кодування Unicode засобами текстового редакто-ра Microsoft Word.

Для забезпечення процесу автоматичної конверсії тексту СУМа до ЛБД було роз-роблено про-грамне забезпечення виділення елементів його структу-ри відпо-від-но до будови Л-си-с-теми та з викорис-танням поліграфічних ознак їх текстової ідентифікації.

На рис. 2 можна побачити схему зв’язків між таблицями ЛБД СУМа. Тут наявні таблиця реєстрових слів, тлумачень, стійких сполучень слів, відтінків, формул тлумачення, ілюстрацій та інші. Як видно зі схеми, структура ЛБД досить складна, тому контроль за коректністю даних у ній передбачає серію допоміжних операцій під час додавання, видалення або модифікації записів.

Рис. 2. Схема зв’язків між таблицями ЛБД СУМа

Для редагування та перегляду ЛБД СУМа було створено інструментальний комплекс, який працює під управлінням операційної системи Microsoft Windows 2000 або Microsoft Windows XP; сама ЛБД функціонує під управлінням СУБД Microsoft SQL Server. Комплекс орієнтовано на роботу в мережевому середовищі, де ба-гато користувачів одночасно мають доступ до ЛБД СУМа. При цьому залежно від привілеїв користувачі можуть отримувати можливість редагування статей або тільки їх перегляду. Крім того, для редагування реєстр СУМа було розбито на 9 приблизно рівних технологічних томів, за кожний з яких відповідає окремий науковий редактор, а кожний з цих томів у свою чергу поділено між 3 або 4 лексикографами. Тому було вирішено ввести діапазони редагування СУМа безпосередньо до ЛБД та створити відповідні записи для авторизації користувачів. Під час ініціалізації програма аналізує ім’я користувача і залежно від нього обмежує доступ технолога до ЛБД СУМа відповідним технологічним томом.

Програма редагування дозволяє візуалізувати представлення будь-якої словникової статті СУМа у вигляді дерева. При цьому знач-но спрощується доступ до структурних елементів словникової статті, а зв’язки між ними унаочню-ються. Чимало допоміжних елементів словникової статті не потребують збереження в ЛБД, а створюються динамічно на етапі формування поліграфічного представлення статті. Такі автоматичні операції допомагають уникнути багатьох помилок при редагуванні словникових статей, а помилкове введення елемен-тів, які порушують структуру словника, взагалі є неможливим. Процес редагування стає більш простим, контро-льо-ваним та уніфікованим, лег-ко здійснюються операції додавання, вилучення та коригування окре-мих елементів слов-никових статей. Програма реалізує також низку допоміжних функцій для робо-ти з ЛБД СУМа: копіювання статті, встановлення ознак редагування, запис статей у файл для наступного роздруку, вибір режиму фільтрації (за частиною мови, за діапазо-нами редагування, за довільним запитом), переставлення елементів статті у потрібній послідовності тощо.

При укладанні нового СУМа постало завдання поповнення словника текстовими ілюст-ра-ціями, для вирішення якого було розроблено системотехнічні концепції та технологічний інстру-ментарій Українського національного лінгвістичного корпусу (УНЛК). Ос-нов-на ідея моделі УНЛК на концептуальному рівні полягає у забезпеченні автома-тичного розбиття електронного тексту літератур-ного джерела на мікро-кон-тексти – фрагменти тексту, які гру-пу-ються навколо слова, що є об’єктом лінгвістичного дослідження та інтерпретації. Програмний комплекс УНЛК виконує зав-дан-ня автоматичного формуван-ня бази даних корпусу та забезпечення можливості роботи з нею. Формування ЛБД УНЛК передбачає проведення природно-мовної індексації текстів, під час якої відбувається виділення слів у тексті, передморфологічний аналіз та граматична ідентифікація слів з використанням спеціально розробленого граматичного словника. Також аналізується внут-рішня структура тексту, тобто поділ його на розділи, абзаци і т. н.; при цьому текст повинен бути відповідним чином промаркований до початку індексації.

На виході процедури індексації отримуємо кортеж, що складається з ідентифікатора слова, індексу слова, ідентифікатора структурного елемента тексту, до якого належить слово, коду частини мови та коду граматичної категорії. Ця інформація зберігається в базі даних, яка складається з набору зв’язаних між собою таблиць (див. рис. 3).

Рис. 3. Схема зв’язків між таблицями ЛБД УНЛК

Функції індексації та перегляду, а також багато інших функцій роботи з ЛБД УНЛК можуть бути викликані через пункти меню та діалогові вікна клієнтської програми. Це – вибір файлів для індексації, вибір мови, індексація текстів у автоматичному або інтерактивному режимі, видалення проіндексованих файлів з ЛБД, запис у файл мікроконтекстів для слів або словосполучень, пере-гляд списку текстів, слів, індексів та мікроконтекстів, отримання статистичної інформації та інше.

На сьогоднішній день обсяг ЛБД УНЛК становить понад 35 мільйонів слововживань до приблизно 120000 реєстрових та 465000 нереєстрових слів із близько 1500 першоджерел загаль-ним обсягом понад 550 Мб текстових файлів у кодуванні Unicode. Ця кількість продовжує збіль-шу-ватись у ході поповнення УНЛК УМІФу.

Зрозуміло, що при формуванні, поповненні та редагуванні ЛБД СУМа виникає низка помилок. Це, зокрема, помилки при розпізнаванні тексту, помилки під час конверсії розпізнаного тексту до ЛБД, помилки при редагуванні ЛБД, помилки цілісності та ін. З метою найбільш ефективного їх виправлення та уникнення типових помилок при подальшому редагуванні було проаналізовано структурні елементи словникових статей (реєстрові слова, ліві частини, формули тлумачення, ілюстрації і т. ін.) та вироблено критерії, яким повинні відповідати ці елементи при збереженні їх у ЛБД. Далі на основі цих критеріїв було розроблено засоби забезпечення коректності даних, до яких входять функції перевірки тексту, що вводиться до ЛБД, а також багатофункціональна програма тестування SUMTest. Використання цих засобів дозволило випра-вити в автоматизованому режимі велику кількість помилок та значною мірою уніфікувати подання структурних елементів у ЛБД СУМа.

Таким чином, розроблені ЛБД СУМа, інструментальна система її підтримки та редагування та система УНЛК дозволяють працювати над створенням нового Словника україн-ської мови значно ефективніше, ніж це було можливо при використанні тільки традиційних засо-бів укладання словників. Так, створення основного корпусу нового СУМа тривало лише три роки, у той час як укладання попередньої його паперової версії продовжувалося понад 30 років. При цьому кількість статей у новому словнику збільшилася на 30% і становить зараз близько 175000 реєстрових одиниць, а кількість ілюстрацій збільшилася більше ніж на 20%. Зрозуміло, що здійснити такий великий обсяг роботи за такий стислий термін без використання сучасних інформаційних технологій було б неможливо.

Зазначену технологію також було використано для створення електронної версії тлумач-ного словника росій-ської мови. Це завдання спочатку постало в рамках проекту БРУС ("Большой русско-украинский словарь"), над яким УМІФ працює спільно з Інститутом російської мови ім. В.В. Виноградова РАН. Але зрозуміло, що електронний тлумачний словник і сам по собі має велику цінність. Його основою став 4-томний "Словарь русского языка", аналіз структури якого показав, що вона є подібною до структури СУМа з деякими відмінностями (що можна вважати додатковим підтвердженням наших теоретичних настанов). Отже, ЛБД та програмний комплекс редагування СУМа було розширено в такий спосіб, щоб зробити їх придатними для роботи з російським словником. Сформована з використанням розробленої технології, ЛБД цього словника налічує понад 83000 словникових статей.

У третьому розділі "Технологічні аспекти інтеграції лексикогра-фічних систем семан-тичного типу та їх застосування у семантичних дослідженнях" розглянуто Л-системи, побудо-вані на основі різних семан-тичних відношень, технології створення ЛБД для них та аспекти інтеграції таких ЛБД із тлумачною ЛБД.

У першому підрозділі розглянуто технологію інтеграції СУМа та Словника фразеологізмів української мови (СФУМ) з метою отримання максимально повної та коректно побудованої підсистеми стійких сполучень слів. Для виконання цього завдання було побудовано концеп-ту-альну модель даних Л-системи СФУМа і на цій основі розширено ЛБД СУМа. Після цього було розроблено алгоритм конверсії тексту та індексу СФУМа до новостворених ЛБД.

Для інтеграції ЛБД СФУМа з ЛБД СУМа з першої було виокремлено реєстр підсистеми стійких сполучень слів (ССС), порівняно з фразеологічним реєстром та виявлено тотож-ні елемен-ти. Крім того, підсистему ССС СУМа було перефор-мовано, зокрема перевизна-чено опорні слова, відсилкові слова та типи ССС. З цією метою у дисертації було створено спеці-альний програмний інструментарій, який забезпечив автоматизацію цього процесу. Отриману в такий спосіб під-систему було інтегровано з ЛБД СФУМа, в результаті чого тлумачний словник поповнився великою кількістю фразеологізмів (зараз він налічує більше 23000 тлумачних ССС-комплексів), а подання наявних у ньому стійких словосполучень стало більш коректним та системати-зованим.

У другому підрозділі розглянуто принципи інтеграції СУМа та Словника синонімів україн-ської мови (ССУМ), що необхідно для побудови систем тезаурусного типу. Оскільки відношення синонімії є базовим для таких систем, їх створення потрібно розпо-чинати з виділення в мові сино-німічних рядів – синсетів. Для цього було використано електронний словник сино-німів, який базується на двотом-ному фундаментальному ССУМі. У дисерта-ції прове-дено аналіз його структури, резуль-татом чого стала побудова нової ЛБД ССУМа, де кожний синонім утворює окремий запис, але при цьому групується в синсет з іншими синонімами.

ЛБД ССУМа було використано для реалізації функції синонімії в ІЛС "Словники України" (версії 1.03 та наступних), завдяки чому вона набула більш коректної внутрішньої структу-ри та стала зручнішою у використанні (зазначену систему було використано також і у відповідній словниковій системі Українського лінгвістичного порталу http://ulif.org.ua). У цьому ж підрозділі описано інструментальний комплекс ССУМ, який інтегровано з тлумачною Л-системою, що дозволяє встановлювати зв’язки між синонімами або синсетами та тлумаченнями в СУМі. Визначення таких зв’язків на всьому масиві зазначених ЛБД породжує семантичну Л_систему з повністю реалізованим відношенням синонімії між її елементами.

Третій підрозділ присвячено технології створення комп’ютерної вер-сії Етимоло-гічного словника української мови (ЕСУМ), однією з визначальних рис якого є багатомовність. Л-систему цього словника було проаналізовано та побудовано структуру ЛБД ЕСУМа (рис. 4).

Рис. 4. Схема зв’язків між таблицями ЛБД ЕСУМа

Автором було розроблено програму конверсії тексту ЕСУМа до ЛБД та створено програмний комплекс редагування ЛБД ЕСУМа. Він дає можливість легко отримувати доступ до будь-якого структурного елемента словника, додавати, вилучати та редагувати його елементи, а також візуалізувати словникові статті у форматі, наближеному до поліграфічного, та будувати до них багатомовний індекс.

ЛБД СУМа також стала матеріалом для проведення різноманітних семантичних дослід-жень. На її основі були створені ЛБД дієслів, аналіз яких дав можливість сформулювати три аксіоми, що є фундаментальними для українських дієслів та дозволяють побудувати їх класи-фікацію залежно від структури лівих частин словникових статей СУМа. Теоретично було підраховано, що максимально можлива кількість таких класів становить 7140. Проведений обчислювальний експеримент на масиві дієслів СУМа дозволив встановити, що тільки 52 з них реалізовані в наявному корпусі СУМа (на масиві понад 43 тисячі дієслів), причому кожен з цих класів узгоджується з розвиненою теорією. Цей результат є значним підтвердженням того, наскіль-ки потужний інструмент являє собою семантична лексикографічна система, збудована на основі СУМа. Аналогічні ЛБД створено для іменника та прикметника.

ВИСНОВКИ

У ході дисертаційного дослідження розв’язано ряд актуальних науково-технічних проблем української лінгвістичної технології та отримано низку практично цінних результатів.

Так, у дисертації побудовано лексикографічну модель даних для тлумачних словників, яка при застосуванні принципу рекурсивної редукції Л-системи дозволила вичле-нити у їх структурі основні структуротвірні елементи. У такий спосіб теорію лексико-графічних систем розвинено для систем семантичного типу, що надає можливість для побудови універсального словника, в якому зафіксована максимальна лексична система.

З використанням розвиненої теорії розроблено концептуальну модель Л-системи тлумач-ного Словника української мови, на основі якої створено структуру ЛБД цього словника. Роз-роблено технологію, яка дозволила в автоматизованому режимі сформувати цю ЛБД на основі тексту 11-томного СУМа. Зауважимо, що етап виокремлення структурних елементів у розпіз-наному та відредагованому тексті словника та рознесення їх до відповідних полів ЛБД викону-вався цілком авто-матично засобами розробленого програмного забезпечення.

Для укладання нового тлумачного Словника створено технологічний інструментальний комплекс, який дає можливість редагувати будь-які структурні елементи у ЛБД СУМа. Також створено ЛБД Українського національного лінгвістичного корпусу та програму роботи з нею, яка значно прискорила процес поповнення СУМа текстовими ілюстраціями. Таким чином, розроб-лений у ході дисертаційного дослідження технологічний комплекс дозволив створити новий 20_томний тлумачний Словник української мови всього за 4 роки. Крім того, на основі розвиненої технології ЛБД СУМа розширено, щоб забезпечити підтримку електронних тлумачних словників будь-якої мови, якщо їх структура є подібною до структури СУМа. Зокрема, розроблену технологію адаптовано для укладання російського тлумач-ного словника й створено відповідний інструментальний комплекс.

У дисертації також розроблено методи та засоби формування інших ЛБД семантичного типу на основі текстів, отриманих з паперових словників. Сформовано фразеологічну ЛБД на основі Словника фразеологізмів української мови, синонімічну ЛБД на основі Словника синонімів української мови та етимологічну ЛБД на основі Етимоло-гічного словника української мови. Для ЛБД СФУМа розроблено технологію автомати-зованої інтеграції з ЛБД СУМа, використання якої привело до впорядкування підсистеми стійких сполучень слів СУМа та поповнення СУМа значною кількістю фразеологізмів. Засоби інтеграції синонімічної та тлумачної ЛБД дали можли-вість побудувати систему тезаурусного типу для української мови. Для синонімічної та етимологічної ЛБД також розроблено відповідні програмні комплекси їх редагування.

ЛБД СУМа було використано для створення ЛБД “Дієслово". Ці ЛБД разом з роз-роб-леними програмними засобами зарекомендували себе як потужні інструменти для прове-дення лінгвістичних досліджень. З використанням ЛБД “Дієслово" одержано нові дані про струк-туру граматичної та лексичної семантики українського діє-слова, зокрема нова фундаментальна класифікація українських дієслів, а також побудовано нові типи словників.

Результати дисертаційної роботи дозволяють стверджувати, що створено концептуальну та технологічну основу систем автоматичного семантичного маркування природномовних текстів, що відкриває перспективи для розробки інтелектуальних семантичних механізмів пошуку, розуміння та діалогу на рівні неструктурованої (текстової) інформації.

ПУБЛІКАЦІЇ З ТЕМИ ДИСЕРТАЦІЇ

1. Рабулець О.Г., Сухарина Н.М., Широков В.А., Якименко К.М. Дієслово в лексико-графічній системі. – К.: Довіра, 2004. – 259 с. (особистий внесок: розроблено про-грамне забез-печення для формування ЛБД "Дієслово" на основі формальної структури ЛС СУМ, створено ЛБД для представлення граматичної та лексичної семантики дієслів української мови, створено алго-ритм для автоматичного визначення сигнатурного типу лівих частин словникових статей).

2. Якименко К.М. Комп’ютерний інструментарій лексичного картографуванняРеєст-рація, зберігання і обробка даних. – 2003. – Т. 5. – № 4. – С. 72–80.

3. Якименко К.М. Комп’ютерна технологія укладання лексикографічної системи "Словник української мови" // Проблемы программирования: Сб. науч. тр. – К., 2004. – № 1. – С. 24–37.

4. Якименко К.М. Загальні принципи організації та побудови української системи WordNet // УСиМ: Управляющие системы и машины. – К., 2005. – № 1. – С. 55–68.

5. Широков В.А., Рабулець О.Г., Шевченко І.В., Костишин О.М., Якименко К.М. Техно--логіч-ні основи сучасної тлумачної лексикографії // Мовознавство. – 2002. – № 6. – С. 49–86. (особистий внесок: роз-роблено та сформовано ЛБД СУМа, розроблено програмне забез-печення тех-но--логічного комплексу ЛС СУМ та УНЛК).

6. Широков В.А., Сухарина Н.М., Якименко К.М. Лексикографічна система як джерело лінгвістичних класифікацій // Вісник Київського лінгвістичного університету. Серія "Філологія". Т. 6. – № 2. – 2003. – С. 43–53. (особистий внесок: створено ЛБД для представлення граматичної семантики дієслів української мови, розроблено алгоритм для автоматичного визначення сигна-тур-ного типу лівих частин словни-кових статей).

7. Широ-ков В.А., Рабулець О.Г., Шевченко І.В., Костишин О.М., Якименко К.М. Свідоц-тво про реєстрацію авторського права на твір № 14593 "Комп’ютерна програма "Інтегрована лексикографічна система "Словники України" (ІЛС "Словники України") версія 1.3". – 2005. (особистий внесок: розроблено алгоритм індексування словникових ста-тей та сформовано ЛБД, яка реалізує функцію синонімії).

8. Широ-ков В.А., Рабулець О.Г., Шевченко І.В., Костишин О.М., Якименко К.М. Свідоц-тво про реєстрацію авторського права на твір № 14594 "Комп’ютерна програма "Інтегрована лексикографічна система "Словники України" (ІЛС "Словники України") версія 1.4". – 2005. (особистий внесок: розроблено алгоритм індексування словникових ста-тей та сформовано ЛБД, яка реалізує функцію синонімії).

9. Широ-ков В.А., Рабулець О.Г., Шевченко І.В., Костишин О.М., Якименко К.М. Інтегро-ва-на лексикографічна система "Словники Укра-їни", версія 1.03. Електронне видання на лазер-ному диску. ISBN . – К., 2003. (особистий внесок: розроблено алгоритм індексування словникових ста-тей та сформовано ЛБД, яка реалізує функцію синонімії).

10. Широ-ков В.А., Рабулець О.Г., Шевченко І.В., Костишин О.М., Якименко К.М. Інтегро-ва-на лексикографічна система "Словники Укра-їни", версія 1.04. Електронне видання на лазер-ному диску. ISBN . – К., 2004. (особистий внесок: розроблено алгоритм індексування словникових ста-тей та сформовано ЛБД, яка реалізує функцію синонімії).

11. Якименко К.Н. Виртуальные лексикографические системы // Электронные информа-ционные ресурсы: про-бле-мы формирования, хранения, обработки, распро-странения, защиты и исполь-зования – 2003: Материалы ІV Между-народной научтехнич. конф. – К.: УкрИНТЭИ, 2003. – С. 47–49.

12. Якименко К.Н., Остапова И.В. Пользовательский интерфейс для цифровой версии Эти-мологического словаря украинского языка // EVA 2004 Москва. Информация для всех: куль-тура и технологии информационного сообщества. http://conf.cpic.ru/upload/eva2004/reports/tezis_16.doc. (особистий внесок: сформовано ЛБД Етимо-логічного словника української мови та створено програмний комплекс її редагування).

АНОТАЦІЯ

Якименко К.М. Системотехніка та технологія лексикографічних систем семантичного типу. – Рукопис.

Дисертація на здобуття наукового ступеня кандидата тех-нічних наук за спеціальністю 05.13.06 "Автоматизовані системи управління та про-гре-сивні інфор-маційні технології". Національна бібліотека України імені В.І. Вернадського. – Київ, 2006.

У дисертації розвинуто теорію лексикографічних систем семантичного типу. На базі теорії розроблено та сформовано лексикографічну базу даних тлумачного Словника української мови (ЛБД СУМ), створено технологічний комплекс укладання нової версії тлумачного словника, розроблено ЛБД та клієнтську програму Українського національного лінгвістичного корпусу для поповнення словника текстовими ілюстраціями. Отриманий комплекс адаптовано до створення та редагування ЛБД російського тлумачного словника. Розроблена технологія дозволяє значно підвищити продуктивність лексико-графічної праці.

Автором також розроблено технологічний інструментарій для формування семантичних ЛБД, таких як фразеологічна, синонімічна та етимологічна. Створено засоби для роботи з цими базами даних (їх перегляду та редагування), а також для інтеграції їх із тлумачною ЛБД, зокрема, з використанням розроблених технологій переформовано фразеологічну підсистему СУМа.

На основі ЛБД СУМа створено лексикографічні бази даних для проведення лінгвістичних досліджень окремо за частинами мови. З використанням ЛБД "Дієслово" одержано нову класифікацію українських дієслів та інші дані про структуру їх граматичної та лексичної семантики.

Ключові слова: лексикографічні системи семантичного типу, лексико-графічні бази даних, Словник української мови, лінгвістичний корпус.

АННОТАЦИЯ

Якименко К.Н. Системотехника и технология лексикографических систем семантического типа. – Рукопись.

Диссертация на соискание ученой степени кандидата тех-нических наук по специальности 05.13.06 "Автоматизированные системы управ-ления и прогрес-сивные инфор-ма-ционные технологии". Национальная библиотека Украины имени В.И. Вернадского. – Киев, 2006.

В диссертационном исследовании информационная теория лексикографических систем расширена применительно к лексикографическим системам семантического типа. Рассмотрены основные проблемы и направления современной лексической и грамматической семантики. Показано, что до сих пор лексикографические структуры словарей рассматривались только как средства для наиболее удобной подачи лингвистической информации, а не как носители объективных закономерностей языка. Именно теория лексикографических систем предоставляет необходимые методы и системно-структурные элементы для создания универсального словаря, в котором зафиксирована максимальная лексическая система.

Рассмотрено, как данная теория может быть применена к 11-томному толковому Словарю украинского языка при анализе левых и правых частей словарных статей. Их концептуальные модели использованы для разработки структуры лексикографической базы данных (ЛБД) Словаря украинского языка. После проведения авто-матической конверсии текста 11-томника в созданную ЛБД она стала основой нового 20-томного толкового Словаря украинского языка, который должен быть выпущен как в традиционном бумажном варианте, так и в виде компьютерной лексикографической системы. ЛБД включает в себя ряд таблиц с набором информационных и управляющих полей, а также связи между ними.

Разработан инструментальный комплекс создания толковых словарей, в который входит программа редактирования ЛБД Словаря, а также программа работы с Украинским национальным лингвистическим корпусом. Последняя включает в себя набор функций для создания и ведения корпуса, в том числе подсистему индексации текстов и мощный поисковый аппарат, позволяющий значительно ускорить процесс пополнения Словаря украин-ского языка текстовыми иллюстрациями. В целом технологический комплекс делает работу лекси-ко-графов значительно более эффективной.

Формальная структура ЛБД Словаря украинского языка оказалось достаточно универ-сальной для того, чтобы использовать ее при создании толковых словарей других языков. Автором разработан алгоритм конверсии, в результате применения которого получена ЛБД толкового Словаря русского языка, а программа редакти-рования модифицирована таким образом, чтобы обеспечить работу со всеми структурными элементами этой ЛБД.

Диссертантом разработан технологический инструментарий для формирования и других семантических ЛБД. Так, на основе Словаря фразеологизмов украинского языка была сформирована фразеологическая ЛБД. Было произведено ее сравнение с подсистемой устойчивых сочетаний слов Словаря украинского языка, в результате чего данная подсистема была переформирована и значительно расширена за счет фразеологизмов, добавленных из фразеологического словаря.

Автором разработана программа конверсии Словаря синонимов в лексикографическую базу данных, в которой синонимы сгруппированы в синонимические ряды – синсеты. Созданы программные средства, позволяющие связать полученные синсеты с толкованиями из Словаря украинского языка. Построенный таким образом комплекс может стать основой инструментально-технологической системы тезаурусного типа.

В диссертационном исследовании разработана и сформирована ЛБД Этимоло-гического словаря украинского языка. Создан программный комплекс ее редактирования, который позволяет отображать словарные статьи в формате, приближенном к полиграфическому, а также автоматически построить индекс по каждому из 229 языков, фигурирующих в данном словаре.

ЛБД Словаря украинского языка оказалась удобным инструментом для проведения ряда лингвистических исследований. На ее основе созданы лексикографические базы дан-ных для глаголов, имен существительных и имен прилагательных, ставшие затем материалом для исследования

Сторінки: 1 2

��
��...

Наступні 7 робіт по вашій темі:

▪ ІНТЕГРАЦІЙНІ ПРОЦЕСИ В АФРИЦІ: РІВНІ, ФАКТОРИ, СПРЯМОВАНОСТІ ТА ЗАКОНОМІРНОСТІ РОЗВИТКУ (1960-2005 рр.) - Автореферат - 28 Стр.
▪ Вплив іонного і лазерного опромінення на кристалічну та маГнітну мікроструктуру ферит-ґранатових плівок - Автореферат - 24 Стр.
▪ ОРГАНІЗАЦІЙНО-ЕКОНОМІЧНИЙ МЕХАНІЗМ УПРАВЛІННЯ ГРОШОВИМИ ПОТОКАМИ ПРОМИСЛОВИХ ПІДПРИЄМСТВ УКРАЇНИ - Автореферат - 26 Стр.
▪ ДИНАМІКА ЗДАТНОСТІ ДО ЖИТТЄТВОРЧОСТІ ОСОБИСТОСТІ У ДОРОСЛОМУ ВІЦІ - Автореферат - 30 Стр.
▪ ВИЛУЧЕННЯ УРАНУ(VI) ТА ВАЖКИХ МЕТАЛІВ ІЗ ЗАБРУДНЕНИХ ВОД МЕТОДАМИ УЛЬТРА- І НАНОФІЛЬТРАЦІЇ У ПОЄДНАННІ З КОМПЛЕКСОУТВОРЕННЯМ - Автореферат - 24 Стр.
▪ ІДЕНТИФІКАЦІЯ ТА ОЦІНКА ЛАНЦЮГА ПРОПОЗИЦІЇ ПРОМИСЛОВОГО ПІДПРИЄМСТВА - Автореферат - 33 Стр.
▪ ПРОЕКТУВАННЯ РАЦІОНАЛЬНИХ СИЛОВИХ КОНСТРУКЦІЙ БАГАТОСТІНКОВИХ КРИЛ МАЛОГО ПОДОВЖЕННЯ БЕЗПІЛОТНИХ ЛІТАЛЬНИХ АПАРАТІВ - Автореферат - 19 Стр.