У нас: 141825 рефератів
Щойно додані Реферати Тор 100
Скористайтеся пошуком, наприклад Реферат        Грубий пошук Точний пошук
Вхід в абонемент





МІЖНАРОДНИЙ НАУКОВО-НАВЧАЛЬНИЙ ЦЕНТР ЮНЕСКО ІНФОРМАЦІЙНИХ ТЕХНОЛО ГІЙ ТА СИСТЕМ

МІЖНАРОДНИЙ НАУКОВО-НАВЧАЛЬНИЙ ЦЕНТР ЮНЕСКО ІНФОРМАЦІЙНИХ ТЕХНОЛОГІЙ ТА СИСТЕМ

КИСЛЕНКО ЮРІЙ ІВАНОВИЧ

УДК 007: 800.8

ФОРМАЛЬНА МОДЕЛЬ МОВИ ЯК ОСНОВА

ПРОГРЕСИВНИХ ІНФОРМАЦІЙНИХ ТЕХНОЛОГІЙ

Спеціальність 05.13. 06 – автоматизовані системи управління

та прогресивні інформаційні технології.

Автореферат

дисертації на здобуття наукового ступеня

доктора технічних наук

КИЇВ – 2002

Дисертацією є рукопис.

Робота виконана на кафедрі технічної кібернетики національного технічного університету України “Київський політехнічний інститут”.

Науковий консультант: доктор технічних наук, професор

Костюк Всеволод Іванович,

завідувач кафедри технічної кібернетики НТУУ “Київський політехнічний інститут”.

Офіційні опоненти:

доктор технічних наук, професор

Бушуєв Сергій Дмитрович,

завідувач кафедри проектного менеджменту Київського національного університету будівництва і архітектури Міносвіти та НАН України,

доктор технічних наук, професор

Литвинов Віталій Васильович,

завідувач відділу інституту проблем математичних машин і систем НАН України,

доктор технічних наук, професор

Міхайленко Віктор Мефодійович,

директор Українського науково-дослідного інституту системних досліджень стабілізації та розвитку економіки України при Європейському університеті фінансів, інформаційних систем, менеджменту і бізнесу.

Провідна установа:

Харківський національний технічний університет радіоелектроніки

(Інститут комп'ютерних інформаційних технологій ).

Захист відбудеться 25.06.2002 р. о 14 годині на засіданні спеціалізованої вченої ради Д 26.171.01 Міжнародного науково-навчального центру ЮНЕСКО інформаційних технологій та систем НАНУ та Міносвіти і науки України за адресою: 03680, МСП, м. Київ, пр. акад. Глушкова, 40,

тел. 266-25-49.

З дисертацією можна ознайомитися в Міжнародному науково-навчальному центрі ЮНЕСКО інформаційних технологій та систем за адресою: 03680, Київ, просп. акад. Глушкова, 40, тел. 266-25-49.

Автореферат розіслано 24.05.2002р.

Вчений секретар

спеціалізованої ради Ревенко В.Л.

Присвячується Глушкову В. М., який підтримав та благословив цей науковий напрям.

Витяг з наказу № 43 по ІК АН УРСР від 20. 04. 81.“

Затвердити … окремі теми досліджень з штучного інтелекту: моделювання загальних закономірностей формування і функціонування мовної системи та розробка систем розуміння природної мови (Кисленко Ю.І.)”.

Глушков В. М.

Загальна характеристика роботи

Актуальність тематики

Прогресивні інформаційні технології визначають розвиток суспільства і значною мірою зумовлюють його статус у сучасному світі. В наукових дослідженнях все більш вагоме місце посідають розробки, що орієнтовані на опрацювання природно-мовної (ПМ) інформації, бо остання визначається як узагальнена схема подання довільної інформації. Проте, з іншого боку, також відомо, наскільки складною постає проблема обробки мовної інформації, і прогрес у цій сфері однозначно пов'язується з рівнем формалізації опису природної мови. Здобувачем запропоновано формальну модель мови, що визначає її системну організацію і яка закладається в основу сучасних технологій, орієнтованих на опрацювання природно-мовної інформації.

Формальний підхід дозволив перевести знання про мову із сфери нечітких гуманітарних залежностей до розряду чітких формалізмів точних наук з потужним прогнозуючим потенціалом, внаслідок чого з'явилася можливість більш ефективного моделювання мовної діяльності людини. Формалізми запропонованої моделі дозволяють нашу мовну компетенцію подати у вигляді чіткої системи знань про структурний рівень організації мовного матеріалу, і надалі вони визначатимуться як лінгвістичний процесор (ЛП). Ці знання можуть вже розглядатися як підгрунтя для формування сучасних прогресивних технологій, відповідальних за сприйняття та опрацювання ПМ-матеріалу.

Мовна діяльність людини можлива лише за умови діалектичної взаємодії нашої мовної компетенції (ЛП) з пам'яттю – всіма знаннями, накопиченими людиною за її свідоме життя. Системний підхід дозволяє запропонувати також і нову архітектуру бази знань (БЗ) як важливої складової актуалізації мовної діяльності людини. Поєднання адекватного лінгвістичного процесора з потужною базою знань, що спираються на загальні принципи системної організації мови, дозволить дійсно вийти на конструктивний рівень створення сучасних ефективних технологій опрацювання природно-мовної інформації. Якщо виходити з тези, що мова – це узагальнена схема відтворення довільної інформації сенсорного рівня (зорової, акустичної, дотику тощо), то доходимо висновку про необхідність та важливість інтеграції систем опрацювання різнопланової інформації. Це інший перспективний напрям на шляху створення ефективних інформаційних технологій. Пропоноване дослідження якраз і пов'язане з вирішенням проблеми моделювання мовної діяльності людини в широкому контексті і спирається не лише на формалізми запропонованої системної організації мови, але також і на особливості опрацювання інформації сенсорного (образного) рівня.

Якщо за взірець сучасних інформаційних ПМ-технологій прийняти багатогранну мовну діяльність людини, то головними напрямами розвитку сучасних технологій постають питання:

·

створення лінгвістичного процесора на засадах системної організації мови;

· формування нової архітектури баз знань з урахуванням запропонованої моделі;

· реалізація принципів діалектичної взаємодії ЛП та БЗ;

· інтегрування різнопланових систем опрацювання образної та символьної інформації (взаємодія першої та другої сигнальних систем).

Це найважливіші складові, що забезпечуватимуть моделювання мовної поведінки людини та визначатимуть розвиток прогресивних інформаційних ПМ-технологій. Основні напрями розвитку технологій, орієнтованих на опрацювання природно-мовної інформації, вважаються такими: системи аналізу/синтезу мовного матеріалу, системи розуміння мовного повідомлення, системи автоматичного перекладу, автоматизовані системи управління, системи автоматичного пошуку інформації, системи експертного обслуговування, системи автоматичного накопичення знань, автоматичне реферування текстів, автоматична ідентифікація автора, гіпертекстові технології тощо.

Про важливість розвитку сучасних інформаційних технологій, орієнтованих на опрацювання ПМ-інформації, свідчить формування державної науково-технічної програми “Образний комп'ютер” та пропозиції щодо програми “Інформація. Мова. Інтелект”.

Зв'язок роботи з науковими програмами, планами, темами

Результати дисертаційних досліджень увійшли до міжнародної програми “Комп'ютеризація природних мов”, яку було прийнято на початку вересня 1999 року в Болгарії. Текст угоди та наукові матеріали подані в працях першого міжнародного семінару “Комп'ютеризація природних мов”, Болгарія, Варна, курорт “Св. Костянтина”, 3-7 вересня, 1999. Проект орієнтовано на формування перспективних інформаційних технологій саме у сфері використання природної мови. Угоду на початковому етапі підписали Болгарія, Росія, Татарстан та Україна. Кисленко Ю. І. за дорученням ректора НТУУ “КПІ” брав активну участь як на стадії опрацювання загальної концепції розвитку природно-мовних технологій, так і на стадії формування наукової основи угоди.

За двома напрямами дисертаційні матеріали увійшли до угоди. По-перше, запропонована Ю. Кисленко формальна модель мови була прийнята як продуктивна платформа формування мовних та міжмовних технологій. Плідною виявилася концепція стосовно дихотомії граматичних засобів на загальний та конкретний синтаксис а також уявлення про рекурсивну схему організації мовного матеріалу, звідки випливає також і рекурсивна процедура його обробки. По-друге, продуктивною виявилася також концепція інтегрування систем обробки образної та символьної інформації на шляху формування природно-мовних технологій для моделювання окремих складних функцій мовної діяльності людини. На сучасному етапі продовжується плідна співпраця в рамках цієї угоди стосовно реалізації перспективних розробок.

В межах співпраці між НТУУ “КПІ” та Міжнародним науково-навчальним центром інформаційних технологій та систем подано пропозиції до державної науково-технічної програми “Образний комп'ютер”. Співпраця передбачається за напрямами: створення лінгвістичного процесора, формування бази знань для моделювання мовної діяльності, інтеграція систем опрацювання образної (зорової, акустичної) та символьної інформації. Вирішується питання про співпрацю на рівні використання образної інформації дотику.

Результати дисертаційних досліджень використовуються також для підготовки фахівців з напряму природно-мовних технологій: в межах Національного технічного університету “КПІ” на кафедрі технічної кібернетики було відкрито спеціалізацію “Гнучкі комп'ютеризовані системи в природно-мовних технологіях”; на факультетах інформатики та лінгвістики КПІ читаються курси з системної організації мови, що спираються на запропоновану формальну модель; відповідні курси прочитано в Рівненському державному гуманітарному університеті та Острозькій академії.

Сучасний стан справ у напряму інформаційних ПМ-технологій

Поточний стан справ у сфері інформаційних технологій, орієнтованих на використання природної мови, досить однозначно визначається тезою: титанічні зусилля багатьох наукових колективів поки що не привели до бажаних результатів. Так з посиланням, наприклад, на найважливіші досягнення у сфері автоматичного перекладу (огляд робіт через Іnternet), можемо констатувати: обчислювальні системи п'ятого покоління, які були зорієнтовані на використання ПМ-процесора та накопичення ПМ-знань, ще не створені; системи машинного перекладу не вийшли з експериментальної стадії і кваліфіковані перекладачі не користуються їхніми послугами; концепція використання бази знань для ПМ-технологій уявляється досить перспективною, проте їй бракує адекватної теоретичної підтримки; використання мов – посередників (типу Інтерлінгва) для подання семантичної інформації є малоефективним.

Усі вказані вади ПМ-технологій, власне, зумовлені відсутністю адекватної моделі природної мови. Стан справ стосовно проблем формалізації природної мови найкраще визначимо, коли звернемося до визнаних авторитетів у цій галузі. Концентрований погляд на сучасний стан мовознавства зводиться до того, що мова - це система взаємопов'язаних одиниць різних рівнів, де мало розумного логічного порядку, і багато видатних лінгвістів, зокрема Уітні, Ф. де Соссюр, вважали мову погано організованим сховищем (дивись: Якушин В.В. Гипотезы о происхождении языка - М.: Наука, 1984 - с. 18).

Предметніше аналіз сучасних синтаксичних концепцій подає Астахова Л. І. (Предложение и его членение – Днепропетровск: ГУ, 1992). Суть її критичних зауважень полягає в тому, що:

по-перше, багаторічна критика основних положень формальної граматики вже по суті "підготувала суспільну психологію до заперечення теорії речення";

по-друге, автор підтримує думку Р. Г. Піотровського, який вважав мовознавство не експериментально-теоретичною (що грунтується на масовій обробці емпіричного матеріалу), а переважно описово-спекулятивною наукою, де основні граматичні положення ілюструються ретельно підібраним мовним матеріалом, а не довільною повною вибіркою (Лингвистические уроки машинного перевода // Вопросы языкознания - N4 – 1985 – С. 18-27);

по-третє (найголовніше), незадовільний стан більшості положень сучасної теорії речення свідчить лише про хибність основних базових понять, закладених в цю теорію. Очевидно, необхідно замінити ці підвалини, а в синтаксичній науці взагалі потрібно чітко визначити сам об'єкт наукових пошуків та правильно розставити акценти.

Ці критичні зауваження не тільки відтворюють сучасний стан мовознавства, але й стимулюють наукові пошуки у вказаній сфері. О. С. Нарін'яні в передмові до збірника, присвяченому поданню знань та діалоговій взаємодії (Диалоговое взаимодействие и представление знаний - Новосибирск, 1985), зауважує, що все очевиднішою постає необхідність перебудови формальної моделі мови, яка повинна відтворювати найважливіші функції мови як засобу спілкування.

Мета дослідження

Мета дослідження – формування технологій, орієнтованих на обробку природно-мовної інформації, які б досить ефективно моделювали найважливіші вияви мовної діяльності людини – такі, наприклад як: опрацювання (синтез та аналіз) текстової інформації; обробка мовленнєвої (акустичної) інформації; переклад з однієї мови на іншу; подання, накопичення та формування нових знань; пошук інформації; інтеграція систем обробки образної та символьної інформації тощо. Проте цієї мети зможемо досягти лише через створення адекватної формальної моделі мови, яка і стане основою формування нових прогресивних ПМ-технологій. Тож головні зусилля будуть спрямовані спочатку на розбудову формальної моделі природної мови.

Необхідно створити модель природної мови, що грунтуватиметься на формальних засадах, матиме достатню пояснювальну силу стосовно найважливіших виявів мовної діяльності та буде несуперечливою щодо визнаних лінгвістичних фактів. Така модель створюється на засадах об'єднання основних досягнень структурної, когнітивної та генеративної лінгвістики; до розбудови моделі залучаються наукові надбання не лише лінгвістів, але й психологів та фізіологів, що пов'язані з особливостями актуалізації мовної діяльності.

Підхід до мови як певної системи був започаткований ще Ф. де Соссюром, а організаційно оформлений як напрям структуралізму через Празький лінгвістичний гурток. Головним завданням системного підходу було усвідомлення основних складових структурної організації мови, визначення їх функціонального навантаження та подання форм їх взаємозв'язку. Та, на жаль, це природне бажання зрозуміти принципові моменти організації мовної діяльності не знайшло задовільного розв'язання ще й досі. Сам Ф. де Соссюр не лишив нам власного бачення мови як системи, а в матеріалах, зібраних його учнями, теж не досить чітко простежується ця основна його думка ( Бенвеніст Е. - Поняття структури в лінгвістиці / Збірник "Загальна лінгвістика" - М., 1974).

Якщо за мету дослідження обрати моделювання мовної системи загалом, а не лише аналіз мовного матеріалу, то все постає відразу ж в іншому світлі; необхідно тільки розумно визначити пріоритети та розставити акценти. Коли йдеться про моделювання мовної діяльності як в режимі аналізу (сприйняття або “розуміння”) мовного повідомлення, так і синтезу тексту (породження мовного матеріалу), то ми відразу ж більш однозначно визначаємо мету наших пошуків та контури тієї структури, що здатна актуалізувати ці функції.

Дуже слушним та доречним видається тут зауваження Городецького Б. Ю. з передмови до збірника "Комп'ютерна лінгвістика" (24 випуск серії "Нове в зарубіжній лінгвістиці"): "Причиною багатьох непорозумінь є неточне визначення інформаційної суті природної мови. Тут важливо мати на увазі, що мова - це не стільки форма відтворення готових думок, скільки засіб змістовної організації та подання знань. Цей засіб є першоосновою, він універсальний, виникає із зародженням людського інтелекту та постає надійним інструментом його розвитку". Без широкого і цілеспрямованого моделювання інформаційного механізму природної мови та процесів мовної діяльності неможливо в повному обсязі визначити структуру та системну організацію нашої мови; саме тому в пропонованій роботі аналізові інформаційного забезпечення мовної діяльності присвячено цілий розділ.

Звичайно, формування інформаційних технологій обов'язковим чином спирається на формалізми моделі мови, що визначають структуру довільного повідомлення. То ж, найважливіші питання організації та функціонування мовної системи вбачатимуться наступними:

- базовий структурний елемент мовного повідомлення та його організація,

- схеми трансформування базового структурного елемента,

·

особливості поєднання структурних елементів в єдине ціле,

· лінгвістичний процесор як система, що моделює нашу мовну компетенцію стосовно структурної організації мовного матеріалу і яка здатна працювати з мовною інформацією в режимі аналізу або синтезу,

· база знань як структура, що здатна асимілювати знання з мовного повідомлення, або, навпаки, бути основою синтезу повідомлення.

Це, по суті, головні складові, що визначатимуть як структурну організацію мови, так і найважливіші принципи її функціонування і які повинні враховуватися на стадії формування сучасних ПМ-технологій.

Розбудова формальної моделі мови як основи ПМ-технологій

1. На шляху розбудови формальної моделі мови розв'язано такі питання:

1.1. Докладно проаналізовано на антропоморфних засадах інформаційний рівень актуалізації мовної діяльності людини та запропоновано узагальнену схему її інформаційного забезпечення.

1.2. Ретельно проаналізовано етап становлення граматичного ладу дитини (онтогенез мови), що виявився плідною основою розбудови формальної моделі.

1.3. Запропоновано модель розвитку мови в суспільстві (філогенез мови), що спирається на об'єктивні залежності окремих стадій онтогенезу.

1.4. Подано формальне визначення базової семантико-синтаксичної структури мовного повідомлення (атомарного речення), що постає основою розбудови всієї мовної системи.

1.5. Запропоновано графічну інтерпретацію базової семантико-синтаксичної структури, що адекватним чином відтворює окрему ситуацію довкілля та поєднує в собі особливості синтаксичних схем дерев залежностей та безпосередньо складових.

1.6. Визначено аксіоматику організації мовної діяльності людини, яка разом із поняттям базової структури складає основу формування системного підходу до організації мови.

1.7. Докладно проаналізовано монопредикатний рівень організації мовного повідомлення, що спирається на базову семантико-синтаксичну структуру та її трансформації (подано основні схеми трансформування атомарного речення).

1.8. Вказано можливі схеми об'єднання окремих монопредикатних конструкцій у межах формування поліпредикатного повідомлення.

1.9. Для окремого повідомлення визначено засоби комунікативної організації мови.

1.10. З урахуванням основних принципів відтворення зовнішнього середовища подано можливу версію зв'язності тексту.

2. Прикладні питання використання запропонованої моделі мови для формування сучасних ПМ-технологій

2.1. Формальне визначення базової структури уможливило виконання кількісного аналізу допустимих схем актуалізації атомарного речення та подання узагальненої схеми таких розрахунків.

2.2. Вдалося узагальнити поняття семантико-синтаксичної функції на стадіях формування монопредикатного та поліпредикатного повідомлень.

2.3. Спираючись на формалізми запропонованої моделі простежено цілісність відтворення категорій навколишнього середовища як на рівні функціонування аналізаторів, так і на рівні організації мовних засобів.

2.4. Використання поняття базової семантико-синтаксичної структури та урахування пунктів 2.2. і 2.3. уможливило подання схеми формування довільного повідомлення у вигляді рекурсивно організованої процедури.

2.5. До конструктивного рівня вдалося довести концепцію базового синтаксису, що спирається на загальні принципи інформаційного забезпечення людини та постає основою дихотомії базовий синтаксис / конкретний синтаксис.

2.6. Визначено архітектуру бази знань (для символьної інформації), що організаційно спирається на базову конструкцію атомарного речення.

2.7. Запропоновано організацію бази знань, де поєднуються особливості організації І та ІІ сигнальної системи і яка здатна опрацьовувати інформацію як на образному, так і на символьному рівнях.

2.8. Визначено структуру лінгвістичного процесора, що спирається на формалізми монопредикатного та поліпредикатного рівнів моделі мови; запропоновано концепцію функціонально-структурної єдності лінгвістичного процесора та бази знань.

2.9. Запропоновано рекурсивну схему функціонування лінгвістичного процесора, де елементом рекурсії постає базова семантико-синтаксична структура.

2.10. Побудовано експериментальну систему обробки мовної інформації, яка для вузької предметної сфери просторових відношень може працювати або в режимі аналізу (розуміння) мовного повідомлення, або в режимі синтезу тексту (формування опису дійсності).

2.11. Докладно проаналізовано структуру формування та використання часових і просторових відношень.

2.12. Побудовано модель “Дійсність-Текст”, яка для заданої предметної сцени синтезує її опис на мовному рівні.

Автор виносить на захист

На рівні створення формальної моделі мови:

1. Системну організацію мови, де чітко визначені на формальному рівні складові мовної організації та схеми їх взаємодії.

2. Формальну модель природної мови, основними складовими якої є:

- базова семантико-синтаксична структура мовного повідомлення, що визначається як атомарне речення і постає основою розбудови моделі всієї мовної системи (подано формальне визначення цієї структури та запропоновано її графічну інтерпретацію);

- монопредикатний рівень організації мовного повідомлення, що спирається як на атомарне речення, так і його трансформації (подано аналіз основних схем трансформування базової конструкції);

- поліпредикатний рівень організації повідомлення, що визначає головні схеми взаємозв'язку монопредикатних структур;

3. Аксіоматику мовної системи, що відтворює найважливіші принципові моменти формування та актуалізації мовної діяльності.

На рівні формування технологій, орієнтованих на опрацювання ПМ-інформації :

4. Системну організацію лінгвістичного процесора, що спирається на запропоновану модель мови і враховує формалізми монопредикатного та поліпредикатного рівнів.

5. Структурну організацію бази знань, де одиницею збереження, накопичення та опрацювання інформації постає базова семантико-синтаксична структура.

6. Концепцію функціонально-структурної єдності бази знань та лінгвістичного процесора для формування інформаційних ПМ-технологій.

7. Рекурсивну схему організації мовного матеріалу, основою якої постає базова семантико-синтаксична структура.

8. Рекурсивний принцип роботи синтаксичного аналізатора, де елементом рекурсії буде базова структура.

9. Організаційні принципи формування концепції базового синтаксису як основи моделювання мовної діяльності на рівні міжмовних технологій.

10. Функціональну організацію бази знань, що визначається принципами взаємодії образної та символьної інформації (взаємодія першої та другої сигнальної системи).

11. Моделювання співвідношення “Дійсність-Текст” у напрямах аналізу та синтезу мовного повідомлення.

Методи дослідження

На різних стадіях розбудови моделі мови та інформаційних технологій використано методи системного аналізу, числення предикатів, теорії нечітких множин, когнітивної графіки, рекурсивних перетворень. Моделювання виконано на сучасних комп'ютерах.

Наукова новизна (нові наукові доробки)

1. Запропоновано узагальнену схему інформаційного забезпечення людини, що поєднує в собі особливості обробки образної та символьної інформації і постає плідною основою формування системного підходу до розбудови формальної моделі мови та моделювання різних виявів мовної поведінки людини.

2. Запропоновано модель розвитку (філогенезу) мови, яка на відміну від сучасних суб'єктивних побудов, спирається вже на об'єктивні орієнтири онтогенезу.

3. Подано формальне визначення базової семантико-синтаксичної структури, що складає основу формування довільного мовного повідомлення.

4. Використано графічну інтерпретацію базової семантико-синтаксичної структури, що спирається на загальнолюдські принципи опрацювання інформації та поєднує в собі особливості синтаксичних схем дерев залежностей та безпосередньо складових.

5. Визначено аксіоматику мовної діяльності людини, яка разом з формальним описом семантико-синтаксичної структури постає плідною основою формування системного підходу до організації мови.

6. Подано перелік схем трансформування базової семантико-синтаксичної структури, що визначає монопредикатний рівень організації мовного повідомлення.

7. Проведено аналіз можливих схем об'єднання різних монопредикатних конструкцій, що формують поліпредикатний рівень організації повідомлення.

8. Запропоновано системну організацію мови, що створена на формальних засадах, має достатню пояснювальну силу та буде несуперечливою стосовно визнаних лінгвістичних фактів.

9. Виконано кількісний аналіз можливих схем актуалізації окремої базової структури.

10. Простежено непорушення цілісності відтворення довкілля на різних етапах формування повідомлення, починаючи від сприйняття образної інформації та закінчуючи синтезом зв'язного тексту.

11. Узагальнено поняття семантико-синтаксичних функцій для породження повідомлення як на монопредикатному, так і поліпредикатному рівнях.

12. Опрацьовано рекурсивну схему організації мовного матеріалу, що спирається на базову семантико-синтаксичну структуру.

13. Використано оригінальний підхід до аналізу зв'язності текстової інформації, що дає змогу досить адекватно відтворювати цілісність довкілля.

14. Практично реалізована пропозиція використання “образотворчих засобів семантики” (за Ю. Д. Апресяном) для моделювання процесів “розуміння мови”.

15. Для предметної сфери "просторові відношення" запропоновано структуру бази знань, що формується на засадах інтегрування образної та символьної інформації (взаємодія І та ІІ сигнальної системи).

16. Практично реалізовано систему обробки природно-мовної інформації, яка для вузької предметної сфери просторових відношень може працювати або в режимі аналізу мови (за заданим текстом синтезує на визначеній сцені відповідне просторове відношення), або в режимі синтезу мовного повідомлення

(у текстовому вигляді формує опис заданої сцени).

17. До конструктивного рівня доведено концепцію “базового синтаксису”, що спирається на загальнолюдські принципи опрацювання інформації; загальний синтаксис, таким чином, розглядається як актуалізація базового синтаксису засобами конкретної мови (конкретний синтаксис).

18. Запропоновано схему рекурсивного синтаксичного аналізатора, що здатен функціонувати в рекурсивно організованому середовищі (мовному матеріалі) і виконуватиме декомпозицію вхідного повідомлення за базовими семантико-синтаксичними структурами.

19. Практично перевірено концепцію інтегрування систем обробки образної та символьної інформації; реалізовано систему “Дійсність-Текст”, яка для випадковим чином синтезованої сцени генерує її опис у текстовому вигляді.

Практична цінність

У передмові до "Граматики-70" зазначено, що всі граматичні формалізми, які зібрані в цьому академічному виданні, не можуть визначатися в межах якоїсь узагальненої моделі мови (Грамматика современного русского литературного языка. Наука, М., 1970). Стан справ суттєво не змінився і зараз. На цьому тлі практична цінність поданих матеріалів виявляється в тому, що:

1. Запропоновано формальну модель мовної організації, яка з системних позицій висвітлює таке складне явище, як мовна діяльність і практично тією чи іншою мірою, з єдиних узагальнених позицій, висвітлює основні складові мовної системи та особливості її функціонування:

- інформаційне забезпечення мовної діяльності,

- розвиток мови (стадії онтогенезу та філогенезу і їхній взаємозв'язок),

- особливості відтворення середовища засобами мови,

- формальне визначення базової семантико-синтаксичної структури,

- графічну інтерпретацію базової семантико-синтаксичної структури,

- аналіз схем трансформування базової структури,

- різновиди взаємодії монопредикатних структур,

- комунікативний аспект організації повідомлення,

- зв'язність текстової інформації.

2. Створення формалізованої моделі мови дозволило вирішити ряд питань прикладного характеру, що стосуються формування сучасних інформаційних технологій, орієнтованих на опрацювання природно-мовного матеріалу:

- особливості процесу породження окремого повідомлення,

- кількісні оцінки актуалізації базової структури,

- цілісність відтворення категорій дійсності мовними засобами,

- рекурсивна схема організації мовного матеріалу,

- структура лінгвістичного процесора,

- структурна організація бази знань,

- рекурсивна організація синтаксичного аналізатора,

- функціонально-структурна єдність лінгвістичного процесора та бази знань.

3. На шляху моделювання мовної діяльності реалізовані наступні практичні розробки:

- програма аналізу (“розуміння”) мовного повідомлення, яка для вузької сфери просторових відношень за вхідним текстом формує модель середовища (тобто система працює в режимі аналізу текстової інформації);

- програма синтезу мовного повідомлення, що виконує перетворення “Дійсність –Текст” (для довільної сцени, заповненої об'єктами, система генерує її опис мовними засобами); тут реалізовано концепцію інтегрування систем обробки образної та символьної інформації;

- програма опрацювання мовного матеріалу, де на структурно-функціональному рівні закладається єдність лінгвістичного процесора та бази знань ЛП-БЗ з урахуванням вимог запропонованої формальної моделі; на рівні формування БЗ було перевірено можливість актуалізації “семантичного поля часу”.

4. Використання запропонованої формальної моделі мови визначено двома напрямами: з одного боку, це - інтерпретація відомих мовних явищ у межах поданої моделі, а з іншого - подальший розвиток запропонованої моделі в межах поглибленого вивчення та моделювання окремих виявів мовної діяльності.

5. В плані розвитку прогресивних інформаційних ПМ-технологій вбачаються наступні перспективи:

- проектування лінгвістичного процесора,

- формування системи подання, накопичення та використання знань,

- моделювання процесів розуміння мови (синтез та аналіз повідомлення),

- розробка систем автоматичного перекладу,

- інтегрування систем обробки образної та символьної інформації,

- системи автоматичної обробки ПМ-інформації.

Реалізація результатів

Запропонована формальна модель мови та експериментальні розробки у напряму моделювання мовної діяльності використовуються як для подальших наукових досліджень і підготовки фахівців, так і для створення перспективних систем та технологій, орієнтованих на опрацювання природно-мовної інформації. На цьому шляху отримані наступні результати:

1. Деякі розділи запропонованої формальної моделі пройшли апробацію через студентську аудиторію, коли з 1985 року для студентів спеціальності “Робототехнічні системи та комплекси” було започатковано лекційний курс “Системи відчуття та штучний інтелект”, в якому окремі теми були присвячені сенсорному рівню сприйняття інформації людиною та питанням взаємодії систем обробки образної та символьної інформації.

2. У 1992 році вийшов друком навчальний посібник "Інформаційне забезпечення інтелектуальних моделей", де подано загальну структуру інформаційного забезпечення та частково вже окреслено контури формальної моделі мови.

3. Окремі практичні розробки на програмному рівні (програми аналізу та синтезу мовного повідомлення, що орієнтовані на інтегрування образної та символьної інформації) використовуються з 1985 р. у навчальному процесі кафедри як лабораторний цикл з курсу "Інтегральні роботи" а також як теми дипломного проектування.

4. Починаючи з 1995 року започатковано лекційний курс "Лінгвістичне забезпечення інтелектуальних інтегрованих систем", що грунтується на запропонованій моделі мови. Він увійшов до навчальних планів кафедри технічної кібернетики Київського політехнічного інституту і викладається студентам зі спеціальності “Гнучкі комп'ютеризовані системи та робототехніка”.

5. З 1995 року запропоновану модель мови перенесено також і на шкільний рівень; вона проходить апробацію в межах навчально-практичної роботи Технічного ліцею КПІ, де викладається курс "Лінгвістичне забезпечення систем штучного інтелекту".

6. З 1997 року запропоновану модель мови внесено до навчальних планів лінгвістичного факультету КПІ для спеціальності "Переклад", де викладається курс ”Системна організація мови”.

7. Формалізована модель мови стала підгрунтям для відкриття з 1997 року на кафедрі технічної кібернетики нової спеціалізації "Гнучкі комп'ютеризовані системи в природно-мовних технологіях”, яка орієнтована переважно на інформаційні ПМ-технології.

8. У 1997 році надруковано монографію “Системна організація мови”, де в повному обсязі викладено запропоновану формальну модель мовної організації.

9. У 1998 р. вийшов друком навчальний посібник “Архітектура мови” (Лінгвістичне забезпечення інтелектуальних інтегрованих систем), де викладено формальну модель мови, подано загальну структуру інформаційного забезпечення людини та розглянуто деякі прикладні аспекти формування інформаційних природно-мовних технологій.

10. У вересні 1999 р. в м. Варна (Болгарія) відбулася установча міжнародна конференція з проекту “Комп'ютеризація природних мов”, де формальну модель було запропоновано вже як основу формування природно-мовних технологій.

11.У лютому 2000 р. в Рівненському державному гуманітарному університеті для викладачів та студентів прочитано цикл лекцій “Формальна модель мовної організації”.

12. У березні 2000 р. для студентів Острозької академії прочитано цикл лекцій з системної організації мови.

Апробація результатів

1. Формальну модель мови вперше було оприлюднено на V міжнародній конференції KDS-95 (Знання – Діалог – Рішення) в Ялті у жовтні 1995 р. (матеріали в збірнику наукових праць), ще й був отриманий приз “За оригінальну та нестандартну інформаційну теорію та її використання” з боку FOІ Іnstіtute for Іnformatіon Theorіes and Applіcatіons (Софія, Krassіmіr Markov).

2. На VІ міжнародній конференції KDS-97 (Знання – Діалог – Рішення), що відбулася в Ялті 15 – 20 вересня 1997 р.), було продовжено плідну дискусію навколо системної організації мови та прикладних аспектів її використання. Схвальний відгук було отримано від одного з фундаторів комп'ютерної техніки та інформатики в Болгарії - професора ф-ту математики та інформатики Софійського університету, кандидата математичних наук та доктора технічних наук Димитъра Петров Шишкова.

3. Презентація формальної моделі мови в Росії відбулася на міжнародному семінарі “Діалог'99” в Тарусі, куди автор подав роботу “Явище рекурсії в природній мові”.

4. У вересні 1999 р. в Болгарії (м. Варна, курорт “Святого Костянтина”) модель було презентовано на міжнародній конференції у зв'язку з проектом “Комп'ютеризація природних мов”, де вона вже розглядалася як основа формування прогресивних природно-мовних технологій.

5. Окремі напрями роботи доповідалися на семінарах Наукової ради НАН України з проблеми “Кібернетика”:

Семінар 6.3. “Автоматизація обробки математичних текстів та інтелектуальні машини”, керівник : д-р фіз.- мат. наук Капітонова Ю. В., чл.- кор. НАН України Летічевський О. А.

Семінар 9.3. “Розпізнавання образів та конструювання читаючих автоматів”, керівник : д-р фіз.- мат наук Шлєзінгер М. І.

Семінар 9.4. "Аналіз, розпізнавання та інтеграція сигналів в технічних системах", керівник: д-р. техн. наук Вінцюк Т.К.

Семінар 9. 10. “Проблеми розвитку розуму та взаємодії розумних систем і їх підсистем”, керівник : канд. філол. наук Крейн І. М.

6. У лютому 2000 року формальну модель мови було оприлюднено в Рівненському державному гуманітарному університеті, де було проведено науково-методичний семінар з викладачами кафедри української філології та прочитано цикл лекцій студентам п'ятого курсу. Модель отримала схвальні відгуки на обох рівнях.

7. У березні 2000 року в Острозькій академії для студентів та викладачів також було прочитано цикл лекцій “Системна організація мови”; отримано схвальні відгуки та цікаві пропозиції.

Публікації

З теми дисертації опубліковано понад 30 праць, серед них три книжкових видання; переважну більшість становлять одноосібні роботи.

Структура та обсяг роботи

Дисертація складається зі вступу, основної частини, висновків, списку використаних джерел та додатків; обсяг основної частини складає 313 сторінок

( 9 розділів, що містять 78 рисунків та 11 таблиць), обсяг додатків сягає

97 сторінок ( 7 розділів, що містять 19 рисунків та 1 таблицю).

У вступі обгрунтовано актуальність теми дослідження, визначено його мету та здійснено порівняння запропонованого підходу до розбудови моделі мовної системи з досі відомими.

Основна частина присвячена розбудові формальної моделі мови (подано узагальнену схему інформаційного забезпечення людини, розглянуто найважливіші складові мовної системи та їхню взаємодію, ретельно аналізуються етапи розвитку мови на стадіях онтогенезу та філогенезу, подано формалізми, що визначають структуру базової семантико-синтаксичної конструкції, схеми її трансформування та правила поєднання подібних структур).

Додатки подають вже можливі перспективи використання запропонованої моделі мови на шляху формування прогресивних інформаційних технологій, орієнтованих на опрацювання природно-мовної інформації. З урахуванням формалізмів моделі запропоновано рекурсивну схему організації мовного матеріалу, проаналізовано кількісні аспекти актуалізації базової структури, визначено структуру лінгвістичного процесора та бази знань в їх структурно-функціональній єдності. Для обмежених предметних сфер практично реалізовано системи синтезу та аналізу текстової інформації, моделюється співвідношення “Дійсність-Текст” (в тому чи іншому напрямку), перевірено концепцію функціональної єдності бази знань та лінгвістичного процесора.

Висновки - подано основні результати і висновки щодо запропонованої формальної моделі мови та її використання в природно-мовних інформаційних технологіях.

Основний зміст роботи

Робота починається вступом, в якому розв'язано два питання: визначено місце запропонованої моделі серед інших розробок та встановлено основні принципові моменти даного підходу.

Системний підхід до вивчення мови започаткований був ще Ф. де Соссюром, проте задовільного розв'язання цієї проблеми нема ще й досі. Однією з найповніших синтаксичних концепцій слід вважати "Структурний синтаксис"

Л. Теньєра, де ретельно проаналізовано основні аспекти синтаксичної будови речення. Проте ця концепція не виходить за межі окремого повідомлення і не подає цілісної картини мовної організації.

Інший напрям пошуків стосується формально-логічного підходу до будови мови і пов'язується з іменем С.К. Шаумяна (аплікативна модель мовного повідомлення). Проте після багаторічних спроб практичної реалізації його концепції фахівці дійшли висновку, що формальна логіка не в змозі подати задовільну інтерпретацію багатьох мовних явищ.

Нарешті, ще раз нагадаймо принциповий висновок великого творчого колективу "Граматики-70" про відсутність узагальненої моделі мови, яка б могла на системному рівні об'єднати всі багатопланові матеріали цього академічного видання. Адекватної узагальненої моделі розвитку та функціонування мовної системи не маємо ми ще й досі.

Автором запропоновано формальну модель мови, яка грунтується на єдиній базовій семантико-синтаксичній структурі атомарного речення, що отримує однозначне визначення; довільне мовне повідомлення визначається через цю базову структуру. Співвідношення між конкретним повідомленням та базовою структурою зумовлюється двома схемами перетворень; перша - визначає монопредикатний рівень організації повідомлення і породжена явищем трансформування базової структури, тоді як друга схема (поліпредикатний рівень) визначає різновиди зв'язку монопредикатних структур. Такий системний підхід до структурної організації мовного повідомлення дав змогу запропонувати несуперечливу модель організації мови, що знімає багато суперечностей сучасних граматичних концепцій.

Розбудова мовної системи починається з формування системного підходу - сукупності базових положень та понять, які стосуються аналізу такого складного явища людського буття, як мова. Системний підхід - це, з одного боку, ідеологія дослідження, яка потребує одночасного урахування багатьох підходів до аналізу складного явища, а з іншого - це використання узагальнень та положень конкретної прикладної сфери досліджень, які завжди займатимуть вищий рівень відносно конкретного питання і якраз вони, в загальному випадку, визначатимуть особливості функціонування всіх нижчих рівнів певного явища.

Якщо в нашому випадку об'єктом дослідження постає мова, то системний підхід повинен спиратися на узагальнення більш високого рівня, тобто на загальні особливості сприйняття та обробки інформації людиною. Таким узагальненням, для нашого випадку, постають питання інформаційного забезпечення людини та особливості відтворення середовища мовними засобами. Ці узагальнення, зібрані в систему, формують аксіоматику мовної системи, яка постає плідною основою моделювання мовної діяльності.

Розділ 1. Інформаційне забезпечення мовної діяльності

Основна частина пов'язана з поданням формальної моделі природної мови, яка постає плідною основою моделювання мовної діяльності людини. Оскільки мовна діяльність – явище складне й багатогранне і враховує не лише мовну складову, то дослідження починається з аналізу узагальненої схеми інформаційного забезпечення людини, що відтворює сенсорний рівень сприйняття інформації людиною. Тут інтегруються системи обробки як образної (зорової, акустичної, дотичної ….), так і символьної інформації. Центральна частина інформаційного забезпечення – це пам'ять людини, де зберігаються всі знання, здобуті людиною або безпосередньо з довкілля на сенсорному рівні, або через мовний матеріал, що надходить в писемному чи мовленнєвому вигляді.

Пам'ять людини (або база знань, як можемо вважати) реалізується одночасно на двох рівнях - образному та символьному, і часто зміст окремої лексичної одиниці визначається через його образний еквівалент. Таке поєднання в одній системі особливостей сприйняття і обробки образної та символьної інформації постає характерною особливістю мовної діяльності людини і визначає новий напрям сучасних досліджень - когнітивну графіку.

У загальному випадку конкретній мовній одиниці (на лексичному рівні) відповідатиме концептуальна модель об'єкта/явища, яка поєднує в собі образну інформацію, що надходить до нашого мозку за всіма каналами відчуттів. Ця властивість відтворює взаємодію І та ІІ сигнальної системи і буде важливою конструктивною характеристикою на шляху моделювання мовної діяльності.

Іншим важливим моментом загальної схеми інформаційного забезпечення постає дихотомія база знань / лінгвістичний процесор. Тут уже на найвищому рівні подаються головні контури лінгвістичного процесора, який окрім системи граматичних правил враховує також і об'єктивні особливості відтворення середовища мовними засобами ( категорій часу, простору, дії тощо). Принципово важливою для моделювання мовної діяльності вбачається концепція функціонально-структурної єдності лінгвістичного процесора та бази знань; без такої єдності неможливо ефективно моделювати різні аспекти мовної діяльності людини.

Розділ 2. Загальна характеристика мовної системи

Після визначення загальної схеми інформаційного забезпечення більш ретельно аналізується мовна система, яка подається через множину окремих індивідуальних мовних систем. Кожна така система функціонує в мовному матеріалі і складається з двох частин - лінгвістичного процесора та бази знань, які знаходяться в діалектичній єдності і взаємно визначають розвиток один одного.

Продуктивною вбачається концепція, згідно з якою мова - це вища форма відтворення зовнішнього середовища, що існує в триєдності часу, простору та дії. В роботі проаналізовано особливості відтворення середовища в неорганічному та живому світі. Конструктивною вбачається теза, що особливості існування найважливіших категорій дійсності відповідним чином відтворюються і на рівні організації та використання мовних засобів. У подальшому це відкриває цілий напрям цікавих досліджень, що стосуються сприйняття та відтворення просторових і часових відношень, відтворення мовними засобами цілісності елементів довкілля, особливостей породження мовного повідомлення тощо.

Отже, перші розділи роботи пов'язані з визначенням загальних особливостей організації та функціонування мови, які в подальшому отримують конкретне наповнення та постають конструктивною основою розбудови моделі мови. Наступні два розділи пов'язані з дослідженням розвитку мови на стадіях онтогенезу та філогенезу, що власне і стало поштовхом до розбудови формальної моделі мови.

Розділ 3. Розвиток мови (онтогенез)

Ця частина безпосередньо пов'язана вже з аналізом мовної діяльності і зачіпає фундаментальні питання розвитку мови як окремої людини (онтогенез мови), так і суспільства (філогенез мови). Ретельний аналіз онтогенезу мови спирається на дослідження О.М. Гвоздєва (Формирование у ребенка грамматического строя русского языка – М.: Изд-во академии пед. наук, 1949) і дає змогу відтворити та простежити часову послідовність найважливіших етапів опанування дитиною граматичного ладу мови.

Десь уже через півроку після народження в дитини з'являються перші комунікативні


Сторінки: 1 2 3





Наступні 7 робіт по вашій темі:

АСИМПТОТИЧНI РОЗВ'ЯЗКИ СИНГУЛЯРНО ЗБУРЕНИХ ДИФЕРЕНЦIАЛЬНИХ РIВНЯНЬ З IМПУЛЬСНОЮ ДIЄЮ - Автореферат - 27 Стр.
Переорієнтація нематичних рідких кристалів в комірках з світлочутливими орієнтуючими покриттями - Автореферат - 27 Стр.
ОРГАНІЗАЦІЯ КОРПОРАТИВНОГО УПРАВЛІННЯ ДІЯЛЬНІСТЮ АКЦІОНЕРНИХ ТОВАРИСТВ - Автореферат - 24 Стр.
вибір об’єму і методу операції при виразковій хворобі шлунка в залежності від наявності і вираженості диспластичних змін епітелію слизової оболонки - Автореферат - 27 Стр.
ФОРМУВАННЯ І РЕАЛІЗАЦІЯ МАРКЕТИНГОВИХ СТРАТЕГІЙ В КОНДИТЕРСЬКІЙ ПРОМИСЛОВОСТІ УКРАЇНИ - Автореферат - 24 Стр.
ПОПЕРЕДЖЕННЯ АДМІНІСТРАТИВНИХ ПРАВОПОРУШЕНЬ СЕРЕД НЕПОВНОЛІТНІХ - Автореферат - 26 Стр.
Поліпшення ПОКАЗНИКІВ ЯКОСТІ ПРИСТРОЇВ КОГЕРЕНТНОЇ ОБРОБКИ БАГАТОПОЗИЦІЙНИХ СИГНАЛІВ В БАГАТОКАНАЛЬНИХ МОДЕМАХ - Автореферат - 27 Стр.