У нас: 141825 рефератів
Щойно додані Реферати Тор 100
Скористайтеся пошуком, наприклад Реферат        Грубий пошук Точний пошук
Вхід в абонемент





ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ

ХАРКІВСЬКИЙ НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ
РАДІОЕЛЕКТРОНІКИ

На правах рукопису

Четвериков Григорій Григорович

УДК 007.681.5; 519.714; 519.766

ФОРМАЛЬНІ МОДЕЛІ ТА МЕТОДИ СИНТЕЗУ ШВИДКОДІЮЧИХ БАГАТОЗНАЧНИХ СТРУКТУР МОВНИХ СИСТЕМ

05.13.23 – cистеми та засоби штучного інтелекту

Автореферат
дисертації на здобуття наукового ступеня
доктора технічних наук

Харків-2005

Дисертацією є рукопис

Робота виконана у Харківському національному університеті радіоелектроніки Міністерства освіти і науки України

Науковий консультант – доктор технічних наук, професор

Бондаренко Михайло Федорович, Харківський національний університет радіоелектроніки, ректор, завідувач кафедри програмного забезпечення ЕОМ

Офіційні опоненти:

доктор фізико-математичних наук, професор Анісімов Анатолій Васильович, Київський національний університет, декан факультету кібернетики, завідувач кафедри математичної інформатики

доктор технічних наук, член-коренспондент НАН України, професор Грицик Володимир Володимирович, Державний науково-дослідний інститут інформаційної інфраструктури НАН України (м. Львів), директор

доктор технічних наук, професор Кучеренко Євген Іванович, Харківський національний університет радіоелектроніки, професор кафедри штучного інтелекту

Провідна установа:

Інститут кібернетики ім. В. М.  Глушкова НАН України, відділ теорії цифрових математичних машин та систем

Захист відбудеться “_25_” __січня__ 2006 р. о _13.00_ годині на засіданні спеціалізованої вченої ради Д 64.052.01 Харківського національного університету радіоелектроніки за адресою 61166, м. Харків, пр. Леніна, 14

З дисертацією можна ознайомитись у бібліотеці Харківського національного університету радіоелектроніки за адресою 61166, м. Харків, пр. Леніна, 14

Автореферат розісланий “_23_” ___грудня____ 2005 р.

Вчений секретар
спеціалізованої вченої ради Чалий С. Ф.

ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ

Актуальність теми. Розвиток обчислювальної техніки є базою автоматизації розумової діяльності, і тому виникло нове поняття штучного інтелекту. Проте, успіхи в галузі інтелектуалізації обчислювальної техніки незначні, особливо, якщо порівнювати досягнуте з очікуваними результатами та прогнозами. На даний час проблеми у розвитку систем штучного інтелекту ставлять питання про застосування орієнтації на досягнення високорівневої технології обробки інформації (тобто отримання нової якості), що виявляється у намаганнях реалізувати на фон-неймановських комп’ютерах системи ШтІ. Отже сучасні, нові вимоги до технології обробки інформації можно звести до таких двох моментів: необхідність вирішення проблем, що кепсько формалізуются та наявністю кінцевого користувача, який за своєю професійною діяльностью не є програмистом.

Таким чином, приходимо до розуміння одного з варіантів на шляху створення систем ШтІ – це шлях аналізу, моделювання та синтезу мовного інтелектуального інтерфейсу за допомогою засобів k-значної логічної системи, зокрема, алгебри скінченних предикатів (АСП) та k-значних структур і кодування.

Основний вплив на вирішення проблеми моделювання механізмів природної мови, автоматизації мовної діяльності людини, а також розвитку та удосконаленню засобів обчислювальної техніки для її реалізації зробили дослідження українських та закордонних учених: А.В. Анісімова, М.Ф. Бондаренка, В.П.Гладуна, В.В.Грицика, А.Д.Закревского, А.В.Каляева, А.В.Палагіна, Д.А.Поспелова, К.Г.Самофалова, В.П.Тарасенка, Ю.П.Шабанова-Кушнаренка, В.А.Широкова, F. Ferrandi, A. Napieralski, R. Ubar, S. Yoshitomi та інших. Слід відмітити, що одним з перспективних і актуальних напрямків застосування теорії багатозначних структур і кодування в системах штучного інтелекту на практиці є моделювання природної мови. Цей підхід дозволяє поряд з розвитком варіантів програмної реалізації отриманих моделей мови здійснити інший підхід – схемний. Мозок, при цьому, розглядається як відправна точка побудови k-значних просторових структур мовних систем штучного інтелекту. Аналіз показує, що найближчими апаратними засобами за допомогою яких можливо вирішити ці проблеми є універсальні багатозначні єлементи та структури просторового типу з властивостями оборотної дії.

Виникає актуальна необхідність створення теоретичних та методологичних oснов опису лінгвістичних зв’язків (законів) української мови рівняннями алгебри предикатів, розвиток методів синтезу багатозначних апаратних засобів просторового типу для побудови високоефективних інтерфейсів інформаційних систем на природній українській мові, а також принципів та методів, що об’єднані даною теоретичною основою.

Зв’язок роботи з науковими програмами, планами, темами. Дисертація виконана на кафедрі програмного забезпечення ЕОМ Харківського національного університету радіоелектроніки в рамках держбюджетних науково-дослідних робіт: “Розробка теорії штучного інтелекту та її застосування для автоматизації процесів навчання та виховання в учбових закладах України”(№ ДР 0195U023071) згідно з підрозділом “Розробка математичних основ та алгоритмів синтезу експертних та мовних систем з елементами штучного інтелекту (науковий керівник); “Розробка загальних принципів, методів, моделей і алгоритмів семантичної обробки інформації для побудови інтелектуальних інформаційних систем”(№ ДР 0196U013503) згідно з підрозділом “Розробка математичних моделей морфології української мови та загальних принципів і методів побудови універсальних просторових структур штучного інтелекту”( науковий керівник); “Розробка теорії штучного інтелекту на базі дослідження механізмів розуму людини та її застосування для проектування та побудови інтелектуальних інформаційних систем” (№ ДР 0197U012126, виконавець); „Розробка математичного, алгоритмічного та програмного забезпечення для проектування інтелектуальних систем обробки аудіо, відеосигналів, природної мови та аналітичної інформації” (№ ДР 0100U005436) згідно з підрозділом „Розробка теоретичних основ, моделей та алгоритмів вилучення знань з текстових баз даних та побудова високоефективних багатозначних структур природно-мовних систем щодо реалізації інтелектуального інтерфейсу”(науковий керівник) „Моделі механізмів інтелекту людини та їх застосування у інформаційних системах зі штучним інтелектом” (№ ДР 0103U001545) у рамках підрозділу „Ідентифікація мовника на обмеженому образі мовного матеріалу”(виконавець) та госпдоговірних тем: “Розробка моделі об’єктно-реляційного адаптеру для програми “TraxFinder” (№ ДР 0103U003651, науковий керівник), “Розробка методології та програмно-апаратних засобів забезпечення відказостійкості й живучості спеціалізорованих однорідних процесорів та їх елементів для побудови надшвидкодіючих пристроїв у системах штучного інтелекту” (№ ДР 0195U023051, науковий керівник), а також ряду тем за договорами про науково-технічне співробітництво.

Мета і задачі дослідження. Метою дисертаційної роботи є розробка теоретичних та методологічних засобів опису лінгвістичних зв’язків (законів) української мови у вигляді рівнянь алгебри предикатів, а також апаратурних методів їх розв’язання у рамках подальшого розвитку та удосконалення методів синтезу багатозначних апаратних засобів просторового типу для досягнення високорівневої технології обробки символьної інформації

Для досягнення поставленої мети в дисертації сформульовано та вирішено такі задачі –

дослідження проблеми моделювання механізмів природної мови та розроблення теоретичних основ побудови швидкодіючих багатозначних структур мовних систем на основі апаратурного методу розв’язання рівнянь алгебри предикатів;–

дослідження процесу формалізації системи фонетичних ознак української мови та побудова математичних моделей акцентних характеристик і букво-фонемних відношень для голосних та приголосних звуків української мови; –

дослідження процесу формалізації системи граматичних ознак української мови та побудувати математичні моделі його морфологічного рівня; –

вивчити специфіку застосування запропонованого апаратурного методу розв’язання рівнянь алгебри предикатів для обробки символьної інформації, що задана k-значними неоднорідними кодами (у вигляді рівнянь алгебри предикатів): оборотні АСП-структури;–

побудова і дослідження нового класу АСП-структур на основі декомпозиції k-значних структур на дискретно-аналогові та цифрові субблоки у вигляді універсальних функціональних перетворювачів просторового типу для схемної реалізації формальних моделей мови.

Об’єктом досліджень у роботі є процеси моделювання інтелектуальної діяльності людини, зокрема процедура формального опису природної мови (української): слово.

Предмет досліджень – апаратурні методи розв’язання рівнянь алгебри скінченних предикатів та засоби побудови універсальних k-значних просторових структур мовних систем штучного інтелекту.

Методи дослідження грунтуються на використанні теорії множин, інженерної лінвістики, теорії моделювання, базуючись на математичному апараті теорії інтелекту, зокрема АСП, для одержання формального опису системи фонетичних ознак, букво-фонемних відношень та морфології української мови; при синтезі швидкодіючих багатозначних структур мовних систем використано методи теорії інформації, інтелекту, кодування та засобів k-значної логічної системи.

Наукова новизна одержаних результатів. Наукова новизна дисертації полягає в постановці та рішенні проблеми розвитку теоретичних основ побудови швидкодіючих багатозначних структур мовних систем штучного інтелекту в рамках подальшого розвитку теорії інтелекту у вигляді алгебро-логічних засобів моделювання природної мови та методів синтезу багатозначних оборотних неоднорідних елементів і модулів просторового типу: АСП-структур.

У рамках вирішення цієї проблеми одержано такі наукові результати:*

Отримав подальший розвиток апаратурний метод розв’язання рівнянь алгебри скінченних предикатів, що, на відміну від існуючих, забеспечує реалізацію властивості оборотної дії АСП-структур та широке розпаралелювання обробки символьної інформації. *

Вперше формально описані та отримані моделі лінгвістичних зв’язків елементів фонетичного рівня української мови, зокрема, фонетичних ознак, букво-фонемних відношень голосних та приголосних звуків у вигляді рівнянь алгебри предикатів, що дозволяє отримати їх компактну формальну модель для наступної програмно-апаратної реалізації. *

Вперше засобами алгебри предикатів отримано математичний опис акцентних характеристик субстантивного відмінювання іменників, акцентної закономірності відмінювання дієслів, розміщення умовного наголосу в повних та коротких формах прикметників та числівників української мови, що дає можливість застосування даних моделей для економного запису словарних структур природної мови у лексикографічних базах данних.*

Вперше описані та отримані формальні моделі словозміни іменних частин української мови, які наведені у вигляді рівнянь алгебри предикатів, що дозволяє здійснити їх апаратну реалізацію на базі запропонованих АСП-структур, що синтезовані засобами цієї алгебри.*

На базі використання апарату алгебри скінченних предикатів вдалося виявити особливості моделей АСП-структур з властивостями оборотної дії для перетворення багатозначних неоднорідних кодів ( у вигляді рівнянь): встановлені їхні властивості, вивчена система суперпозицій, що в сукупності представляє уніфікований дослідницький апарат аналізу та інтерпретації даних в умовах багатозначності і неоднорідності.*

Розроблений та обґрунтований новий клас математичних моделей у вигляді АСП-структур на основі декомпозиції k-значних стуктур на дискретно-аналогові та цифрові субблокі у вигляді універсальних функціональних перетворювачів просторового типу зі зростом значності, які шляхом налагодження, а не зміни структури, забезпечують відтворення моделюючих інтелектуальних властивостей та потрібних функціональних перетворювань.

Практичне значення одержаних результатів. Розроблені методи забезпечують створення універсальних або спеціалізованих програмно-апаратних засобів обробки k-значних неоднорідних кодів, що задані лінгвістичними рівняннями, які володіють широкими функціональними можливостями, прямою i оберненою дією та підвищеною надійністю. Одержано 3 патенти України і РФ на винаходи, технічні рішення яких були використані на ряді підприємств згідно з актами.

Практичне значення результатів дисертації полягає в тому, що створено логіко-математичний інструментарій та теоретичні основи побудови просторових (швидкодіючих) апаратних засобів обробки символьної інформації, що дає можливість здійснити розробку інтелектуального інтерфейсу мовних систем ШтІ; запропоновані та створені засоби володіють широкими, аж до універсальності, функціональними можливостями, прямою і оберненою дією та підвищеною надійністю.

Матеріали дисертації були використані та впроваджені при розробці і для створення мікроелектронної реалізації k-значних просторових елементів і структур в системах з елементами штучного інтелекту та лексикографічних базах даних, що підтверджено відповідними актами: ВАТ СКТВ “Елемент” (м. Одеса, акт від 31.10.1997), ФМІ НАН України (м. Львів, акт від 17.03.1998), Науково-виробничій корпорації “Київський iнститут автоматики” (м. Київ, акт від 02.06.1998), Донецькому інституті проблем штучного інтелекту (м. Донецьк, акт від 03.06.1998), ВАТ НДІ ПРЕА (м. Львів, акт від 21.12.1998), Національному технічному університеті України “Київський політехнічний інститут” (м. Київ, акт від 08.02.2001), ЦККБ “Протон” (м. Харків, акт від 05.02.2004), Українському мовно-інформаційному фонду НАН України (м. Київ, акт від 31.08.2005), Львівська наукова бібліотека НАН України ім. В.Стефаника (акт від 21.12. 1998), Харківська державна наукова бібліотека ім. В.Г.Короленка (акт від 02.02.2002), Академіі наук екології та безпеки життєдіяльності (м. Харків, акт від 24.12.2001), Харківська Міська Рада Харківської області, Головне управління міського господарства (акт від 21.11.2001) та Харківському національному університеті радіоелектроніки: у навчальному процесі кафедри програмного забезпечення ЕОМ при читанні лекцій, проведенні практичних і лабораторних занять з дисциплін “Високорівневі технології обробки мовної інформації”, “Логічні технології штучного інтелекту”, у курсовому та дипломному проектуванні під час підготовки спеціалістів та магістрів спеціальності “Програмні засоби автоматизованих систем” (ПЗ АС) комп’ютерного варіанту тлумачного словника з інтелектуальних систем під час створення комп’ютерних технологій навчання та їх застосування у відповідних навчальних курсах із спеціальності ПЗ АС. Одноосібно видано і впроваджено в навчальний процес три навчальних посібника з грифом Міністерства освіти України ( акти від 3.12.1998; 04.12.2001; 10.01.2002)

Особистий внесок здобувача. Усі положення, що виносяться на захист, основні результати теоретико-прикладних і експериментальних досліджень отримані здобувачем особисто та опубліковані в роботах [6–17, 34–37, 44]. В усіх роботах, які написані у співавторстві, здобувачу належать ініціатива ідей, постановки задач, вибір і обґрунтування їхнього рішення, а також розробка нового підходу, нової теоретичної бази побудови k-значних швидкодіючих структур мовних систем штучного інтелекту. У монографії [1] підрозділи 1.4, 3.4 і розділи 2, 4, 5 написані здобувачем особисто. У роботах [2, 19, 31–33] здобувачем запропоновано методи синтезу та апаратної реалізації проміжних цифрових дешифраторів, просторових матричних комутаторів і селекторів для універсальних багатозначних функціональних перетворювачів із використанням засобів теорії інтелекту, зокрема АСП, за умов нарощування значності та числа змінних. У роботах [20–22, 27–29, 39–43, 45–49] – загальні принципи побудови та модифіковані методи синтезу окремих компонент універсальних багатозначних просторових структур (АСП-структур): багатозначних оборотних неоднорідних логічних елементів та модулів. У роботах [18, 26] здобувачем досліджено алгебро-логічну структуру мови та зроблено поширення алгебри скінченних предикатів. У роботах [23–25, 38] здобувачем особисто запропоновано методологію формального опису лінгвістичних зв’язків елементів фонетичного та морфологічного рівня української мови. Здійснено дослідження подальшого розвитку методології та методів математичного опису лінгвістичних зв’язків. У роботі [30] викладено модульний принцип схемної реалізації системи лінгвістичних рівнянь, який запропоновано здобувачем.

Апробація результатів дисертації. Основні положення та результати досліджень доповідались, обговорювалися й отримали позитивну оцінку на таких науково-технічних конференціях, симпозіумах, форумах та семінарах: Всесоюзній школі-семінарі “Распараллеливание обработки информации” (Львів, 1979–1987), “Проектирование автоматизированных систем контроля” (Харків, 1991), “Психологическая бионика” (Харків, 1986, 1987), “Бионика интеллекта” (Харків, 1987); Всесоюзній науково-технічній конференції “Повышение качества программного обеспечения ЭВМ” (Севастополь, 1986); Міжрегіональній науково-технічній конференції “Цифровая обработка сигналов в системах связи и управления” (Львів, 1992); Міжнародній науково–техннічній конференції “Методы представления и обработки случайных сигналов и полей” (Туапсе, 1993); Міжнародній науковій конференції ім. Академіка М. Кравчука (Київ, 1995, 1996); Українській конференціїї по автоматичному управлінню “Автоматика” (Львів, Севастополь, 1995, 1996 ); Науково-технічній конференції “Досвід розробки та застосування приладо-технологічних САПР мікроелектроніки” (Львів, 1995); Міжнародному семінарі “Проблеми обновлення вищої бібліотечної та інформаційної освіти” (Харків, 1995); Міжнародній конференції “Теория и техника передачи, приема и обработки информации” (Туапсе, 1995-2003); Міжнародній науково-практичній конференції “Информационные ресурсы: создание, интеграция и использование” (Гута, 1996); Міжнародній конференції “Приборостроение в экологии и безопасности человека (Санкт-Петербург, 1996); ІІІ,ІV Всеукраїнській міжнародній конференції (Київ, “УкрОБРАЗ’96”, “УкрОБРАЗ’98”); Міжнародній науково-методичній конференції “Интеграция образования, науки и производства” (Луцьк, 1996, 1997); Міжнародній науково-технічній конференції “Проблемы физической биомедицинской электроники” (Київ, 1997); Науково-методичній конференції “Використання комп’ютерних технологій в навчальному процесі” (Харків,1997); Міжнародній науково-практичній конференції “Системы и средства передачи и обработки информации” (Одеса, 1998); VІ–ІХ Міжнародних конференціях “Знание-Диалог-Решение” (Кацівелі, Ялта, Санкт-Петербург, 1997, 1999, 2001); ІV,V Міжнародних наукових конференціях “Интеллектуальные и многопроцессорные системы–2003,2004. Искусственный интеллект–2003,2004” (Геленджик, Росія, Кацівелі, УкраЇна); Міжнародній науковій конференції “Вычислительные методы и производство: реальность, проблемы, перспектива” (Гомель, Беларусь, 1998); Міжнародній науково–технічній конференції “Вопросы проектирования, эксплуатации технических систем в металлургии, строительстве и машиностроении” (Старий Оскол, 1999); ІV Міжнародній науково-технічній конференції по телекомунікаціям (Одеса, “НТК-Телеком’99”); 1-го Міжнародного радіоелектроного Форуму “Прикладная радиоэлектроника. Состояние и перспективы развития” (Харків, МРФ–2002); X-th International Conference “Knowledge-Dialogue-Solution (KDS–2003)”, Varna, Bulgaria; Proceeding of the Third International Conference “Information Reseach, Applications and Education” (i.TECH 2005), Varna (Bulgaria); Proceeding of the 6th,10th ,12th International conference “Mixed Desing of Integrated Circuits and Systems”, Krakow, Lodz, Krakow (Poland), (MIXDES’99, MIXDES’2003, MIXDES’2005); Proceedings of International Conference “Information Resources Management Associati” (IRMA 2003), Philadelphia (USA), Proceedings of the 9th World Multi-Conference in Systemics, Cybernetics and Informatics (WMSCI 2005), Orlando, Florida, (USA).

Публікації. Основні наукові положення дисертації викладені в 49 працях, серед яких 2 монографії, 17 статей у 8 різних журналах, 8 статей у 6 різних збірниках наукових праць (усі 25 робот (з яких 12 опубліковано одноосібно) у виданнях, що внесено до переліку наукових фахових видань ВАК України за спеціальностями “Технічні науки”)), 3 навчальних посібники з грифом Міністерства освіти України, 16 публікацій у працях, матеріалах і тезах доповідей різних конференцій та семінарів, 3 патента (України та Російської Федерації) на винаходи.

Структура та обсяг дисертації. Дисертація складається із вступу, семи розділів, висновків, списку використаної літератури із 282 найменування на 18 с., додатку на 17 с. Загальний обсяг становить 327 с., ілюстрацій – 11 (з них 27 на 27 окремих сторінках), таблиць – 11 ( з них 3 на 7 окремих сторінках).

ОСНОВНИЙ ЗМІСТ РОБОТИ

У вступі обґрунтовано актуальність обраної теми дисертації, сформульовано мету, основні задачі досліджень і наукову новизну отриманих результатів. Розглянуто практичне значення, реалізацію та впровадження результатів дисертації. Зазначені зв’язок роботи з науковими програмами, планами організацій, де виконувалась робота, а також особистий внесок автора в роботи, виконані у співавторстві. Наведено відомості про публікації та апробацію роботи.

Перший розділ присвячений аналізу стану досліджуваної та розв’язуваної проблеми, пов’язаної з побудовою формальних моделей мови та створенням основ теорії синтезу високоефективних цифрових багатозначних структур мовних систем з просторовим відображенням інформації та тенденцій їх розвитку.

Показано, що теоретичні та експериментальні дослідження, й виникаючі під час створення систем ШтІ ускладнення, сприяють висуненню концепції адекватності багатозначної логіки та структур завданню створення систем ШтІ з очікуваними властивостями та можливостями.

Задача інтелектуалізації та українізації цифрових мереж і структур не передбачає простого й швидкого вирішення. Головна перепона, на яку наштовхуються всі спроби радикально підвищити інтелектуальні здібності ЕОМ, полягає у недосконалості машинних мов. Вони значно поступаються щодо промовистості природним мовам. Росте число прихильників точки зору, що створення “машинного інтелекту” вимагає вивчення й моделювання людського інтелекту та, у першу чергу, природної мови, що лежить у його основі. Стає все очевиднішим, що при подальшому вдосконаленні машинних мов необхідно використовувати ширше організацію людської мови. Механізм природної мови, не дивлячись на видиму легкість користування ним людиною, надзвичайно складний й до того ж слабо вивчений. Отже розроблення систем обробки мовної інформації дуже часто базуються на недостатньо міцному лінгвістичному фундаменті. Багато хто з дослідників, що займалися автоматизацією мовної діяльності, перейшли до поглибленого вивчення, дослідження й моделювання окремих сторін механізму природної мови.

Наявність алгебри скінченних предикатів відкриває можливість переходу від алгоритмічного опису інформаційних процесів до опису їх у вигляді рівнянь, а рівняння задають відношення між змінними. Усі змінні в рівнянні рівноправні, будь-які з них можуть виступати як у ролі незалежних, так і в ролі залежних. При цьому рівняння дають ту перевагу перед алгоритмами, що можна розрахувати реакцію системи навіть при неповній визначеності вхідних сигналів, у той час як неповністю розроблений алгоритм є непрацездатним. По-друге, за умов зміни знань про об'єкт система рівнянь АСП, покладених на структуру системи, завжди готова до використання, а алгоритм часто вимагає докорінної зміни її структури. За допомогою формул АСП будуємо АСП-структури, які реалізують відповідні скінченні предикати. Це є аналог побудови комбінаційних схем за формулами алгебри логіки. В залежності від рівня функціонально-структурної реалізації маємо АСП-структури першого, другого та третього роду.

У розділі з загальних позіцій проаналізовано підхід, що дозволяє шляхом уніфікації дво- й k-значного кодування та застосування засобів алгебри скінченнях предикатів синтезувати багатозначні оборотні неоднорідні елементи та модулі: оборотні АСП-структури. Останні дозволяють побудувати нові пристрої прямої та зворотної дії для вирішення задач морфологічної обробки словоформ (текстів), зокрема аналізу, синтезу та нормалізації.

Другий розділ присвячений алгебро-логічним засобам моделювання природної мови, аналізу та дослідженню її алгебро-логічної структури. Природна мова (ПМ), як явище інтелектуальної діяльності людини є дуже складним об’єктом. Але маючи формальний опис природної мови, його можна реалізувати на ЕОМ і таким чином прищепити машині здібність володіти природною мовою. Треба щоб машина пристосовувалась до людини та розмовляла її мовою, а не навпаки – людина прилаштовувалась до машини. Природна мова для людини найзручніша. Людина ніколи не проміняє її ні на мову математики, ні на мову програмування. Уявляється, що немає іншої галузі знань, яка б в вищому ступені ніж ця сприяла підвищенню темпів комп’ютеризації та інформатизації суспільства. Тоді можна буде прищепити машині здібність до природної мови. Якщо можна буде добути з аналізу мови більш досконалу алгебраїчну мову, це дуже збільшить можливості розроблювачів інформаційних систем, нових інформаційних технологій. Алгебро-логічний апарат, який можна буде добувати з природної мови дозволятиме розширювати можливості розроблювача, що займається створенням нових інформаційних технологій. Отже, концептуально-методологичний підхід до ПМ (з математичної точки зору) дозволяє сприймати її як деяку алгебру, а тексти – як формули цієї алгебри.

У якості об’єкту дослідження та моделювання в даній роботі вибрана українська мова (точніше – її словоформи). Кожна людина являється носієм предикатів тих слів, словосполучень та речень, котрі вона розуміє. Таким чином смисл речення є предикат, який задає визначений зв’язок L(X,Y) поміж смислом та відповідним йому фрагментом тексту. Тут X=(x1, x2,…, xm) змінний вектор смислу, m – число його компонент, а y1, y2, … , yn – деякий фрагмент тексту, де y1, y2, … , yn – букви, які стоять на 1,2, ... , n місцях фрагменту. На підставі наданої моделі базується процес формалізації (математичний опис) природної мови, який запропоновано у роботі.

У роботі використовується апарат алгебри предикатів. Останню трактуємо як алгебру, носієм якої є множина M усіх предикатів Um, де U – непорожня множина всіляких змінних, яку називатимемо універсумом, тобто U={x1, x2,…, xm}. Множина U може бути як скінченною, так нескінченною. У першому випадку простір Um називатимемо скінченним, а в іншому – нескінченним. Тут x1, x2,…, xm – всілякі місця предметів. Тому їх інакше називатимемо предметними змінними. Якщо предмет a знаходиться на місці xi (i=), то будемо казати, що змінна xi приймає значення a та маємо такий запис xi=a. Якщо a1, a2,..., am U та x1=a1, x2=a2, ..., xm= am, то пишемо (a1, a2,..., am) Um і кажуть, що предметний вектор (набір) належить предметному простору Um. Число m називатимемо вимірністю простору Um. Будь-яку підмножину T простору Um називатимемо m-місцевим відношенням, яке задано на Um. Для формульного запису таких відношень будемо використовувати функції у вигляді Q(x)=Q(x1, x2,…, xm), яке відбиває Um у множину ? = {0,1}, що називатимемо предикатами, які визначені на Um. Елементи множини ? назватимемо логічними.

Нехай T – множина усіх відношень на Um, Q – множина усіх предикатів на Um. Відношення T та предикат Q називатимемо відповідними одне одному, якщо при будь-яких x1, x2,…,xm маємо:

(1)

Згідно з (1) можливий перехід від будь-якого відношення T до відповідного йому предикату Q. Предикат Q, що знаходимо по (1), називатимемо характеристичною функцією відношення T.

Предикатом розпізнавання предмета aU за змінною xi (i=) називатимемо умову

 

Предикат a(xi) будемо розглядати як предикат a(x1, x2,…, xi,..., xm) із P усі аргументи якого, крім xi, неістотні. Вираз у вигляді a(xi), де (i=), aU, замінимо на xia: тут a називатимемо показником для змінної xi .

Алгеброю предикатів над M називатимемо множину T з базисними елементами xia (i=, aU) та базисними операціями: диз?юнкція, кон?юнкція, заперечення. Виключення з базису даної алгебри операції заперечення дозволяє отримати диз?юнктивно-кон?юнктивну алгебру. Доведено її повноту.

Природну мову будемо уявляти як математичний об’єкт (якась алгебра). При цьому смисл (зміст) думок можна висловити реченнями і текстами, що з точки зору їх математичної природи будемо розглядати як предикати. Наша відправна точка у даних міркуваннях: думки – це предикати. Таким чином, кожне речення виражає деяку функцію з двійковим значенням, тобто задає деякий предикат P(x) = . Незалежною змінною х даної функції буде змінна ситуація, залежною – істинна змінна . Після підставлення замість змінної х конкретної постійної ситуації х=а задане речення стає істинним ( = 1) або хибним ( = 0). Це залежить від того чи відповідає чи ні зміст цього речення ситуації а, до якої воно віднесено. Будемо розглядати змінну ситуацію як набір х=(х1, х2,…, хm) предметних змінних х1, х2,…, хm. Будь-яка постійна ситуація х=а повинна бути набором а=(а1, а2,…, аm) деяких предметів х1 = а1, х2 = а2,…, хm= аm .Таким чином кожне речення повинно висловлювати деякий предикат P(х1, х2,…, хm) = , що представляє залежність істинної змінної від предметних змінних х1, х2,…, хm. Проте будь-яке речення за природно-мовною формою відрізняється від математичної формули тим, що виражає не усю функцію P(х1, х2,…, хm), а тільки її ім’я Р. І це так, бо кожен раз, коли людина перетворює те чи інше речення у відповідну до нього думку вона добудовує його до предикату. При цьому вона додає до нього (як до ім’я предикату) відсутні предметні змінні. Тільки після цього речення стає доступним для розуміння. Та, навпаки, перетворюючи деяку думку у речення, людина виключає з неї предметні змінні, що дозволяє передавати іншим людям не саму думку, а лише її ім’я.

Таким чином в роботі алгебра розглядається як інструмент дослідження, але не як його предмет. Розглянемо та побудуємо відповідні реляційні моделі лінгвістичних зв’язків елементів фонетичного рівня та морфології української мови за допомогою алгебри предикатів.

У третьому розділі об’єктом моделювання є відношення, що базуються на лінгвістичних зв'язках, які існують між різними елементами фонетичного рівня української мови. На підставі вивчення даних фонетики, математично описуються відношення, що зв'язують окремі фонеми з системою їх фонетичних ознак:

у1 – ознака голосності звуку зі значеннями: г – голосна, п – приголосна;

у2 – ознака шумності приголосних зі значеннями: ш – шумова, нш – нешумова;

у3 – ознака вокалізації звуку зі значеннями: дз – дзвінка, г – глуха;

у4 – ознака проривності звуку зі значеннями: пр – проривна, щ – щілинна;

у5, у6 – ознаки веляризації та лабілізації звуку зі значеннями: м, с, в – мала, середня, велика відповідно;

у7 – ознака палаталізації зі значеннями: т, м – тверда, м'яка відповідно;

у8 – ознака назалізації зі значеннями: р – ротова, н – носова;

у9 – ознака вібрантності зі значеннями: с – спокійна, т – тремтяча;

у10 – ознака місця артикуляції звуку зі значеннями: г – губна, п – передньоязикова, з – задньоязикова;

у11 – ознака локалізації передньоязикової шумової фонеми зі значеннями:
з – зубна, п – піднебінна;

у12 – ознака африкативності передньоязикових шумових фонем зі значеннями:
аф – африката, неаф – неафриката.

Встановлено зв'язки між звуками Y мови у визначеному фонетичному контексті Z та відповідними їм буквами українського алфавіту Х у вигляді тернарного відношення Ф (X, Y, Z), яке названо букво-фонемним.

Математична модель лінгвістичних зв'язків, що регулюють процес переходу від фонетичного подання слів до їх графічного запису й навпаки, буде мати вигляд:

Ф = Ф 1 & Ф 2 & ... & Ф r,

де Ф 1 = 1, Ф 2 = 1, ..., Ф r =1 – різні, незалежні одне від одного зв'язки між X, Y, Z, що фактично існують в українській мові, r – загальне їх число.

Під час переходу від значень фонетичних ознак до фонетичного зображення звуку формується фонема, тобто знак, що позначає клас звуків, що тяжіють до певної букви тексту. Зворотне перетворення полягає в заміні фонетичного знаку набором відповідних йому значень фонетичних ознак звуку.

Фонема як знак: ФОН(Х)= xA ? xБ ? xВ ? xГ ? xҐ ? xД ? xЕ ? xЄ ? xЖ ? xЗ ? xИ ?
? xІ ? xЇ ? xЙ ? xК ? xЛ?? xМ ? xН ? xО ? xП ? xР? xС ? xТ ? шУ ? xФ ? xХ ? xЦ ?
? xЧ ? xШ?? xЩ ? xЮ ? xЯ .

Ознака голосності звуку у1: Голосн(Х) = хА ? хЕ ? хІ ? хО ? хУ ? хИ; Приглсн (Х) = хБ ? хВ ? хГ? ? хҐ?? хД ? хЄ ? хЖ ? хЗ ? хЙ ? хК ? хЛ ? хМ ? хН ? хП ? хР ? хС ? хТ ? хФ ? хХ ? хЦ ? хЧ ? хШ ? хЩ.

Ознака шумності звуку у2: Шум(Х) = хБ ? хВ ? хГ ? хД ? хЖ ? хЗ ? хК ? хС?? хП ? хТ ? хФ ? хХ ?
? хЦ ? хЧ ? хШ; Сон(Х) = хЛ ? хМ ? хН ? хР ? хЙ; у1ПРИГ? у2НШУМ? Сон(Х) ? у2ШУМ? Шум(Х) = 1.

Ознака вокалізації звуку y3: Глух(Х) = хК ? хП?? хС?? хТ ? хФ ? хХ ? хЦ ? хЧ ? хШ;

Дзвн(Х) = хБ ? хВ ? хГ ? хД ? хЖ ? хЗ ? хЦ ? хЧ. у1ПРИГ? у3ДЗ ? Дзвн(Х) ? у3ГЛХ ??Глух(Х) = 1.

Ознака проривності звуку у4: Прор(Х) = хБ ? хГ? хД? хК? хП? хТ? хХ? хЦ? хЧ; Щіл(Х) =хВ??
? хҐ?? хЖ?? хЗ ? хС?? хФ? хШ?? хЩ ; у1ПРИГ? у2ШУМ? у4ПРОР? Прор(Х) ? у4ЩІЛ ? Щіл(Х) = 1.

Ознака веляризації звуку у5: Мвл(Х)=хА ? хЇ ? хЯ; Свл(Х)=хЄ ? хЕ ? хО; Ввл(Х)=хІ ? хУ?
? хИ ? хЮ; z1 ? y5М ? Мвл(Х) ? y5c ? Свл(Х) ? у5Е ? Ввл(Х) = 1.

Ознака лабілізації звуку у6: Млб(Х)=хА ? хє ? хі ? хи ? хе ? хя; Слб(Х)=хє ? хо; Влб(Х)=ху ? хю; z1 ? у6м ? Млб(X) ? у6с ??Слб(Х) ? у6в ? Влб(Х) = 1.

Ознака палаталізації звуку у7: Мгол(Х)=хє ? хї ? хі ? хю ? хя ; Тгол(Х)=ха ? хо ? ху ? хи ? хе; z1 ? у7т ? Тгол(X) ? у7м ? Мгол(Х) = 1.

Рівняння зв’язку фонеми Х з ознаками у5, у6, у7: z1? у5м (у6м ( у7т xа ? у7м xя) ? у6в ?
?? (у7т xи ? у7м хi)) ? y5c ((у7т xo ? y7m xi) ? ( у7т xe ? у7м xє)) ? y5в ( у7т? xУ ? у7м xю) = 1.

Ознака назалізації звуку у8: Рсн(Х)=хй ? хл ? хм; Нсн(Х)=хм ? хн;

z2 ??y8p ? Рсн(Х) ? у8н ? Нсн(Х) = 1.

Ознака вібрантності звуку у9: Ссн(Х)=хй ? ?хл ? хм ? хН ? хВ; z2 ?? y9С ? Ссн(Х) ? y9Т ? х Т = 1

Ознака місця артикуляції звуку у10: Псн(Х)=хл ? хн ? хр;

z2 ? у10г ? хм ? у10п ? Псн(Х) ? y10з ? хй = 1

Рівняння зв’язку фонеми Х з ознаками у8, у9, у10:

z2 ? y10з хй ? у8р у10п хл ? у8н ( у10г хм ? у10п хн) ? у9т хр = 1.

Індивідуальні предикати для передньоязикових, задньоязикових та губних шумових фонем: Пшф(Х)=хд ? хж ? хз?? хдж ? хдз ? хс ? хт ? хц ? хч ? хш; Зшф(Х)=хг ? хк ? хх; Гшф(Х)=хб ? хв ? хг ? хг ? хф; у2ш ? у10г Гшф(Х) ? у10п Пшф(Х) ? у10з Зшф(Х) = 1.

Індивідуальні предикати для зубних та піднебінних передньоязикових шумових фонем: Зпш(Х) = хд ? хз ? хдж ? хдз ? хс хм ? хц; Ппш(Х) = хд ? хж ? хт ? хч ? хш;

у2ш ? у10п ? у11з ? Зпш(Х) ? у11пН ? Ппш(Х) = 1.

Ознака африкативності звуку у12: Неафпш(Х) = хд ? хж ? хдж ? хдз ? хз ? хс ? хт ? хш;

Афпш(Х) = хч ? хц; у2ш ? у10п ? у12аФ ? Афпш(Х) ? у12НЕАФ ? Неафпш(Х) = 1.

Рівняння зв’язку фонеми Х з ознаками у10, у11, у12:

z3 ? у10г хб ? у10З хг ? у10п [у11з ( у12НЕАФ хд ? у12АФхц) ? у11Пнхч] = 1;

z4 ? у10г хв ? у10З хг ? у10п (у11з хз ? у11ПН хж) = 1;

z5 ? у10Г хп ? у10З хк ? у10п [у11з ( у12нЕАФ хт ? у12аф хц) ? у11ПНхЧ] = 1;

z6 ? у10г хф ? у10З хх ? у10п ( у11з хс ? у11ПН хш) = 1.

Створені моделі зв'язують фонему з набором ознак звуку й дозволяють визначити значення фонеми в залежності від значень ознак. Уведено відношення, що ув'язує фонетичний запис тексту з його орфографічним записом, між фонемою та фонетичними ознаками звуку. Перехід від фонетичного запису тексту до орфографічного й навпаки здійснено на основі правил української мови, що регулюють вимову (фонетичні правила) та написання (орфографічні правила).

Формально описані відношення, які описують вплив фонетичного контексту на вибір букв для позначення голосних звуків.

Правила фонетичних позицій голосних звуків у слові:–

положення після різних, відносно категорії твердості – м’якості приголосних

G1т = J2 (p v ) qvт; G2м = J2 (p v ) qvм, де J2(pV) = pVБ ? pVв ? pVд ? pVз ?
? pVл ? pVм ? pVГ ? pVдж ? pVдз ? pVн ? pVп ? pVР?? pVс ? pVт ? pVф;–

на абсолютному початку слова; після голосних звуків:

G3Н = pv; G4г = pva ? pvУ ? pvо ? pvі ? pvи ? pvе ;–

після [ц] та шиплячих приголосних:

G5ц = pvц qvт ; G6ш = (pvщ ? pvж) (qvм ? qvт) ? pvч qvм ;–

положення після задньоязикових звуків та після [j]:

G73 = pvг ? pvк ? pvх ; G8 J= pvJ .

Запис правил рівняннями АСП:

Ф11т= G1т? ( рaxa? руxу? роxо? ріxі ? риxи) qVтt 3; Ф12т = G1т? ( руxу? риxи) qVт (t1 ? t2).

де Ф11т , Ф12т – букво-фонемні відношення твердих наголошених голосних після твердих приголосних;
t1, t2 – ознаки ненаголошених та переднаголошених складів відповідно, t3 – ознака наголошених складів.

Ф13т = G1т рV? ? pе qт t з хе; Ф14т = G1т А ? pеqт (t1 ? t2) хе;

Ф15т = G1т J2(pu) ? pеqт t з хе,( хе ? хє), де А=(рVт ? рVд ? рVс ? рVз?? рVр ? рVн ) qVт;

Ф21М = G2м ? q мt3(paxя ? руxю ? роxї ? рехє ? риxi); Ф22м = G2М ? pyqvм xю (t2 ? t1);

Ф31п=G3п? (раха ? рохо) qтt3; Ф32п=G3п ? [(рyхy ? рeхe) qт ? рiqмхi] (t2 ? t3);

Ф41г=G4Г ? [(раха?? рохо ? руху) qт ? рiqмхй] t3; Ф42г=G4г ? реt3 (рiqтхє ? риqтхе);

Ф51ш=G5ш ? (ра ~ ха)(ре ~ хе) (рі ~ хі) t3; Ф52ш=G5ш ? (рУ ~ хУ) (t3 ? t2 ? t1);

Ф53Ш=G5Ш pV? ? pOxOqTt1; Ф54Ш=G5Ш J З(pV) ? pOхOqT t 3,

де предикат J З(pU)=pUБ ? pUВ ? pUГ ?...?? pUШ – формалізує поняття приголосного звуку;

Ф61Ц=G6ц ? (раха ? рОхо ? рехе) qт t 3 ? рyqтху. Ф62ц=G6ц ? [рі ~ (хі ~ хй)](t3 ? t2 ? t1);

Ф713=G73 ? {[ pA(qтxа ? qмxя) ? po(qтxoqмхї]t3?? pУ(qvтxУ ? qvмxю)(t3 ? t2 ? t1);

Ф72з=G7з? (рехе? ріхі) qмt3; Ф81j=G8j? (рахя? рохї? рехє) qмt3; Ф82j=G8j? (рУ~хю) qм.

Отримана система рівнянь є підмоделлю букво-фонемних зв'язків, що охоплює клас голосних звуків української мови.

Формально описані відношення, які описують вплив фонетичного контексту на вибір букв для позначення приголосних звуків.

Предикати впливу фонетичного контексту: G9сП– сильна позиція; G10кц – кінець позиції; G11глух – позиція перед глухим приголосним; G12дз – позиція перед дзвінкими шумовими приголосними.

G9cП=pUj ? J4(pU) ? J5(pU) ? рUв,

де J4(pU) i J5(pU) предикати, що задають формальний опис понять “голосний звук” та “сонорний звук” відповідно й визначаються виразами

J4 ( pU )=pUа ? pUе ? pUі ? рUо ? рUу ? рUи; J5 ( pU )=pUл ? pUм ? pUн ? рUр .

G10кц = pU?; G11глух = J6(pU); G12дз = J7(pU),

де J6(pU) і J7(pU) визначають класи дзвінких та глухих шумових приголосних:

J6(pU)=pUБ ? pUв ? pUг ?


Сторінки: 1 2 3