Автореферат МЕТОДИ І МОДЕЛІ СТВОРЕННЯ ПРИРОДНО-МОВНОГО ІНТЕРФЕЙСУ ЕКСПЕРТНОЇ СИСТЕМИ МЕДИЧНОЇ ДІАГНОСТИКИ

Автореферат - МЕТОДИ І МОДЕЛІ СТВОРЕННЯ ПРИРОДНО-МОВНОГО ІНТЕРФЕЙСУ ЕКСПЕРТНОЇ СИСТЕМИ МЕДИЧНОЇ ДІАГНОСТИКИ

Загрузка...

НАЦІОНАЛЬНИЙ ТЕХНІЧНИЙ УНІВЕРСИТЕТ

Національний технічний університет

“Харківський політехнічний інститут”

Омар А.Х. Авадала

УДК 004.891.3

МЕТОДИ І МОДЕЛІ СТВОРЕННЯ ПРИРОДНО-МОВНОГО ІНТЕРФЕЙСУ ЕКСПЕРТНОЇ СИСТЕМИ МЕДИЧНОЇ ДІАГНОСТИКИ

Спеціальність 05.13.06 – Автоматизовані системи управління та

прогресивні інформаційні технології

АВТОРЕФЕРАТ

дисертації на здобуття наукового ступеня

кандидата технічних наук

Харків – 2006

Дисертацією є рукопис.

Робота виконана в Національному технічному університеті „Харківський політехнічний інститут” Міністерства освіти і науки України.

Науковий керівниккандидат технічних наук, професор

Судаков Борис Миколайович,

Національний технічний університет „Харківський політехнічний інститут”, професор кафедри систем інформації

Офіційні опоненти: | доктор технічних наук, професор

Раскін Лев Григорович,

Національний технічний університет „Харківський політехнічний інститут”, професор кафедри економічної кібернетики та маркетингового менеджменту

доктор технічних наук, професор

Бідюк Петро Іванович,

Національний технічний університет України “Київський політехнічний інститут”, професор кафедри математичних методів системного аналізу

Провідна установа |

Національний аерокосмічний університет

ім. М.Є. Жуковського „Харківський авіаційний інститут”,

кафедра інформаційно-управляючих систем, м. Харків.

Захист відбудеться “16” лютого 2006р. о 14-30 годині на засіданні спеціалізованої вченої ради Д64.050.07 у Національному технічному університеті “Харківський політехнічний інститут ” за адресою: 61002, м. Харків, вул. Фрунзе, 21

З дисертацією можна ознайомитись у бібліотеці Національного технічного університету “Харківський політехнічний інститут ” .

Автореферат розісланий “____“ ____________ 2006р.

Вчений секретар

спеціалізованої вченої ради Гамаюн I.П.

ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ

Актуальність теми досліджень. Автоматизація процесів медичної діагностики, як один з найважливіших напрямків медицини, відіграє значну роль у підвищенні надійності і точності (вірогідності) діагностики захворювань. Аналіз існуючих автоматизованих систем медичної діагностики (МД) показав, що вони не повною мірою задовольняють вимогам до рішення задач, що вимагають складних логічних умовиводів в умовах високого ступеня невизначеності, неповноти і суперечливості вихідних даних. Вихід з положення, що створилося, бачиться в інтелектуалізації цих систем на основі нових інформаційних технологій і, зокрема, у застосуванні концепції експертних систем (ЕС), що допомагають людині при рішенні задач, які важко формалізувати. Одним з елементів ЕС є підсистема взаємодії з користувачем. Основу взаємодії складають мовні засоби, оскільки тільки за допомогою мови (формальної або природної) можна досягти визначеної мети у процесі спілкування комунікантів.

Існуючі мови взаємодії і подання знань в інтелектуальних системах, як правило, мають вузькоспеціалізовану спрямованість. Вони базуються на відомих логіко-математичних моделях (численні предикатів, системах продукцій, фреймах, семантичних мережах) і не дозволяють враховувати такі особливості досліджуваної предметної галузі як неповнота і суперечливість знань і даних, динамічність і невизначеність об'єктів предметної галузі. Крім того, відсутність єдиних теоретичних підходів до розробки всіх компонентів системи взаємодії, різноманіття користувачів (експерти, когнітологи, особи, що приймають рішення (ОПР)), яким необхідно надати різноманітні мовні засоби для рішення різних задач, труднощі освоєння формальних мов непрограмуючими користувачами визначають актуальність рішення науково-технічної задачі – розробки методів і моделей створення природно-мовного інтерфейсу (ПМІ) експертної системи медичної діагностики (ЕСМД) захворювань, що дозволяють підвищити ефективність процесу взаємодії користувачів із системою.

Зв'язок роботи з науковими програмами, планами, темами. Дисертаційна робота виконувалася відповідно до плану наукових досліджень Національного технічного університету “ХПІ” у рамках державної теми “Дослідження технічних аспектів впровадження нових інформаційних технологій у навчальному процесі й обміну інтегрованими потоками даних між установами освіти” (ДР №0103U001541, МОН України), де здобувач був виконавцем окремих розділів.

Мета і задачі дослідження. Метою дисертаційного дослідження є підвищення ефективності процесу взаємодії користувачів з ЕСМД на обмеженій природній мові (ОПМ) на основі розробки нових мовних засобів і транслятора або лінгвістичного процесора (ЛП).

Для досягнення поставленої мети були вирішені наступні задачі:

1) аналіз існуючих методів, моделей і інформаційних технологій побудови підсистеми взаємодії користувачів з ЕСМД;

2) розробка методів структуризації і подання знань для ЕСМД;

3) розробка моделі внутрішньої мови ЕСМД;

4) розробка моделі ОПМ взаємодії користувачів з ЕСМД;

5) розробка структури й алгоритмів лінгвістичного процесора ЕСМД;

6) розробка моделей знань задачі діагностики захворювань;

7) реалізація моделей ПМІ й оцінка якості лінгвістичного забезпечення (ЛЗ) ЕСМД.

Об'єкт дослідження - процес взаємодії користувачів з ЕСМД.

Предмет дослідження – природно-мовний інтерфейс, що реалізує взаємодію користувачів з ЕСМД.

Методи досліджень. Проведені дослідження ґрунтуються на використанні методів: системного аналізу, штучного інтелекту, теорії категорій і топосів, апарата формальних граматик для структуризації і подання знань про предметну галузь внутрішньою мовою ЕСМД, а також апарата розміченої системи синтаксичних груп (РССГ) для побудови ЛП, що дозволило найбільш повно, адекватно і коректно забезпечити взаємодію користувача на ОПМ з ЕСМД.

Наукова новизна отриманих результатів полягає в наступному:

1) одержали подальший розвиток:

- метод структуризації і подання знань у ЕСМД у вигляді логічного методу, теоретичною основою якого є багатозначне (чотиризначне) числення присутності (БЧП) і теорія категорій, що дозволяє будувати ієрархічні формалізовані аксіоматичні теорії (АТ) об'єктів предметної галузі, враховувати невизначеність і суперечливість знань;

- метод формальних граматик для опису структур внутрішньої мови в лінгвістичному процесорі ЕСМД, відмінність від відомих полягає в розширенні апарата формальних граматик семантичними продукційними правилами, що дозволяє виключити тупикові ситуації, врахувати семантику при розборі вхідного висловлення, події і динаміку процесів діагностики;

2) були удосконалені:

- модель мови взаємодії для спілкування користувачів з ЕСМД, у якій кожен текст мови взаємодії представляється у вигляді двох підмножин: підмножини ОПМ, що представляє в плані вираження поверхневу структуру тексту; підмножини внутрішньої мови системи, що описує в плані змісту семантико-прагматичний (значеннєвий) рівень мови взаємодії, відмінність від відомих складається у використанні семантичних формальних граматик для опису мови подання знань, у використанні у внутрішній мові лексичних одиниць, уживаних користувачами в процесі повсякденної діяльності, що значно полегшує процес інтерпретації виражень внутрішньої мови;

- модель внутрішньої мови ЕСМД, відрізняється від відомих використанням логіко-категорного підходу до подання знань на основі БЧП, що дозволяє більш адекватно представляти процеси предметної галузі, забезпечує декларативний спосіб подання знань, а також робить систему універсальною і дозволяє без істотної зміни алгоритмів використовувати її в інших предметних галузях;

- багаторівнева модель обмеженої природної мови взаємодії користувачів з ЕСМД, відмінність від існуючих полягає у використанні апарата системи синтаксичних груп (ССГ) і розміченої структури семантико-синтаксичних груп (СССГ) для опису поверхневої і глибинної структури мови, використанні єдиного словника, синтаксичних і семантичних знань про мову і предметну галузь на різних рівнях, що забезпечує можливість природним образом перейти від поверхневого представлення текстів взаємодії до структур внутрішньої мови ЕС;

3) уперше розроблені моделі знань ЕСМД на БЧП і на внутрішній мові для опису задач диференціальної діагностики захворювань, відмінність від існуючих полягає у використанні апарата БЧП і семантичних формальних граматик, що підвищують якість (вірогідність) процесу прийняття рішень по встановленню діагнозу.

Практична значимість отриманих результатів. Розроблений у дисертації комплекс методів і моделей є науково-методичною основою для створення інструментальних засобів діалогової взаємодії користувачів з ЕСМД на ОПМ, що описаний алгоритмічно і реалізований у вигляді комп'ютерної знання-орієнтованої програми ЛП природно-мовного інтерфейсу ЕСМД. Універсальність логіко-категорного підходу подання знань для опису процесів фізичної реальності і формалізмів для опису ОПМ взаємодії користувачів із системою дозволяє використовувати результати досліджень при створенні ЛЗ інтелектуальних систем для різних предметних галузей.

Результати дисертаційних досліджень впроваджені:

1) у Харківському інституті загальної та невідкладної хірургії, кафедра госпітальної хірургії (акт про впровадження від 15.04.2005 р.) при розробці комплексних методик для експертної системи медичної діагностики;

2) у Національному технічному університеті “Харківський політехнічний інститут”, кафедра системи інформації (акт про впровадження від 4.04.2005 р.), в рамках курсу “Програмне та лінгвістичне забезпечення інтелектуальних систем” (2 лекції (4 години) за темою 2.1 “Теоретичні принципи побудови лінгвістичного забезпечення інтелектуальних систем”) та курсу “Природномовні інтелектуальні системи” (4 лекції (8 годин) за темами 1.2 “Морфологічний аналіз”, 1.3 “Синтаксичний аналіз”, 1.4 “Семантичний аналіз”).

Особистий внесок здобувача. Всі основні наукові положення, результати, висновки і рекомендації дисертаційної роботи здобувачем отримані самостійно. Серед них: методи структуризації і подання знань для ЕСМД; моделі внутрішньої і обмеженої природної мови ЕСМД; опис задач диференціальної діагностики захворювань з використанням запропонованих методів і моделей; реалізація моделей ПМІ шляхом розробки ЛП і оцінка якості ЛЗ ЕСМД.

Апробація результатів роботи. Основні положення дисертаційної роботи повідомлені, обговорені і схвалені: на II міжнародній науково-технічній конференції “Електронні інформаційні ресурси: проблеми формування, збереження, обробки, розповсюдження, захисту і використання - 2001” (м. Київ, 2001р.); на міжнародній науково-практичній конференції “Динаміка наукових досліджень” (м. Дніпропетровськ, 2002 р.); на II міжнародній науково-технічній конференції “Проблеми інформатики і моделювання” (м. Харків, 2002 р.); на 13 міжнародній науково-практичній конференції “Інформаційні технології: наука, техніка, технологія, освіта, здоров'я” (м. Харків, 2005 р.).

Публікації. За матеріалами дисертаційної роботи опубліковано 4 статті у фахових наукових виданнях ВАК України та 4 тези доповідей на науково-технічних конференціях.

Структура й обсяг роботи. Дисертаційна робота складається з вступу, 4-х розділів, висновків і додатків. Результати досліджень викладені на 235 сторінках друкованого тексту, з них: 13 рисунків на 13 сторінках, 6 таблиць на 6 сторінках; бібліографія з 145 найменувань на 12 сторінках; 8 додатків на 58 сторінках.

ОСНОВНИЙ ЗМІСТ РОБОТИ

Вступ дисертаційної роботи включає: актуальність теми і наукової задачі; зв'язок роботи з науковими програмами, планами, темами; мету і задачі дослідження; об'єкт, предмет і методи дослідження; наукову новизну і практичну значимість отриманих результатів; особистий внесок здобувача; інформацію про реалізацію, апробацію і публікації результатів.

У першому розділі проведений огляд літератури й аналіз стану питання по застосуванню інформаційних технологій та інформаційних систем у медицині, проаналізований процес взаємодії користувачів з ЕСМД і проблеми розробки ЛЗ для ЕС, сформульований й обґрунтований основний напрямок дисертаційних досліджень по розробці природно-мовного інтерфейсу ЕСМД.

Дослідження з автоматизації процесів медичної діагностики, як один з найважливіших напрямків медицини, показали, що найбільш ефективний його розвиток досягається шляхом застосування інтелектуальних ЕСМД. При цьому інтелектуалізація задач припускає не тільки формалізацію процесу рішення задач обробки медичної інформації, але і надання більш ефективних засобів взаємодії користувачів з інтелектуальною системою. Показано, що організація взаємодії різних груп користувачів (експертів, когнітологів, ОПР) здійснюється з використанням ПМІ, основу якого складає ЛЗ, під яким розуміється сукупність засобів для формалізації природної мови, побудови і сполучення інформаційних одиниць у процесі взаємодії різних груп користувачів з інтелектуальною системою.

Рішення задачі розробки природно-мовного інтерфейсу ЕСМД має ряд особливостей, основними з яких є наступні:

1. Особливості досліджуваної предметної галузі, зокрема, необхідність враховувати невизначеність і суперечливість знань і даних, враховувати модальності типу “можливо”, “необхідно” і т.д. у процесі розпізнавання захворювань привели до використання у якості формальної основи побудови ЕСМД чотиризначного числення присутності, що істотно відрізняється від формалізмів, застосовуваних у відомих інтелектуальних системах.

2. Наявність великого числа користувачів, яким необхідно надавати різні мовні засоби.

3. Відсутність єдиних теоретичних підходів до розробки всіх компонентів взаємодії.

У силу зазначених особливостей дане дослідження зв'язане з розробкою методів структуризації і подання знань, а також з розробкою моделей внутрішньої мови (ВМ) ЕСМД на основі формально-логічного БЧП і ОПМ для забезпечення взаємодії користувачів із системою.

Аналіз особливостей природних і формальних мов показав, що з погляду розв'язуваних задач у ЕСМД доцільно мати мову взаємодії (МВ), що складається з двох рівнів. Один рівень ОПМ, на якому взаємодіють ОПР і експерти. Інший – формальна мова, що є внутрішньою мовою системи, що може бути використана когнітологами. Перехід з одного рівня мови на іншій здійснює транслятор або лінгвістичний процесор.

Виходячи з цього здійснена постановка задачі дослідження.

Другий розділ присвячений розробці методу структуризації і подання знань, а також методу семантичних формальних граматик для опису структур внутрішньої мови та моделі внутрішньої мови для ЕСМД відповідно на базі логіко-категорного підходу, БЧП і розширеного апарата формальних граматик.

У результаті проведеного аналізу встановлено, що відомі логічні числення малопридатні для формалізації знань ЕСМД. Обґрунтовано доцільність використання для цієї мети категорного підходу до структуризації і представлення об'єктів предметної галузі. Зроблено висновок про те, що для обліку виявлених особливостей знань найбільшою мірою підходить формальна система, що побудована на основі теорії категорій – логічне БЧП. Категорії описують концепти (поняття), що відповідають класам реальних або абстрактних об'єктів, або представляють приватні приклади цих концептів, що позначають приклади об'єктів реальності. Концепт (поняття) – сукупність знань, що відбивають відмітні й істотні ознаки, властивості предмета, явища дійсності.

Кожна з категорій відбиває визначений аспект знань про концепти (інтенсіонал, стан, простір, час і т.п.). Повний опис концепту можна представити у вигляді добутку категорій Kat1* Kat2* … Katn.

Склад категорії міняється в залежності від розглянутого “можливого світу” . У якості інформації, що характеризує об'єкт, можуть виступати ознаки, що є у свою чергу концептами. Об'єкти, істотні ознаки яких є у свою чергу концептами, надалі будемо іменувати складеними об'єктами (СО), а об'єкти, описані тільки через індивідуальні ознаки - термінальними об'єктами (ТО).

У БЧП будь-який об'єкт описується через деякі ознаки, істотні для опису об'єкта у світі відповідно до теорії Ti. Основу числення складає поняття присутності об'єкта у світі , що приймає одне з двох значень присутності: S(щ, Ti) – є присутнім об'єкт у світі щ відповідно до теорії Ti і N(щ, Ti) – відсутній.

Задачі медичної діагностики, пов'язані з невизначеністю, приводять до того, що частина ознак може бути недоступна для реєстрації ЕС, тому їх можна розділити на два класи: доступні для системи рij і недоступні - оij. Тоді формула термінального об'єкта прийме вигляд

(1)

де pi+mi=ni, . При цьому рio і оio означають S(щ, Ti) для всіх i=I, N.

На множині формул термінальних об'єктів можна задати топологічну булеву алгебру або алгебру присутності

, (2)

де X-множина формул об'єктів, що включають множину морфізмів мx:x y; -операція з'єднання по присутності; - операція не виключаюче “АБО” по присутності; - релевантне логічне слідування по присутності; -доповнення по присутності; I,С- узяття внутрішності і замикання відповідно. У такій алгебрі об'єкту z відповідає відкрита формула, якій можна поставити у відповідність її внутрішність I і замикання C, а також вектор умов присутності , оцінки якого приймають значення з наступної сукупності:

val =Pr=<S,N,S,N>-присутній; val =Ab=<N,S,N,S>-відсутній; val =Un=<N,S,S,N>-невизначеність; val =Сn=<S,S,S,S>-протиріччя.

Строгий опис взаємодії об'єктів предметної галузі можливо здійснити в рамках формальних теорій. Динаміка поводження об'єкта у фізичній (абстрактній) реальності знаходить своє відображення в теорії об'єкта через зміну оцінок присутності морфізмів, пов'язаних з даним об'єктом. З цією метою вводиться поняття диференціала присутності морфізму , що приймає при інтерпретації одне з двох значень – S(щ, Tj), N(щ, Tj) і означає зміну значення присутності морфізму з б на в у результаті елементарного кроку деякого процесу, що визначається порядком диференціала n.

Правила побудови формул теорій об'єктів можна визначити на основі властивостей алгебри диференціалів присутності морфізмів.

Тоді з урахуванням (2) маємо

. (3)

Такий підхід до побудови теорій дозволяє описувати теорії об'єктів через вхідні і вихідні з них морфізми, будувати багаторівневі ієрархічні теорії, здійснювати об'єднання теорій об'єктів одного рівня з іншим і в такий спосіб будувати глобальну теорію предметної галузі.

У загальному вигляді аксіоми теорій мовою БЧП представляються у вигляді

. (4)

На базі теорії категорій і числення присутності обґрунтовані необхідні рівні (страти) бази знань ЕСМД <Mj, Dj, Cj, PMj, Tj>, де Мj - множина описів об'єктів галузі щj; Dj – множина описів структур вихідних, проміжних і результуючих даних; Сj - опис множини цільових станів; PMj – множина описів програмних модулів; Tj - множина теорій предметної галузі і задач, що описують необхідні процеси досягнення цільових станів, умови актуалізації цілей, обмеження на якість рішення задачі й ін.

Для формування множини Mj виділяються істотні властивості понять, що узагальнюються і структуруються. Для складених об'єктів визначаються підоб’єкти, їхні атрибути і ролі. При цьому кожній ролі приписується унікальне ім'я морфізму бn, підоб’єктам і атрибутам - імена понять і властивостей an. Структура для опису об'єктів має загальний вигляд

Визначена правильно побудована формула теорії об'єкта, що має вигляд

<м(n, ИОП): i, щ, T, S; (n, ИОП): j, , T, S *…*(n,ИОП): k, , T, S> (5)

де м - морфізм, що виходить з об'єкта i; n - порядок диференціала присутності морфізму; , - морфізми, що входять в об'єкт i; *- операції алгебри (3), ИОП - зміна оцінки присутності морфізму; i, j, k - унікальне ім'я об'єкта, по якому його можна розпізнати; щ -"можливий світ", у якому розглядається теорія об'єкта; Т - тип теорії об'єкта (процес, стан, простір, час і т.д.); S- службова інформація (коментарі, оцінка присутності й ін.).

Кожна локальна теорія об'єкта ставиться у відповідність теорії перетворення інформації, що досягається шляхом зіставлення кожній аксіомі з теорії фізичного (абстрактного) об'єкта множини аксіом у теорії інформації. Тоді кожному об'єктові в теорії фізичної реальності ставляться у відповідність сукупність перетворювачів інформації, що трансформують інформацію про вихідні поняття, що задовольняють початковим умовам, в інформацію про результуючі поняття, що пов'язані новими умовами.

Кожен перетворювач інформації задається в наступному вигляді

(6)

де PM – ім'я програмного модуля, ж1 і ж2 – перелік структур вхідних і вихідних даних. Самі структури даних zn, нm мають вигляд:

(7)

де D – ім'я структури даних, мn, Tn, - відповідно, найменування компонента структури даних, тип даних і значення даних, що можуть варіюватись.

Для опису приватних прикладів використовуються конструкції наступного вигляду

(8)

де i- ім'я концепту, для якого задаються приватні приклади, мn - морфізм, що визначає тип зв'язку (відносин) концепту зі списком понять (ознак) , val - оцінка присутності відповідних ознак з множини {Pr, Ab, Un,Cn}.

Проведений аналіз існуючих моделей мов показав, що для побудови моделі внутрішньої мови найбільш доцільно використовувати апарат контекстно-свободних (КС) – граматик, розширивши їх правилами, що дозволяють враховувати семантику предметної галузі

G(L)= (VT, VN, P, SP, А), де VN - словник нетермінальних символів, VT - словник термінальних символів, Р- множина правил, що дозволяють будувати синтаксично правильні конструкції мови, А- множина апріорно-істинних конструкцій, що називаються аксіомами, SP-семантичні продукційні правила вигляду Sk(semk),Pz>Sj(semj), Рm.

Дане правило означає, що якщо Sk з відповідною семантичною ознакою присутній у правилі переписування з номером z, то в правилі з номером m повинна бути присутня словоформа із семантичною ознакою semj.

Єдиною аксіомою граматики є "формула"

А={Формула(Ф)} (9)

Вона формується у відповідності з наступними продукціями:

П1. Ф > < ТОб; СтТ>.

П2. ТОб > Роль: ИО, КОЗ, ТО, СИ,

де ИО - унікальне ім'я, по якому можна розпізнати об'єкт або його теорію, КОЗ- код області знань, що визначає "можливий світ" даного об'єкта (теорії структур об'єктів, їхніх прогнозованих станів, обмежень і т.д.); ТО - тип конкретного об'єкта; СИ - службова інформація про теорії об'єкта.

П3. Роль > імя ролі (конст1, ИОП), де константа1(конст1) характеризує причину зміни оцінки присутності ролі і може приймати одне з наступних значень.

П4. Конст1. > CTAT | ВЫВОД | ТЕОРИЯ строка,

де СТАТ описує структуру в статиці, ВЫВОД характеризує зміну оцінки присутності в результаті логічного виведення, ТЕОРИЯстрока - теорію, у результаті якої відбулася зміна оцінки присутності.

П5. ИОП > Конст2-Конст2.

П6. Конст2 > ПР | ОТС | НЕОПР | ПРОТ | НЕИЗВ, де ПР означає присутність, ОТС - відсутність, НЕОПР - невизначено, ПРОТ - протиріччя, НЕИЗВ - невідомо (повна апріорна невизначеність).

де ПодКл, ПодЦ, ПодЗад, Пр, Огр, ВхД, BыхД, Предш, Дейст, Подч позначають відповідно бути підкласом, підціллю, підзадачею, ознакою, обмеженням, вхідними і вихідними даними, попередньої ЦУ, ЦУ в результаті виконання дії, підлеглої ЦУ.

де ИП - ім'я ознаки, ЗП - значення ознаки, ИПоб - ім'я підоб’єкту, ИР- виконавець ролі, ХарВр- характеристика часу, ХарПрв - характеристика простору.

П9. ПрКач > больше | меньше | не больше | не меньше.

П10. КОЗ > КОД: область.

П12. СИ > СИ, СИ.

П14. Тип данных > числовой | символьный | логический

П18. ОцПр > ПР | ОТС | НЕОПР | ПРОТ.

П19. СтТ > ТОб.

П20. ТОб > (ТОб) | [ТОб] | /ТОб/ | {ТОб} | Не ТОб.

П21. ТОб > ТОб ; ТОб.

Правила П20, П21 дозволяють поєднувати вхідні в теорію об'єкта елементи: круглі дужки вказують на те, що всі елементи усередині цієї конструкції об'єднані операцією спільної присутності; квадратні дужки поєднують ТОб операцією невиключаючого “АБО” по присутності; похилі дужки – відповідають операції альтернативної присутності; фігурні дужки - операції композиції. Заповнення деяких елементів формул, таких як "имя роли", "имя объекта", "название теории" і ін., покладається цілком на користувачів. Це вимагає додаткових знань про семантику предметної галузі. Розроблена ВМ дозволяє формально описувати теорії різних об'єктів ПГ. Оскільки в процесі взаємодії з ЕС користувачі переслідують визначені цілі, то для їхнього обліку введені спеціальні прагматичні функції, що забезпечують маніпулювання знаннями.

У третьому розділі приведені результати досліджень, зв'язані з розробкою лінгвістичного процесора ЕСМД, моделі ОПМ й алгоритму обробки природно-мовних текстів у ЛП, що забезпечують перехід від текстів ОПМ у внутрішнє представлення системи на ВМ.

Для переходу від тексту ОПМ (L-мови) до внутрішнього представлення (С-мови) запропоновано використовувати модель мови, засновану на багаторівневому описі. Тексти ОПМ представляють поверхневий рівень мови. Поверхнево-синтаксичний рівень мови задається структурою ССГ. Глибинний - структурою СССГ, що відповідає розміченій структурі РССГ. При цьому зв'язки між словоформами або синтаксичними групами (СГ) установлюються не тільки з використанням знань про синтаксис мови, але і знань про проблемну галузь і семантику внутрішньої мови системи. Рівень змістів представлений вираженнями С-мови.

При цьому задача трансляції полягає в перетворенні виражень lL (де L - множина усіх виражень L-мови) у деякий текст сС(де С - множина усіх виражень С-мови), або на множині L визначається відображення вигляду

(10)

де l, c - відповідно вираження ОПМ і внутрішньої мови системи, м1, м2, м3 - процедури, що забезпечують відображення текстів ОПМ в ССГ, СССГ і внутрішнє представлення системи і дозволяють по заданому представленню l побудувати адекватний за змістом с.

У процесі створення моделі ОПМ і процедур її обробки природна мова користувачів була піддана нормалізації. Ступінь нормалізації визначалася з однієї сторони потребами користувачів, з іншого боку - можливостями формалізації мови і реалізації процедур обробки на ЕОМ. В результаті тексти ОПМ являли собою розповсюджені речення природної мови, які складаються з СГ (іменники з підпорядкованими ним словами) та групи управляючого слова (ГУС) (дієслово, віддієслівні іменники та ін.).

Сутність методу представлення тексту з використанням апарата ССГ полягає в наступному. Нехай х - довільний непорожній ланцюжок над словником, а Х - деяка множина непорожніх підмножин х. Елементи Х будемо називати синтаксичними групами. Граф {Х, >} називається системою синтаксичних груп на Х.

Розмічена ССГ визначається як шістка < X, >, W, Z, , >, де {X, >} - ССГ, W і Z - кінцеві множини, - відображення Х у множину усіх підмножин W, - відображення множини дуг графа {X, >} у Z . Елементи W є мітками при СГ, елементи Z - мітками при стрілках.

У класичному трактуванні елементи Z є відносинами синтаксичного підпорядкування, обумовлені функцією тих або інших частин мови в реченні.

Для рівня внутрішньої мови елементи Z являють собою імена ролей, що виконують підоб’єкти в об'єкті. W- імена підоб’єктів (ознак).

Для виділення СГ враховувалися наступні знання про мову: gri- граматична інформація про словоформи (частина мови, рід, число, відмінок і т.д.); sinti - синтаксична інформація про словоформи (з якими частинами мови і як сполучатися); semi - семантична інформація про словоформи ( поняття, що позначаються, значеннєва сполучуваність з іншими словоформами).

Виходячи з викладеного, можна виділити СГ і установити зв'язки між словоформами (СГ) речення, використовуючи правила наступного вигляду:

H;Si(gri, sinti, semi);Sj(grj, sintj, semj); D > Ri,j, (11)

де Н- умова застосування правила (наприклад, погодженість gr, sint і sem інформації); D - інформація про розташування аналізованих словоформ у фразі; Ri,j - установлений зв'язок між словоформами Si та Sj.

Для встановлення зв'язку СГ з іншими одиницями речення використовувався опис ГУС за допомогою моделі управління - сукупності семантичної і граматичної інформації про словоформи, що грають у реченні основну роль. У загальному вигляді модель управління може бути представлена у вигляді

rk1:CГ(grk1, semk1),...,rkn:СГ(grkn, semkn), (12)

де rki (i=1,...,n) - i-а роль, виконувана СГ у k-ій моделі управління, grki,semki - сукупність граматичної та семантичної інформації про групу управляючого слова.

Відповідно до обраної моделі мови запропонована загальна структура ЛП, яка включає алгоритми, що реалізують відзначені етапи обробки текстів ОПМ і базу лінгвістичних знань (рис. 1). Алгоритм заснований на стратегії псевдопаралельного аналізу. Особливість цієї стратегії складається в послідовному переході від поверхневої структури тексту ОПМ до глибинного. Але при цьому вже на етапі синтаксичного аналізу використовується інформація про семантику предметної галузі, а на семантичному рівні використовуються знання про синтаксис мови.

При аналізі вираження ОПМ використовується наступна інформація, що зберігається у відповідних файлах:

1. Словник, що має дві зони. Одна зона – морфологічна, призначена для збереження коду словоформ і приписаної до них граматичної інформації. Інша зона використовується для збереження інформації про моделі управління словоформ.

2. Знання про сполучуваність словоформ. Ці знання містять дві групи правил. Перша група правил визначає можливість об'єднання словоформ у групи слів: СГ і ГУС. Друга група правил дозволяє будувати поверхнево-синтаксичні відносини між словоформами усередині кожної групи.

3. Знання, що установлюють відносини між словоформами.

4. Знання про внутрішню мову. Вони дозволяють будувати синтаксично правильні конструкції виражень С-мови.

5. Знання, отримані в процесі аналізу вхідного речення і використовувані на всіх етапах обробки вхідного тексту. Ці знання зберігаються у файлі формуляра речень (FP).

При попередній обробці тексту (А2) повідомлення, що надійшло, підготовляється для подальшої обробки. При цьому використовуються знання, що зберігаються в словнику, і формується формуляр речення.

Для побудови ССГ (А3) речення первісно розбивається на СГ і ГУС. Потім усередині кожної групи встановлюються семантико-синтаксичні відносини. Якщо такі відносини вдається установити, то здійснюється перехід до наступного алгоритму.

У противному випадку будується новий варіант розбивки повідомлення на групи.

У реченні, що надійшло, (А4) відшукується ім'я об'єкта і підоб’єкти, через які описується даний об'єкт, що відповідає СССГ.

На даному етапі використовуються знання, що утримуються в моделях управління і знання про формування відносин між словоформами.

Отримана глибинна структура повідомлення, усі дані про яку записані в FP, є вихідною для побудови вираження С-мови. Послідовне застосування правил переписування П1-П21, праві частини яких збігаються з даними в FP, дозволяє побудувати вираження внутрішньої мови системи і перевірити його коректність.

У четвертому розділі приведені результати реалізації розроблених методів і моделей. Розроблено моделі знань задачі діагностики захворювань на прикладі гострої кишкової непрохідності (ГКН) мовою БЧП у вигляді формул аксіоматичних теорій

АТЗАБ:

, (13)

де використані наступні типи морфізмів:

- симптом характеризує захворювання ;

- місце фіксації (ігродація) симптому захворювання Х ;

- час прояву симптому захворювання ;

- захворювання виявлене у хворого Y .

На ОПМ і формальній ВМ модель знань для МД класів ГКН з урахуванням (9) може бути представлена у вигляді:

ОКН обуславливают подклассы: СПКН, ПКН, ОБКН, СТКН, ККН

<ПодКл ОКН (ВЫВОД, НЕИЗВ-ПР): АТОКН,ЗАБ: АТОЗЖ, Об-Кл , ;

[ПодКл СПКН (ВЫВОД, ПР-ПР): АТСПКН, Об-Кл , обуславливает;

ПодКл ПКН (ВЫВОД, ПР-ПР): АТПКН, Об-Кл , обуславливает; (14) ПодКл ОБКН (ВЫВОД, ПР-ПР): АТОБКН, Об-Кл , обуславливает;

ПодКл СТКН (ВЫВОД, ПР-ПР): АТСТКН, Об-Кл , обуславливает;

ПодКл ККН (ВЫВОД, ПР-ПР): АТККН, Об-Кл , обуславливает]>.

На мові подання знань БЧП аксіоматична теорія МД класів ГКН з урахуванням (4) і (13) може бути представлена у вигляді

АТОКН:

. (15)

Показано, що формули (14) і (15) реалізують ті самі моделі знань на ВМ і БЧП. Це свідчить про те, що розроблені моделі мов ЛП забезпечують синтез знань у базу знань ЕСМД на основі ОПМ.

Схема граматичного розбору формули (14) представлена на рис.2, де показані АТ – аксіоматичні теорії класів захворювань ГКН. Метою граматичного розбору є не тільки одержання відповіді на питання про приналежність даного мовного об'єкту до внутрішньої мови, але і побудова структури вхідної послідовності, що дозволяє надалі працювати з деревом виведення (шукати підоб’єкти, поєднувати їх між собою, утворювати топологічний простір теорії об'єкта і т.д.).

Для перевірки викладених принципів обробки текстів і визначення якості розробленого лінгвістичного забезпечення в ході досліджень були програмно реалізовані алгоритми ЛП А2,А3,А4,А5 (рис.1) при створенні ПМІ діючої ЕСМД.

У процесі взаємодії в систему вводилися тексти на обмеженій природній мові. Довжина речень складала до 30 слів, що відповідало запитам, що використовуються при діагностиці захворювань. Результати експерименту показали, що час реакції системи на запит ОПР не перевищує 1 с, що задовольняє психофізіологічним вимогам, що пред'являються до інтерактивних систем при веденні зв'язного діалогу.

Під якістю ЛЗ розуміється можливість мовних засобів задовольняти потреби користувачів по опису закономірностей предметної галузі. Якість ЛЗ kлз оцінювалася з використанням наступного показника

, (16)

де qi - множина факторів, узятих зі шкали значимості, що враховуються в моделі мови при використанні j-го способу врахування; ai - відносна важливість i-го фактору; j -відносний коефіцієнт обліку фактора в моделі мови.

Для ЛЗ оцінювалися наступні фактори: природність взаємодії; глибина проникнення в зміст (ключові слова, просторово-часовий опис ситуації, облік причинно-наслідкових зв'язків); можливість обліку неоднозначності і невизначеності;

можливість опису понять (конкретних, абстрактних, матапонять); здатність опису евристичних знань користувачів. Розрахунки показують, що запропонована мова взаємодії в 1,2-2,4 рази перевершує по своїм можливостям існуючі мови (рис. 3). Підвищення якості лінгвістичного забезпечення ЕСМД отримано за рахунок природності МВ, можливості обліку невизначеності й опису метапонять.

Експериментальні дослідження показали, що розроблені методи і моделі можуть також використовуватися при створенні природно-мовних інтерфейсів для інтелектуальних систем різного призначення й інших предметних галузей.

ВИСНОВКИ

У дисертації приведено теоретичне узагальнення і нове рішення актуальної науково-практичної задачі розробки комплексу методів і моделей створення природно-мовного інтерфейсу для ЕСМД на основі логіко-категорного підходу, що дозволяють підвищити ефективність процесу взаємодії користувачів із системою. При цьому отримані наступні наукові і практичні результати:

1. Проведений аналіз існуючих методів, моделей і технологій побудови підсистеми взаємодії користувачів з ЕСМД показав, що вони не дозволяють враховувати такі особливості предметної галузі, як неповнота і суперечливість знань, динамічність і невизначеність об’єктів. В зв’язку з цим обґрунтована необхідність використання логіко-категорного підходу для створення ПМІ.

2. Розроблено метод структуризації і подання знань у ЕСМД, у вигляді логічного методу, теоретичною основою якого є БЧП і теорія категорій, що дозволяє будувати ієрархічні формалізовані АТ об'єктів предметної галузі, враховувати невизначеність і суперечливість знань.

3. Запропоновано метод семантичних формальних граматик для опису структур внутрішньої мови в лінгвістичному процесорі ЕСМД, відмінність від відомих полягає в розширенні апарата формальних граматик семантичними продукційними правилами, що дозволяють враховувати події і динаміку процесів.

4. Для спілкування користувачів з ЕСМД було розроблено модель мови взаємодії. У моделі кожен текст мови взаємодії представляється у вигляді двох підмножин. Підмножини ОПМ, що представляє в плані вираження поверхневу структуру тексту, і підмножини внутрішньої мови системи, що описує в плані змісту семантико-прагматичний (значеннєвий) рівень мови взаємодії.

5. Розроблено модель внутрішньої мови ЕСМД, яка дозволяє адекватно представляти процеси предметної галузі і відрізняється від відомих використанням логіко-категорного підходу до подання знань на основі БЧП. Це забезпечує декларативний спосіб подання знань, що робить систему універсальною і дозволяє без істотної зміни алгоритмів використовувати її в інших предметних галузях.

6. Створена багаторівнева модель ОПМ взаємодії користувачів з ЕСМД, відмінність від існуючих полягає у використанні апарата ССГ і розміченої СССГ для опису поверхневої і глибинної структури мови, використанні єдиного словника синтаксичних і семантичних знань про мову і предметну галузь на різних рівнях, у можливості природним образом перейти від поверхневого представлення текстів взаємодії до структур ВМ ЕС.

7. Розроблені моделі знань ЕСМД на БЧП і внутрішній мові для опису задач диференціальної діагностики захворювань, що підвищують якість (вірогідність) процесу прийняття рішень по встановленню діагнозу.

8. Запропоновані структура й алгоритми лінгвістичного процесора, що реалізовані у вигляді комп'ютерних програм ПМІ діючої ЕСМД і здійснюють перетворення текстів мови взаємодії з одного рівня мови на інший і забезпечують синтез формалізованих АТ логіко-категорних моделей знань про предметну галузь внутрішньою мовою ЕСМД, що підтверджує практичну значимість роботи.

9. Проведено оцінку якості лінгвістичного забезпечення ЕСМД. Розрахунки показали, що застосування розробленої мови взаємодії в 1,2-2,4 рази перевершує по своїм можливостям існуючі мови, дозволяє адекватно описувати процеси предметної галузі і забезпечує користувачів доступними і зручними мовними засобами взаємодії з ЕСМД.

10. Запропоновані методи і моделі створення ПМІ реалізовані у Харківському інституті загальної і невідкладної хірургії у складі ЕСМД і у навчальному процесі Національного технічного університету “Харківський політехнічний інститут”.

СПИСОК ОПУБЛІКОВАНИХ РОБІТ ЗА ТЕМОЮ ДИСЕРТАЦІЇ

1. Судаков Б.Н., Омар А.Х. Авадала, Фоменко А.А. Подход к синтезу естественно-языковых сообщений по формализованному представлению базы знаний // Системи обробки інформації.- Харків: ХВУ.- 2001.- Вип. 6(16).-С.116-119.

Здобувачем був запропонований підхід до структуризації знань експертної системи.

2. Судаков Б.Н., Омар А.Х. Авадала. Принципы трансляции текстов диалогового взаимодействия пользователей с экспертной системой // Вісник Національного технічного університету “Харківський політехнічний інститут”.-Харків: НТУ ”ХПІ”.- 2002.-№18.- С. 123-126.

Здобувачем були розроблені моделі обмеженої природної і внутрішньої мови для взаємодії користувачів з ЕС, правила виведення, що були використані в процесі трансляції.

3. Судаков Б.Н., Омар А.Х. Авадала. Лингвистический процессор в системе взаимодействия пользователя с экспертной системой // Системи обробки інформації.- Харків: ХВУ.- 2003.- Вип.1.-С.155-160.

Здобувачем було розроблено структуру і алгоритми лінгвістичного процесора, що реалізує взаємодію користувачів з експертною системою.

4. Омар А.Х. Авадала. Общение на естественном языке как процесс преобразования “Текст-Смысл” // Системи обробки інформації.- Харків: ХВУ.- 2003.- Вип. 2.-С.139-144.

5. Судаков Б.Н., Омар А.Х. Авадала. Синтез естественно-языковых сообщений при общении пользователя с экспертной системой // Праці ІІ Міжнар. наук.-техн. конф. “Електронні інформаційні ресурси: проблеми формування, збереження, обробки, розповсюдження, захисту і використання”. -К.: УкрІНТЕІ.- 2001.- С.14-15.

Здобувачем був запропонований підхід до синтезу природно-мовних текстів.

6. Омар А.Х. Авадала, Першин А.В., Судаков Б.Н. О формализованной модели языка для взаимодействия пользователей с экспертной системой // Матеріали Міжнар. наук.-практ. конф. “Динаміка наукових досліджень”.- Дніпропетровськ: Наука і освіта.- 2002.- Т.1.-С.38-41.

Здобувачем була запропонована модель мови взаємодії користувачів з експертною системою.

7. Судаков Б.Н., Омар А.Х. Авадала. Естественно-языковой интерфейс интеллектуальной экспертной системы // Матеріали II Міжнар. наук.-техн. конф. “Проблеми інформатики і моделювання”. – Харків: НТУ ”ХПІ”.- 2002.- С.18.

Здобувачем були обґрунтовані структура інтерфейсу експертної системи, а також методи і моделі для його створення.

8. Судаков Б.Н., Омар А.Х. Авадала, Першин А.В. Подход к разработке лингвистического обеспечения экспертной системы // Матеріали 13 Міжнар. наук.-практ. конф. “Інформаційні технології: наука, техніка, технологія, освіта, здоров'я”.-Харків: Курсор.- 2005.- С.53.

Здобувачем були проаналізовані існуючі методи і моделі для створення ПМІ і запропонована методика розробки лінгвістичного забезпечення ЕС.

АНОТАЦІЯ

Омар А.Х. Авадала. Методи і моделі створення природно-мовного інтерфейсу

Сторінки: 1 2

��
��...

Наступні 7 робіт по вашій темі:

▪ РЕСТРУКТУРИЗАЦІЯ ПІДПРИЄМСТВ ПЛОДООВОЧЕКОНСЕРВНОЇ ПРОМИСЛОВОСТІ В ПРОЦЕСІ ТРАНСФОРМАЦІЇ ЕКОНОМІКИ УКРАЇНИ - Автореферат - 27 Стр.
▪ ОРГАНІЗАЦІЯ БЕЗЗБИТКОВОЇ ГОСПОДАРСЬКОЇ ДІЯЛЬНОСТІ ПІДПРИЄМСТВ У ПОСТПРИВАТИЗАЦІЙНИЙ ПЕРІОД - Автореферат - 27 Стр.
▪ МІнорантнІ методи глобальноЇ стохастичНОЇ оптимІзації - Автореферат - 25 Стр.
▪ ІНВЕСТИЦІЙНЕ ЗАБЕЗПЕЧЕННЯ СТАЛОГО РОЗВИТКУ ТЕЛЕКОМУНІКАЦІЙНОЇ ГАЛУЗІ В УКРАЇНІ - Автореферат - 49 Стр.
▪ ДОСЛІДЖЕННЯ НЕЛІНІЙНИХ КОЛИВАНЬ РІДИНИ В ЦИЛІНДРИЧНОМУ РЕЗЕРВУАРІ НА ОСНОВІ ТЕОРІЇ П’ЯТОГО ПОРЯДКУ МАЛОСТІ - Автореферат - 21 Стр.
▪ НАПРужеНО-ДЕФОРМований Стан СТАЛЕБЕТОННИХ ПЛИТ З РІЗНИМИ УМОВАМИ ОПИРАННЯ - Автореферат - 20 Стр.
▪ АДМІНІСТРАТИВНО-ПРАВОВІ ГАРАНТІЇ РЕАЛІЗАЦІЇ ПРАВ І СВОБОД ГРОМАДЯН - Автореферат - 26 Стр.