Автореферат КІЛЬКІСНІ ОЦІНКИ ФОНОСЕМАНТИЧНИХ ХАРАКТЕРИСТИК ТЕКСТІВ ПРИРОДНОЇ МОВИ ТА ЇХ ВИКОРИСТАННЯ В СИСТЕМАХ ШТУЧНОГО ІНТЕЛЕКТУ

Автореферат - КІЛЬКІСНІ ОЦІНКИ ФОНОСЕМАНТИЧНИХ ХАРАКТЕРИСТИК ТЕКСТІВ ПРИРОДНОЇ МОВИ ТА ЇХ ВИКОРИСТАННЯ В СИСТЕМАХ ШТУЧНОГО ІНТЕЛЕКТУ

Загрузка...

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Харківський національний університет радіоелектроніки

Шрестха Світлана Миколаївна

УДК 004.8:004.912

КІЛЬКІСНІ ОЦІНКИ ФОНОСЕМАНТИЧНИХ ХАРАКТЕРИСТИК ТЕКСТІВ ПРИРОДНОЇ МОВИ ТА ЇХ ВИКОРИСТАННЯ В СИСТЕМАХ ШТУЧНОГО ІНТЕЛЕКТУ

05.13.23 – системи та засоби штучного інтелекту

Автореферат

дисертації на здобуття наукового ступеня

кандидата технічних наук

Харків 2005

Дисертацією є рукопис.

Робота виконана у Харківському національному університеті радіоелектроніки, Міністерство освіти і науки України.

Науковий керівник - доктор технічних наук, профессор

Шабанов-Кушнаренко Юрій Петрович,

Харківський національний университет

радіоелектроніки, професор кафедри

Програмного забезпечення ЕОМ

Офіційні опоненти:

- доктор технічних наук, професор Фоменко Олег Миколайович, Харківський військовий університет повітряних сил, професор кафедри комп’ютерних систем, м. Харків

- кандидат технічних наук, доцент, завідувач кафедри інформаційно-документних систем Ситніков Дмитро Едуардович, Харківська державна академія культури, доцент кафедри інформатики, інформаційних систем та процесів, м. Харків

Провідна установа

Донецький державний інститут штучного інтелекту НАН і МОН України, відділ фундаментальної обробки мовних образів

Захист відбудеться 16.02. 2005 р. о 13 годині на засіданні спеціалізованої вченої ради Д 64.052.01 у Харківському національному університеті радіоелектроніки за адресою: пр. Леніна, 14, м. Харків, 61166; факс. (057) 702 -10-13.

З дисертацією можна ознайомитись у бібліотеці Харківського національного університету радіоелектроніки, за адресою, пр. Леніна, 14, м. Харків, 61166.

Автореферат розісланий 15.01. 2005 р.

Вчений секретар

спеціалізованої вченої ради Чалий С.Ф.

ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ

Актуальність теми. Сучасні дослідження, які спрямовані на моделювання людської інтелектуальної діяльності, сприяють створенню систем штучного інтелекту. Головною проблемою створення систем штучного інтелекту є моделювання на комп’ютері розумових функцій людини, насамперед розробка моделей природно-мовної інформації. Для моделювання процесу розуміння текстуальних даних звертаються до спроб формалізації природно-мовних висловлювань, встановлення залежностей та правил побудови природної мови. На сьогоднішній день знайдені залежності й описані у вигляді правил побудови морфологічного та синтаксичного рівня мови. Проте, дослідження семантичного рівня не такі вдалі. Дослідження семантичного рівня ведуться з позиції встановлення зв'язків між об'єктами та опису знайдених взаємозв'язків у вигляді категоріальних ієрархічних структур. Також існує напрямок зіставлення слів за змістовними характеристиками та розподілом їх на загальні групи на основі виділення основних змістовних позицій. Звертання до апарату алгебри-логіки предикатів дає змогу опису взаємовідносин між словами з метою виділення змістовних характеристик тексту. В напрямку формалізації та математичного моделювання семантики природної мови виділяються роботи таких вчених: Р.Г. Піотровського, Ю.Д. Апресяна, Р. Шенка, Т.Винограда, Н. Хомського, Ч. Філмора, Ю.П. Шабанова-Кушнаренка, М.Ф. Бондаренка, З.В. Дудар, В.Я.Терзіяна, С.І. Маторіна, К.О. Соловйової, Н.В. Шаронової.

Поряд з існуючими напрямками розвиваються нові експериментальні напрямки дослідження та моделювання семантики з позиції встановлення взаємозв’язків змістовних характеристик відносно внутрішніх складових слова, які визначаються терміном звуко-літера. Звуко-літера постає як сукупність графічної форми (літера) та асоціативного зіставлення графічної формі відповідного звука. Дане направлення має назву фоносемантики та подано у роботах Ч.Осгуда, О.П. Журавльова, С.В. Вороніна та інших. Вплив змістовних характеристик: звуко-літер та їх сукупності мають винятковий зміст. На функцію розуміння та сприйняття слова у цілому впливають фактори конвенційно сталих відповідностей визначеним поняттям та особиста асоціативність людини. Змістовні характеристики звуко-літер та їх сукупності більшою мірою здатні передати емоційне навантаження, вплив якого на загальне розуміння змісту людиною дуже важко дослідити при звичайному підході у вивченні та моделювання семантики.

Взаємодія існуючих напрямків формалізації та моделювання семантики сприяє більш адекватному моделюванню розуміння природно-мовної інформації щодо передачі змістовного навантаження текстів природної мови, що дозволяє створенню більш досконалих систем штучного інтелекту.

Практичне застосування досліджень можливе в різноманітних галузях людської діяльності з різними цільовими установками: мотивації людської поведінки – галузь рекламної діяльності, політичного консалтингу (PR), соціологічних досліджень; легкого засвоєння текстів – галузь освітніх послуг, психологічних тренінгів, поліпшення роботи операторів; дослідження індивідуальних характеристик, розвитку динаміки патологічних відхилень психіки – галузь психології, психіатрії, судової медичної експертизи; автотентифікації особистості – галузь судової медичної експертизи, літературоведення.

Зв'язок роботи з науковими програмами, планами, темами. Дана робота виконана у рамках розділу 105-1 “Розробка математичного і програмного забезпечення системи логічної підтримки проектування систем штучного інтелекту” держбюджетної науково-дослідної теми “Розробка математичного, алгоритмічного та програмного забезпечення для проектування інтелектуальних систем обробки аудіо, відеосигналів, природно-мовної інформації” (№ДР 0100U005436).

Метою дисертаційної роботи є кількісне оцінювання фоносемантичних характеристик текстів природної мови з урахуванням емоційного сприйняття текстуальної інформації для підвищення адекватності моделювання інтелектуальної функції людини щодо розуміння мови.

Для досягнення поставленої мети в дисертаційній роботі необхідно вирішити такі задачі дослідження:

- аналіз існуючих підходів до моделювання інтелектуальної діяльності людини та його застосування у системах штучного інтелекту з метою виділення ряду задач, які ефективно використовують формалізований опис емоційного сприйняття текстів природної мови;

- розробити класифікаційну модель системи категорій понять природної мови та концепцію формалізації текстуальної інформації на основі базису предикатних функцій;

- розробити алгоритм формального подання речень у вигляді граф-схем упорядкованого опису взаємозв’язків між словами;

- вивести комплексну функцію оцінки слів речень з урахуванням підпорядкованості слів у реченні та оцінкою емоційного сприйняття текстуальної інформації людиною за допомогою фоносемантичного аналізу;

- удосконалити методику проведення багаторівневого лінгвістичного експерименту на основі вибірки псевдослів;

- розробити алгоритм генерації псевдослів за умовами законів побудови слів та статистичними характеристиками текстів на природній мові;

- поліпшити математичну модель оцінки емоційного сприйняття текстуальної інформації шляхом застосування генетичного алгоритму та плану Холанда щодо проведення ітераційного процесу виведення коефіцієнтів місцезнаходження звуко-літери в слові;

- розробити систему фоносемантичної експертизи тексту з використанням комплексної оцінки слів.

Об'єктом дослідження є процеси кількісного оцінювання фоносемантичних характеристик текстів природної мови.

Предметом дослідження є моделі та методи визначення кількісних оцінок фоносемантичних характеристик текстів природної мови з урахуванням емоційного сприйняття текстуальної інформації.

Методи дослідження. Дослідження дисертаційної роботи базувалися на методах багатовимірного шкалювання, зокрема, методу семантичного диференціалу, за допомогою якого було проведено багаторівневий лінгвістичний експеримент; методах математичної статистики: дисперсійний аналіз було використано разі під час перевірки класифікаційного розподілу даних вибірки псевдослів за професійною групою респондентів; методах штучного інтелекту – для процесу виведення коефіцієнта місцезнаходження було застосовано генетичний алгоритм та план Холанда.

Наукова новизна отриманих результатів. Під час вирішення поставлених задач було отримано такі результати:

- вперше запропоновано структуру системи фоносемантичної експертизи тексту з використанням моделі, яка описує залежність між фоносемантичними характеристиками, що дає можливість перетворення психосемантичної структури тексту на основі комплексної функції оцінювання з урахуванням підпорядкованості слів у реченні та емоційним сприйняттям текстуальної інформації до заданої мотиваційної функції;

- удосконалено модель, яка описує залежність між фоносемантичними характеристиками та обчислює оцінку емоційного сприйняття текстів природної мови з урахуванням коефіцієнта місцезнаходження звуко-літери в слові, який дозволяє істотно підвищити точність розрахунку чисельної оцінки емоційного сприйняття текстуальної інформації;

- набув подальшого розвитку метод проведення лінгвістичного експерименту на основі методу семантичного диференціалу шляхом використання вибірки псевдослів, який дозволяє отримувати чисельну оцінку суб'єктивного емоційного сприйняття текстуальної інформації;

- розроблено класифікаційну модель системи категорій опису навколишньої дійсності з введенням нового елементу “процес”, яка дозволяє формальне подання текстуальної інформації на основі базису предикатних функцій.

Практичне значення отриманих результатів. Основні теоретичні результати дисертації доведені до конкретних інженерних методик, алгоритмів та програм, які безпосередньо використовуються для кількісного оцінювання фоносемантичних характеристик текстів природної мови. Створено систему фоносемантичної експертизи тексту, яка дозволяє виділення психосемантичної структури тексту на підставі комплексної оцінки підпорядкованості слів у реченні та оцінки емоційного сприйняття текстуальної інформації для подальшого редагування на основі заданої мотиваційної функції. Однією з практичних сфер застосування результатів дослідження обрано галузь рекламної діяльності. Система фоносемантичної експертизи була впроваджена в театрі ляльок ім. В.О.Афанасьєва з метою підвищення мотиваційного рівня потенційного глядача (акт впровадження від 29 вересня 2003 р.). У результаті функціонування системи було розроблено структуру тестування рекламних буклетів. За допомогою розрахункових характеристик відредаговано рекламний буклет та отримано задану мотиваційну функцію.

Загальні положення та рекомендації, які викладені в дисертаційній роботі, використані в навчальному процесі дисципліни “Методи та засоби штучного інтелекту” на кафедрі Програмного забезпечення ЕОМ ХНУРЕ.

Особистий внесок здобувача. Всі основні результати дисертаційного дослідження отримано здобувачем особисто: в [1] автором запропонована підсистема візуалізації даних у складі інтегрованої системи аналізу текстуальної інформації, яка дозволяє формувати граф-схему речення; в [2] автором представлена класифікаційна модель структури системи категорій, що показує розподіл навколишньої дійсності на складові поняття з відповідністю щодо існуючих характеристик розподілу природної мови. Даний розподіл дозволяє провести аналогію між класифікацією понять навколишньої дійсності та частинами мови, на прикладі російської мови; в роботі [3] автор показав роль проведення лінгвістичного експерименту при створенні систем обробки природно-мовної інформації на прикладі багаторівневого лінгвістичного експерименту, який є основою щодо створення системи фоносемантичної експертизи тексту; робота [4] містить опис побудови речень та словосполучень за допомогою моделі композицій предикатних функцій, що дозволяє подати речення у вигляді формул та сприяє формалізації природно-мовної інформації; публікація [5] містить опис розробленої системи аналізу психосемантичної структури тексту, яка дозволяє виділити в тексті характерні психоемоційні рівні передачі та сприйняття текстуальної інформації; в [6] автором наводиться опис системи фоносемантичної експертизи тексту, за допомогою якої розраховується оцінка емоційного сприйняття текстуальної інформації; робота [7] показує можливість застосування фоносемантичного аналізу в системах обробки природно-мовної інформації, що сприяє створенню систем нового типу, моделюючих емоційних рівнів сприйняття текстуальної інформації; в роботі [8] наведено опис проведення багаторівневого лінгвістичного експерименту в межах створення фоносемантичної експертизи тексту, в процесі якого були виведені коефіцієнти місцезнаходження, яка дозволяє більш адекватно оцінювати психоемоційний рівень сприйняття текстуальної інформації.

Апробація результатів дисертації. Основні результати дисертації були викладені на: 6-й Міжнародній конференції “Теорія і техніка передачі, прийому та обробки інформації” (Харків-Туапсе, 2000 р.); 7-й Міжнародній конференції “Теорія і техніка передачі, прийому та обробки інформації” (Харків-Туапсе, 2001 р.); 8-й Міжнародній конференції “Теорія і техніка передачі, прийому та обробки інформації” (Харків-Туапсе, 2003 р.); 7-му Міжнародному молодіжному форумі “Радіоелектроніка і молодь в XXI столітті” (Харків, 2002 р.); 8-й Міжнародній науково-технічній конференції “Досвід розробки та застосування приладо-технологічних САПР в мікроелектроніці” (Львів – Славське, 2003 р.).

Публікації. За матеріалами дисертації опубліковано 9 наукових праць: 4 статті у фахових виданнях згідно з переліком ВАК України, 4 доповіді та 1 теза доповіді на наукових та міжнародних конференціях.

Структура та розмір дисертації. Дисертація складається зі вступу, чотирьох розділів, висновків та 5 додатків на 6 сторінках. Загальний обсяг дисертації складає 140 сторінок та містить 5 додатків на 6-ти сторінках, 21 рисунок, 20 таблиць, список використаних літературних джерел, що включає 129 найменувань на 11 сторінках.

ОСНОВНИЙ ЗМІСТ РОБОТИ

У вступі обґрунтовано актуальність дисертації, сформульовано основну мету і задачі дослідження, наведено відомості про зв’язки обраного напрямку досліджень із планами організації, де виконана робота, відзначено наукову новизну та практичну цінність отриманих результатів.

У першому розділі розглянуто стан розробки систем штучного інтелекту, насамперед систем обробки природно-мовної інформації. Показано місце досліджень емоційного сприйняття текстуальної інформації при моделюванні інтелектуальних функцій людської діяльності щодо створення систем штучного інтелекту. Важливим фактором досліджень є проведення експериментальної роботи. Проведено порівняльний аналіз існуючих методик проведення експерименту, які дозволяють вирішувати актуальну науково–дослідну задачу зіставлення чисельного оцінювання суб’єктивному шляхом виділення та встановлення взаємовідносин між характеристиками сприйняття текстуальних даних. Вищеназвані задачі дослідження були поставлені на підставі проведеного аналізу, виявлених труднощів і відповідно до мети даної дисертаційної роботи.

У другому розділі розглядається питання розробки класифікаційної моделі системи категорій, яка описує навколишню дійсність на підставі таких понять як об’єкт, ознака та дія. Структуру системи категорій можна подати у такому вигляді, як це показано на рис. 1

Рис.1. Класифікаційна модель структури системи категорій

Попередні класифікаційні моделі використовували лише поняття об’єкта та ознаки. Поняття дії вводиться вперше, у разі обґрунтування цього факту показано зв’язок текстів природної мови та навколишньої дійсності, як відображення одне одного. Трійка понять: може виступити базисом предикатних функцій, за допомогою яких можлива формалізація тексту.

Можливі моделі композиції предикатних функцій:

1) P(x) – предикат впізнавання об’єкту (сам об’єкт, іменники);

2) Q(P(x1)[,...,P(xn)]) – предикат ознаки об’єкту (статичне зміна, прикметники);

3) R(P(x1)[,...,P(xn)]) – предикат процесу (динамічна ознака, дієслова);

4) Q(R( P(x1)[,...,P(xn)]) – предикат ознаки процесу (статичний розвиток динамічної зміни, прислівники);

5) R(Q(P(x1)[,...,P(xn)]) – предикат функції процесу над об’єктами, які володіють ознаками (динамічний розвиток об’єктів з характерними статичними змінами).

Текст подається, як набір речень. Для кожного речення будується граф-схема речення на основі базових предикатних функцій. Кожній функції відповідає частина мови, тому процес побудови граф-схеми речення полягає у виділенні усіх відносин між словами, тобто перелік всіх можливих словосполучень речення.

Алгоритм побудови граф-схеми речення складається у послідовній нумерації кожного слова речення та фіксації послідовно: дієслова, іменника, займенника тощо з виділенням відповідного словосполучення та надання йому наступного номера. Таким чином в результаті маємо список всіх словосполучень речення. Відповідно нумерації зв’язків та слів у реченні формується граф-схема речення та сортується до вигляду бінарного дерева.

Таблиця 1

Відповідність структурних одиниць

Категорії слів | Частини мови | Предикат

Підмет | Іменник, займенник | P(x)

Присудок | Дієслово | R(P(x1)[,...,P(xn)] )

Визначення | Прикметник | Q(P(x1)[,...,P(xn)] )

Доповнення | Іменник | P(x)

Обставина | Прислівник | Q(R( P(x1)[,...,P(xn)] )

Рис.2. Рівні підпорядкованості слів у реченні

Пропонується ввести функцію оцінки слів відповідно до рівнів підпорядкованості та з урахуванням емоційного навантаження. Як функцію оцінки візьмемо вираз

, , (1)

де – оцінка слова відносно рівнів підпорядкованості речення, – оцінка слова в аспекті емоційного сприйняття текстуальної інформації. В свою чергу

, (2)

де – довжина дерева (кількість рівнів), – глибина вершини на дереві (номер рівня).

В третьому розділі розглядається побудова оцінки сприйняття текстуальної інформації за допомогою методу семантичного диференціалу. Метод семантичного диференціалу було засновано Ч.Осгудом. Суть методу: проводиться опитування деякої кількості людей на предмет оцінки сприйняття конкретного набору слів на природній мові за допомогою шкали оцінювання (рис.3).

Рис.3. Шкала оцінювання

Даний метод сприяє вирішенню задачі зіставлення суб’єктивним оцінкам чисельних. У даній роботі метод семантичного диференціалу здобув поширення. У разі вибірки слів було взято псевдослова, наближені до природної мови з метою відхилення сприйняття людини від змістовної частини.

Алгоритм генерування псевдослів складається з декількох етапів:

- підготовчий (попередня підготовка даних, та збір статистики);

- виконавчий на якому проводилося само генерування.

На підготовчому етапі було зібрано таку статистику: частотність появи букв в російській мові з розрахунку появи в середньому на 1000 символів; статистика довжини слів показала, що максимально застосовні в тексті п’ятилітерні слова, на другому місті чотири та шести, а слова довжиною понад дев’яти букв застосовуються дуже рідко. Статистичні дані було зібрано з текстів художнього стилю, який є найближчим до текстів реклами. Було зібрано дані про побудову слова: префікси, суфікси та закінчення. Було зібрано до бази даних найчастіше застосовувані префікси, суфікси та закінчення.

З урахуванням статистики частотності, довжин слів та інформації про префікси, суфікси та закінчення було проведено другий етап генерації: з бази даних було виключено та розміщено префікси, суфікси та закінчення випадковим чином з залишком місця під генерацію кореня. Вибірка псевдослів була оформлена у вигляді опитувального листа. Опитувальний лист складається з інформаційної частини (дані про особу, правил складання листа та шкала оцінювання), а також безпосередньо частини з вибіркою з позначенням наголосу. Фрагмент опитувального листа з вибіркою псевдослів наведений на рис.4:

Ф.И. | Пол | Профессия

Расставить коэффициенты в соответствии со шкалой

(-6) очень плохое

(-3) плохое

(-1) скорее плохое, чем хорошее

(1) скорее хорошее чем плохое

(3) хорошее

(6) очень хорошее

1 | акрон | 29 | ниспем | 57 | рел | 85 | созлив | 113 | тыкянец

2 | аунат | 30 | ниспон | 58 | ремова | 86 | созова | 114 | тювеват

3 | безтоз | 31 | обтаз | 59 | рен | 87 | сумщик | 115 | тюдева

………………………………………………………………………………………..

24 | истов | 52 | пявчик | 80 | сак | 108 | толщик | 136 | шигив

25 | йонянка | 53 | разтин | 81 | сал | 109 | томова | 137 | шим

26 | недопун | 54 | ракова | 82 | секова | 110 | тун | 138 | шузу

27 | низпан | 55 | рекева | 83 | сенчик | 111 | тунут | 139 | щад

28 | низрым | 56 | рекла | 84 | сизев | 112 | тыв | 140 | щиниц

* ударение указано подчеркиванием

Рис. 4. Фрагмент опитувального листа

Також була модифікована шкала оцінювання (рис.5). |

дуже гарне | гарне | нейтральне (ніяке) | погане | дуже погане

Шкала оцінювання | 1 | 2 | 3 | 4 | 5

Модифікована шкала1 | 6 | 3 | 0 | -3 | -6

Модифікована шкала2 | 6 | 3 1 | -1 | -3 | -6

Більше гарне ніж нейтральне | Більше погане ніж нейтральне

Рис. 5. Модифікація шкали оцінювання

Під час модернізації було розглянуто принцип побудови шкал, а також проведено аналіз вибору з урахуванням впливу психологічних та психофізичних факторів. За попередніх досліджень було застосовано шкалу (рис.3): 1- дуже гарне, 2- гарне, 3 –ніяке, 4 – погане, 5- дуже погане. Оцінка суб’єктивного сприйняття текстуальних даних відбувається шляхом відповідності якісним поняттям (суб’єктивним) чисельних коєфіціентів. Вибір порядкового чисельного оцінювання ускладнює процедуру оцінювання з позиції мотивованості, тому запропоновано таку нумерацію реперних точок: щодо негативних якісних понять – числа зі знаком мінуса, позитивним – числа зі знаком плюс, нейтральному якісному поняттю – відповідно число нуль (модифікована шкала1, рис. 5). Під час опитування людини простіше співвіднести слово до нейтрального якісного поняття, тому шкала була модифікована зі штучним розподілом реперної нейтральної точки на дві протилежні з чисельними значеннями „-1” – більш погане ніж нейтральне, та „1” – більше гарне ніж нейтральне (модифікована шкала2, рис.5).

Також у розділі розглядається процес поліпшення моделі оцінювання емоційного сприйняття людини за допомогою уточнення коефіцієнтів місцезнаходження звуко-літери. За основу оцінювання емоційного сприйняття було взято винахід Журавльова:

(3)

де F – фонетична складова слова (оцінка емоційного сприйняття текстуальних даних);

fi – фонетична складова наступної (i-ї) звуко-літери слова (коефіцієнт індивідуального сприйняття наступної (i-ї) звуко-літери слова);

ki – коефіцієнт для наступної (i-ї) звуко-літери слова;

В свою чергу коефіцієнт для наступної (i-ї) звуко-літери слова ki містить такі складові:

(4)

де km – коефіцієнт місцезнаходження i-ї звуко-літери в слові;

Pmax – максимальна частотність звуко-літери в даному слові;

Pi – частотність звуко-літери.

Коефіцієнт місцезнаходження i-ї звуко-літери в слові km приймає значення km =4, коли звуко-літера є першою у слові, km =2, якщо звуко-літера під наголосом.

Алгоритм розрахунку фоносемантичного значення слова.

Умовно процес розрахунку фоносемантичного значення слова можна поділити на декілька етапів: етап підготовки даних (рис.6), розрахунковий етап та етап аналізу отриманого результату.

Вихідними даними є текст на природній мові.

Етап підготовки даних. Аналізується текст. У тексті виділяються слова (символи алфавіту, обмежені пробілами чи знаками розділу). У виділеному слові проводиться підрахунок кількості звуко-літер. М’який знак у процесі підрахунку не бере участі, а лише виступає в ролі пом’якшувальної ознаки щодо попередньої літери. Аналогічно з твердим знаком. Прямування за приголосною літерою м’якої голосної (и,е,ю,я) є перетворювачем до м’якої звуко-літери. Надалі для кожної звуко-літери формуються набори відповідних частотностей та коефіцієнтів індивідуального сприйняття. З набору частотностей вибирається максимальна.

Розрахунковий етап у свою чергу має два рівні обчислення. Перший крок є розрахунково-підготовчим на якому розраховуються проміжні значення фоносемантичних коефіцієнтів. Вибране слово аналізується посимвольно. Для фіксованої звуко-літери розраховується коефіцієнт фоносемантичної значущості, який складається з добутку значення коефіцієнта місцезнаходження та максимального значення частотності звуко-літер слова, поділеного на частотність фіксованої звуко-літери.

Рис. 6. Етап підготовки даних

На другому кроці відбувається розрахунок оцінки емоційного сприйняття. Значення якої дорівнюватиме сумі добутків відповідних кожній фіксованій звуко-літері коефіцієнтів особистого сприйняття та розрахованих фоносемантичних коефіцієнтів, поділених на суму фоносемантичних коефіцієнтів.

Результуючими даними є розраховані оцінки емоційного сприйняття текстуальних даних для слів обраного фрагменту тексту.

Під час проведення порівняльного аналізі чисельні оцінки з використанням формули (8-9) суттєво не збігалися з оцінками експертів. Для поліпшення оцінювання було загострено увагу на коефіцієнті місцезнадходження звуко-літери та виділені такі ознаки: перша літера (p), переднаголосна (pu), наголосна (u), післянаголосна (psu) та остання літера (psl). Також у разі аналізу аудіо-характеристик вимовних звуко-літер відносно їх місцезнаходження в слові було винайдено залежність між силою звука та місцезнаходження звуко-літери у вигляді гіпотези про рейтинги (p=3, pu=4, u=2, psu=1, psl=1). Таким чином було вирішено поліпшити оцінювання за крітерієм середніх статистичних оцінок експертів. Початкові значення були такими: p=4, pu=1, u=2, psu=1, psl=1. Для уточнення значення оцінювання щодо значень коефіцієнтів місцезнадходження звуко-літери було запропоновано провести ітераційний процес із застосуванням генетичного алгоритму та репродуктивного плану Холанда.

Результатом виведення коефіцієнта місцезнаходження є удосконалена модель, яка описує залежність між фоносемантичними характеристиками та обчислює оцінку емоційного сприйняття текстів природної мови, що дозволяє істотно підвищити точність розрахунку чисельної оцінки емоційного сприйняття текстуальної інформації.

Таблиця 2

Значення коефіцієнта місцезнадходження звуко-літери

1 | Перша літера | p | 4 | 4 | 3

2 | Переднаголосна літера | pu | 1 | 5 | 4

3 | Наголосна літера | u | 2 | 2 | 2

4 | Післянаголосна літера | psu | 1 | 1 | 1

5 | Остання літера | psl | 1 | 2 | 2

Побудова моделі оцінювання емоційного сприйняття текстуальної інформації базувалася на даних російської мови. Для пристосованості моделі в іншомовних середовищах необхідно застосування методики проведення лінгвістичного експеримента та алгоритма генерації псевдослів. Складність застосування полягає лише у виведенні законів побудови слів обраного мовного середовища для генерації псевдослів. Таким чином, використання моделі оцінювання сприйняття текстуальної інформації дає змогу застосуванню в іншомовних середовищах з неістотними змінами.

У четвертому розділі було розглянуто програмну реалізацію оцінювання емоційного сприйняття людини та інформаційно-довідкову систему лінгвістичної підтримки. Інформаційно-довідкова система лінгвістичної підтримки містить у собі модуль збору статистичних даних та модуль генерації псевдослів. Система фоносемантичної експертизи тексту дозволяє проводити редагування тексту на основі моделі оцінювання емоційного сприйняття текстуальної інформації та аналізувати психосемантичну структуру тексту за допомогою комплексної оцінювальної функції.

У разі вхідних даних надається текст російською мовою. В процесі редагування кожному для кожного слова розраховується оціка емоційного сприйняття. На основі винайдених оцінок у тексті виділяються слова з найбільш та найменш негативними оцінками. Знадходження місць з негативними оцінками трактується як негативні емоційні сплески, позитивних – як позитивні емоційні сплески. У разі вихідних даних користувачу пропонується текст з підкреслиними емоційними сплесками та розрахованими чисельними оцінками кожного слова для подальшого редагування з метою поліпшення емоційного сприйняття даного тексту.

Також розглядалися особливості практичного застосування розробленої програмної системи оцінювання емоційного сприйняття людини. У разі області практичного застосування основних результатів дослідження була вибрана рекламна діяльність театру, конкретніше – рекламна діяльність театру ляльок ім. Афанасьєва.

Апробація результатів наукових досліджень дисертаційної роботи:

- створення рекламних буклетів;

- проведення експериментальної частини;

- корекція літературної частини розроблювального спектаклю.

З метою залучення глядачів до спектаклю “Ще раз про червону шапочку” було складено два рекламних буклети. На рис.7 наведено тексти створених рекламних буклетів.

Рис. 7. Приклади створених рекламних буклетів

На рис. 7 лівий буклет містить не відредагований текст, права частина рисунку є рекламним буклетом з відредагованим текстом. Слова з їх якісними показниками зручно розташувати у вигляді таблиці, табл. 3. У лівій частині розташовані слова з “позитивними” якісними показниками (емоційні оцінки [1;2.5]), у правій частині – слова з “негативними” якісними показниками (емоційні оцінки [3.5;5]). Біля кожної з груп оцінок наведено номери рекламного буклету.

Дослідження емоційного сприйняття проводилося у вигляді експерименту. На трьох станціях метро “Академіка Барабашова”, “Наукова” та “Центральний ринок” за два тижні до дати передбачуваного спектаклю поширювалися рекламні буклети. Буклети для залучення уваги та запобігання підробки були рожевого кольору (були роздруковані на папері рожевого кольору). В рекламних буклетах було зазначено, що при поверненні буклету пред’явнику безкоштовно пропонувалося відвідати музей театру ляльок з безкоштовною екскурсією. Екскурсії до музею театру ляльок проходять безкоштовно, тому театр не поніс ніяких додаткових витрат. З іншого боку екскурсії проходять не регулярно, тому точна дата проведення екскурсії повинна була зацікавити потенційного глядача.

У результаті проведення експерименту до театру повернулося 34% рекламних буклетів. Причому 60% буклетів другого (відредагованого типу), що саме за себе говорить про зацікавленість відредагованим текстом буклетів. Відредагований текст поліпшує сприйняття наданої інформації та сприяє збільшенню заданої мотиваційної функції у потенційного глядача.

Таблиця 3

Розрахункові характеристики слів за шкалою “гарний-поганий”

Слова з “негативними” оцінками | Слова з “позитивними” оцінками

Слова | Чисельне значення | Слова | Чисельне значення

представление | 2,28 | спектакль | 1

зайчишка | 4,26 | зайка | 2,9

Також було проаналізовано тексти з одного зі спектаклів, який був на етапі створення та сформовано пропозиції щодо редагування текстів спектаклю з метою поліпшення позитивного сприйняття.

У додатку приведені вибірки щодо проведення лінгвістичного експерименту, таблиці коефіцієнта місцезнаходження та індивідуального сприйняття, акти впровадження теоретичних і практичних результатів дисертаційної роботи.

ВИСНОВКИ

Дослідження та моделювання інтелектуальних функцій людини сприяє створенню систем штучного інтелекту. Моделювання функції розуміння спирається на логічну та емоційну складові рівні досліджень. Емоційна оцінка сприйняття здебільшого суб’єктивна. Перетворення суб’єктивних даних до відповідних чисельних оцінок допомагає вирішенню задачі формалізації природно-мовних висловлювань. У дисертаційній роботі проведені дослідження емоційного рівня сприйняття текстуальної інформації людиною для більш адекватного моделюванн інтелектуальної функції людини щодо розуміння природної мови.

1. Розроблено теоретичні передумови дослідження семантики на основі мовної одиниці звуко-літери, що дозволило істотно зменшити (звести до мінімуму) великий обсяг словників, які беруть участь в описі предметної галузі.

2. Розроблено класифікаційну модель системи категорій та концепцію формалізації текстуальної інформації на основі базису предикатних функцій.

3. Розроблено алгоритм формального подання речень у вигляді граф-схем упорядкованого опису взаємозв’язків між словами.

4. Виведена комплексна функція оцінки слів речень з урахуванням підпорядкованості слів у реченні та оцінкою емоційного сприйняття текстуальної інформації людиною за допомогою фоносемантичного аналізу.

5. Набув подальшого розвитку метод семантичного диференціалу під час проведення багаторівневого лінгвістичного експерименту на основі вибірки псевдослів.

6. Розроблено алгоритм генерації псевдослів за умовами законів побудови слів та статистичних характеристик текстів російською мовою.

7. Удосконалено математичну модель оцінки емоційного сприйняття текстуальної інформації шляхом застосування генетичного алгоритму та плану Холанда щодо ітераційного процесу виведення коефіцієнтів місцезнаходження звуко-літери в слові.

8. Розроблено систему фоносемантичної експертизи тексту з використанням комплексної оцінки слів. Побудована модель оцінки емоційного сприйняття текстуальної інформації, на якій базується система фоносемантичної експертизи тексту дозволяє розраховувати оцінку емоційного сприйняття текстуальної інформації шляхом зіставлення чисельного оцінювання суб’єктивному. Система фоносемантичної експертизи була впроваджена в театрі ляльок ім. В.О. Афанасьєва з метою підвищення мотиваційного рівня потенційного глядача. В результаті функціонування системи було розроблено структуру тестування рекламних буклетів. За допомогою розрахункових характеристик відредаговано рекламний буклет та отримана задана мотиваційна функція.

СПИСОК ОПУБЛІКОВАНИХ АВТОРОМ ПРАЦЬ ЗА ТЕМОЮ ДИСЕРТАЦІЇ

1. Брусенцев В.А., Шрестха С.Н. Автоматизация семантического анализа предложений русского языка // Вестник ХПИ. Вып. № 79. Новые решения в современных технологиях. Харьков, 2000. – С. 25-27.

2. Дударь З.В., Шрестха С.Н. Классификационная модель системы категорий // Вестник ХПИ. Вып. № 81. Новые решения в современных технологиях. Харьков, 2000. – С. 18-19.

3. Дудар З.В., Шрестха С.М., Брусенцев В.О., Калініченко О.В. Використання лінгвістичного експерименту в системах обробки природно-мовної інформації // Вісник національного технічного університету “ХПІ” - Харків: НТУ “ХПІ”. 2002. - № 7, Т.2., С. 11-14.

4. Шрестха С.М. Автоматизована система фоносемантичної експертизи тексту // Вісник національного університету “Львівська політехніка” - Львів: Видавництво Национального университету “Львівська політехніка”. 2003. - №471, С. 40-43.

5. Дударь З.В., Шрестха С.Н. Предикатная функция распознавания смысла текстов естественного языка на основе трехэлементной модели системы категорий // 6-я Международная конференция “Теория и техника передачи , приема и обработки информации”: Сб. научных трудов. – Харьков: ХТУРЭ, 2000. – С. 148-150.

6. Дударь З.В., Шрестха С.Н. Автоматизированная система анализа психосемантической структуры текста // 7-я Международная конференция “Теория и техника передачи, приема и обработки информации”: Сб. научных трудов. – Харьков: ХТУРЭ, 2001. – С. 275-276.

7. Дударь З.В., Шрестха С.Н. Разработка подсистемы фоносемантческого анализа на основе проведения многоуровневого лингвистического эксперимента // 8-я Международная конференция “Теория и техника передачи, приема и обработки информации”: Сб. научных трудов. – Харьков: ХТУРЭ, 2002. – С. 221-222.

8. Назаров А.Г., Шрестха С.Н. Использование фоносемантического анализа в системах обработки естественно-языковой информации // 7-ой Международный молодежный форум “Радиоэлектроника и молодежь в XXI веке”: Сб. научных трудов. – Харьков: ХТУРЭ, 2003. – С.275.

9. Shrestha S.N. Phonosemantics text expertise automating system // Proceedings of the VII International Conference CADSM. – Lviv-Slavske (Ukraine), 2003. – P. 408-409.

АНОТАЦІЯ

Шрестха С.М. Кількісні оцінки фоносемантичних характеристик текстів природної мови та їх використання в системах штучного інтелекту. – Рукопис.

Дисертація на здобуття вченого ступеня кандидата технічних наук за спеціальністю 05.13.23 методи та засоби штучного інтелекту. Харківський національний університет радіоелектроніки, Харків, 2005.

Дисертація присвячена питанням дослідження емоційного сприйняття людиною текстуальної інформації. Як вихідна природно-мовна одиниця було обрано звуко-літеру. Запропонована методика проведення багаторівневого лінгвістичного експерименту на основі згенерованих псевдослів, позбавлених змістовного навантаження та максимально близьких за характеристиками до тексту російською мовою. Розроблено алгоритм ітераційного отримання коефіцієнтів місцезнаходження звуко-літери за допомогою методу генетичного алгоритму та описано їх вплив на емоційне сприйняття людиною текстуальної інформації. Виведені значення коефіцієнтів суттєво сприяють більш адекватній побудові моделі емоційного оцінювання тексту. Побудована модель оцінки емоційного сприйняття текстуальної інформації, на якій базується система фоносемантичної експертизи тексту, дозволяє проводити оцінку емоційного сприйняття текстуальної інформації шляхом зіставлення чисельного оцінювання суб’єктивному. Результати дисертаційної роботи впроваджено в Харківському академічному театрі ляльок ім. В.А. Афанасьєва за для проведення театром рекламної діяльності з метою підвищення мотиваційної функції потенційного глядача. Розроблена система оцінки емоційного сприйняття людиною текстуальної інформації дозволяє редагування тексту з заданою мотиваційною функцією.

Ключові слова: емоційне сприйняття, лінгвістичний експеримент, фоносемантика, звуко-літера, суб‘єктивне оцінювання.

АННОТАЦИЯ

Шрестха С.Н. Количественные оценки фоносемантических характеристик текстов естественного языка и их использование в системах искусственного интеллекта. – Рукопись.

Диссертация на соискание ученой степени кандидата технических наук по специальности 05.13.23 методы и средства искусственного интеллекта. Харьковский национальный университет радиоэлектроники, Харьков, 2005.

Диссертация посвящена вопросам моделирования интеллектуальной человеческой деятельности, в частности решению проблемы моделирования эмоционального восприятия человеком естественно-языковой информации. В работе рассмотрены современные тенденции моделирования эмоционального восприятия и формализации естественно-языковой информации. Естественно-языковая информация была классифицирована с выделением основных понятий “объект”, “свойство” и “процесс”. Принимая во внимание данные понятия был выбран базис предикатных функций, с помощью которых возможно описание текстуальных данных в формализованном виде. Формальное представление предложений в виде граф-схемы и дальнейшее преобразование в бинарное дерево дает возможность оценить слова с точки зрения их подчиненности. Для комплексной оценки слов набора естественно-языковых данных второй составляющей была введена оценка эмоционального восприятия текстуальных данных. В качестве минимальной естественно-языковой единицы была выбрана звуко-буква. Для более точного вычисления оценки, с целью повышения адекватности модели эмоционального оценивания был проведен многоуровневый лингвистический эксперимент, который базировался на методе семантического дифференциала. Отличительной особенностью проведения эксперимента являлось представление данных для опроса не в виде отдельных звуко-букв, а их совокупности сгенерированных в виде псевдослов, лишенных смысловой нагрузки и максимально приближенных по характеристикам к тексту на русском языке. Также была модифицирована шкала оценивания. Изменение качественных значений и введение дополнительных реперных точек дало возможность повысить качество собираемых данных с соответствующей шкалой оценивания. В результате применения генетического алгоритма и плана Холанда были получены новые значения коэффициента местоположения, что позволило повысить адекватность модели эмоционального восприятия текстуальных данных. Исследование диссертационной работы осуществлялось на примере русского языка. Для применения данной методики в различных языковых средах необходимо выделить правила построения текстуальных данных и заполнить таблицы статистических данных и фоносемантических характеристик выбранной языковой среды. Построенная модель оценки эмоционального восприятия текстуальной информации, на которой базируется система фоносемантической экспертизы текста позволяет проводить оценку восприятия текстуальной информации путем сопоставления численного оценивания субъективному. Выделяется психосемантическая структура текстуальных данных в виде цветовой окраски эмоциональных всплесков, что позволяет в интерактивном режиме проводить редактирование данных с заданной мотивационной функцией. Результаты диссертационной работы внедрены в Харьковском академическом театре кукол им. В.А. Афанасьева для проведения театром рекламной деятельности с целью повышения мотивационной функции потенциального зрителя.

Ключевые слова: эмоциональное восприятие, лингвистический эксперимент, фоносемантика, звуко-буква, субъективное оценивание.

ABSTRACT

Shrestha S.N. Quantitative estimations of phonosemantics characteristics of a natural language texts and their use in artificial intelligence systems. - Manuscript

Thesis for a candidate's degree in technical sciences on specialty 05.13.23 – Systems and facilities of the artificial intelligence. – Kharkiv National University of Radioelectronics, Kharkiv, 2005

The PhD work is devoted to questions of research of emotional perception by the person of the textual information. The sound-letter has been chosen as entrance natural language unit. The realization strategy of the multilevel linguistic experiment is offered on the basis of the generated pseudo-words which is insensible of obligations and as much as possible approached under characteristics to the Russian text. The algorithm for iterative getting of sound-letter location coefficients is developed with usage of a method of the genetic algorithm. These coefficients are describing influence on the person an emotional perception of the textual information. The deduced values of coefficients considerably are conductive to more adequate modeling of the emotional text estimation. The constructed model of an emotional perception estimation of the textual information is included in the system of phonosemantic examination of the text for an estimation of perception of the textual information by comparison numerical estimation subjective. Results of PhD work are introduced at the Kharkov academic theatre of dolls by V.A. Afanasjeva for carrying out by theatre of advertising activity with the purpose of increase of motivational function of the potential spectator. The developed system of emotional perception the person of the textual information allows editing the text with the assign motivational function.

Keywords: emotional perception, linguistic experiment, phonosemantics, sound-letter, subjective

Підписано до друку

Формат 60х84 1/16 Спосіб друку - різограф

Умов.друк.арк.1,2 Облік. вид. арк. 1,1

Зам. № . Тираж 100 прим.

Віддруковано в навчально-науковому видавнично-поліграфічному центрі ХНУРЕ.

Україна, 61166, м. Харків, пр. Леніна, 14

��
��...

Наступні 7 робіт по вашій темі:

▪ РІВЕНЬ ПОКАЗНИКІВ РОДЮЧОСТІ ЧОРНОЗЕМУ ТИПОВОГО В ЗАЛЕЖНОСТІ ВІД ГРУНТОЗАХИСНИХ ТЕХНОЛОГІЙ І БІОЛОГІЗАЦІЇ ЗЕМЛЕРОБСТВА - Автореферат - 30 Стр.
▪ ПРОФЕСІЙНА ПІДГОТОВКА ФАХІВЦІВ З ОХОРОНИ ТА ЗАХИСТУ НАВКОЛИШНЬОГО СЕРЕДОВИЩА У ВИЩИХ НАВЧАЛЬНИХ ЗАКЛАДАХ ВЕЛИКОЇ БРИТАНІЇ - Автореферат - 30 Стр.
▪ ЗБУДЖЕННЯ ГРЕБІНОК СКІНЧЕННОГО РОЗМІРУ У ПРИСТРОЯХ ЕЛЕКТРОНІКИ ТА АНТЕННОЇ ТЕХНІКИ НВЧ - Автореферат - 25 Стр.
▪ ДЕЯКІ МЕХАНІЗМИ БІОЛОГІЧНОЇ ДІЇ НОНІЛБЕНЗОЛІВ - Автореферат - 31 Стр.
▪ АКУСТИЧНА СПЕКТРОСКОПІЯ ПОЛІМЕРНИХ ЕЛЕКТРОЛІТІВ НА ОСНОВІ ПОЛІПРОПІЛЕНГЛІКОЛЬ-LiClO4 - Автореферат - 23 Стр.
▪ Cyanophyta МОРСЬКОЇ КАМ'ЯНИСТОЇ СУПРАЛІТОРАЛІ КРИМУ - Автореферат - 30 Стр.
▪ УДОСКОНАЛЕННЯ НАЦІОНАЛЬНОЇ СИСТЕМИ ПРОТИДІЇ ЛЕГАЛІЗАЦІЇ ДОХОДІВ, ОТРИМАНИХ ЗЛОЧИННИМ ШЛЯХОМ, В УМОВАХ ПОСИЛЕННЯ ІНТЕГРАЦІЙНИХ ПРОЦЕСІВ - Автореферат - 26 Стр.