У нас: 141825 рефератів
Щойно додані Реферати Тор 100
Скористайтеся пошуком, наприклад Реферат        Грубий пошук Точний пошук
Вхід в абонемент





КИЇВСЬКИЙ УНІВЕРСИТЕТ імені ТАРАСА ШЕВЧЕНКА

КИЇВСЬКИЙ НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ

імені ТАРАСА ШЕВЧЕНКА

СІРУК Олена Борисівна

УДК 811.161.2ґ374.73:004.656

ТЕЗАУРУС ДІЄСЛІВ УКРАЇНСЬКОЇ МОВИ:

ЛІНГВІСТИЧНІ ПРОБЛЕМИ

ТА МЕТОДИКА КОНСТРУЮВАННЯ

10.02.01 — українська мова

Автореферат

дисертації на здобуття наукового ступеня

кандидата філологічних наук

Київ — 2006

Дисертацією є рукопис.

Роботу виконано на кафедрі сучасної української мови

Інституту філології Київського національного університету імені Тараса Шевченка.

Науковий керівник:

кандидат філологічних наук, доцент

Алексієнко Людмила Антонівна

Інститут філології Київського національного

університету імені Тараса Шевченка,

доцент кафедри сучасної української мови.

Офіційні опоненти:

доктор філологічних наук, професор

Струганець Любов Василівна

Тернопільський національний педагогічний університет імені Володимира Гнатюка,

завідувач кафедри методики викладання української мови і культури мовлення;

кандидат філологічних наук

Середницька Анна Ярославівна

Національний університет “Львівська політехніка”,

старший викладач кафедри української мови.

Провідна установа: Інститут мовознавства ім. О. О. Потебні НАН України,

відділ структурно-математичної лінгвістики,

м. Київ.

Захист відбудеться "_17"_____11____ 2006 року о _14_ годині

на засіданні спеціалізованої вченої ради Д 26.001.19 Київського

національного університету імені Тараса Шевченка

(01033, м. Київ, бульвар Тараса Шевченка, 14, к. ).

З дисертацією можна ознайомитися в

Науковій бібліотеці імені М. Максимовича

Київського національного університету імені

Тараса Шевченка (01601, м. Київ, вул. Володимирська, 58, к. ).

Автореферат розіслано "__11_"___10_______ 2006 року.

Учений секретар

спеціалізованої вченої ради доц. Л. П. Гнатюк

ЗАГАЛЬНА ХАРАКТЕРИСТИКА ДИСЕРТАЦІЇ

Актуальність дослідження. На сьогодні одним з найважливіших завдань лексикографії є проектування таких словників, які б на рівні світових стандартів задовольняли велику потребу сучасної інформатизованої спільноти в систематизованій лінгвістичній інформації. З огляду на це тезауруси як словники, які не лише інвентаризують, а й систематизують лексичні одиниці у межах певної мовної підсистеми, потрапляють у поле підвищеної уваги фахівців. Рівень розвитку інформаційних технологій в Україні дозволяє, а потреби користувача вимагають зосередитися на розробленні саме комп’ютерних тезаурусів (КТ) різних типів: як загальномовних, так і вузькогалузевих термінологічних. Історія укладання ідеографічних словників має довгу традицію: однією з найдавніших писемних пам’яток тезаурусного типу є створений ще в ІІ-ІІІ століттях до н. е. санскритський словник “Амара-коша”. Серед наукових праць, актуальних і на сьогодні, найбільш відомі такі тезауруси: словник П. Роже для англійської мови, П. Буассьєра – для французької, Ф. Дорнзайфа – для німецької, Х. Касареса – для іспанської. Вагомий внесок у розбудову тезаурусної і дотичної до тезаурусної проблематики зробили Ш. Баллі, Л. В. Щерба, Н. Ю. Шведова, В. В. Морковкін, Ю. М. Караулов, Ю. Д. Апресян, О. С. Баранов, І. О. Мельчук, М. А. Кронгауз, М. Я. Гловінська, Л. Г. Бабенко. Серед українських дослідників можна відзначити роботи таких авторів, як Н. П. Дарчук, В. В. Дубічинський, І. М. Гетьман, Н. В. Сніжко, М. Д. Сніжко, А. Я. Середницька. У комп’ютерній мережі Інтернет успішно функціонують і розвиваються тезаурус WordNet, багатомовна електронна лінгвістична база EuroWordNet, створені за аналогією до них бази GermaNet, BalkaNet, RusNet та багато інших. Успішна практика створення і використання КТ зумовила виникнення комп’ютерної лексикографії й поставила нові завдання її розбудови, зокрема створення формалізованих методик конструювання словників тезаурусного типу.

Зв'язок роботи з науковими програмами, планами, темами. Робота над укладанням тезаурусів проводиться групою співробітників лабораторії комп’ютерної лінгвістики Інституту філології Київського національного університету імені Тараса Шевченка в рамках загальної програми кафедри сучасної української мови “Актуальні проблеми розвитку української філології” (01БФ044-01).

Головною метою нашого дослідження є розроблення формалізованої методики укладання комп’ютерного тезауруса дієслів української мови та її апробація на матеріалі дієслів лексико-семантичного поля (ЛСП) мовлення. Оскільки кінцевим продуктом роботи є саме комп’ютерний тезаурус як найоптимальніша за впорядкуванням лінгвістичного матеріалу та швидкодією система, потрібно мати формалізовану, алгоритмізовану методику його побудови. Така процедура необхідна не лише для оптимізації створення електронних лексикографічних продуктів на рівні сучасної наукометрії, а й для коректної подальшої інтеграції словника в систему лінгвістичного програмного забезпечення.

Відповідно до головної мети це дослідження складалося з певних етапів, які вимагали вирішення низки самостійних теоретичних і практичних питань, що можуть бути визначені в таких завданнях, як:

вироблення лінгвометодичних і технологічних засад конструювання комп’ютерного тезауруса дієслів української мови на базі узагальненого досвіду в галузі традиційної та комп’ютерної ідеографії;

формалізоване представлення лексичного значення дієслова і розроблення для цього відповідної методики;

визначення лексико-семантичних груп на основі алгоритмічного встановлення лексико-семантичних зв’язків між дієсловами у КТ;

логіко-семантична класифікація дієслів та алгоритмічне конструювання на її основі синоптичної схеми комп’ютерного тезауруса українських дієслів мовлення;

апробація розробленої методики на дієсловах-репрезентантах інших ЛСГ, а комп’ютерного тезауруса – як інструмента дослідження авторських художніх текстів (Л. Костенко і В. Стуса).

Наукову новизну роботи становлять вирішення лінгвістичних проблем укладання словників тезаурусного типу та розроблення формалізованої методики конструювання комп’ютерних тезаурусів як загальномовних, так і спеціалізованих; апробація цієї методики у процесі створення термінологічного словника комп’ютерної ідеографії та тезауруса українських дієслів ЛСП мовлення; використання КТ дієслів мовлення як комп’ютерного інструмента для лінгвостилістичних досліджень художніх текстів. За такого підходу ідеографічний словник постає у вигляді моделі лексико-семантичної системи мови, де кожний структурний компонент описується як системно зумовлена одиниця і характеризується з погляду особливостей його функціонування. Такий підхід дає можливість розглядати цей тезаурус як фрагмент загальномовного тезауруса української мови, а також використовувати його в лінгвістичних експериментах і дослідженнях. Суттєвою перевагою саме машинної версії є можливість інтеграції словника в автоматичні системи обробки текстів, а також використання його як інформаційно-довідкової системи, зокрема й у дидактичних цілях. Відкритість словника уможливлює поповнення наявного масиву лексики новими словами та коригування лінгвістичної інформації відповідно до тих змін, які відбуваються в мові у процесі її функціонування.

Джерелом дослідження стала комп’ютерна база, укладена на основі “Словника української мови” (за редакцією І. К. Білодіда). Оскільки поняття синонімії й антонімії є одними з ключових для побудови тезауруса, у роботі широко застосовувалися “Словник синонімів” (за редакцією А. А. Бурячка) та “Словник антонімів” (за редакцією Л. М. Полюги). Матеріалом роботи став лексичний масив дієслів мовленнєвої діяльності обсягом близько 2 одиниць. До складу тезауруса увійшли всі лексико-семантичні варіанти дієслів мовлення, як похідні, так і непохідні, незалежно від їхнього стилістичного забарвлення, частоти вживання, а також архаїзми, історизми та діалектні лексеми. Для оптимізації процесу укладання і представлення комп’ютерного тезауруса дієслів української мови було використано пакет програм Microsoft Office та спеціалізоване лінгвістичне програмне забезпечення, розроблене для операційної системи Windows із використанням мов програмування С++ та С#.

Основним об’єктом дослідження стали дієслова лексико-семантичного поля, об’єднаного семою “говорити”, а предметом – їхні лексико-семантичні варіанти та відношення, які встановлюються між ними. Лексико-семантичні варіанти дієслів семантичного поля мовлення належать до ядра дієслівної підсистеми української мови та мають високий словотвірний потенціал і досить складну семантичну структуру. Як представники однієї з найбільш антропоцентричних груп лексики вони тісно пов’язані з інтелектуальною діяльністю людини та її емоційними проявами. Ці дієслова вповні відображають антропоцентризм наївної картини світу, а також є типовими виразниками всього спектру дієслівних характеристик і відношень. Антропоцентрична лексика створює ідеальну основу для постановки і вирішення будь-яких загальних лексикографічних проблем. Апарат теоретичних понять і технічних засобів, вироблений на цьому матеріалі, має найкращі шанси бути екстрапольованим на інші ЛСП дієслів.

У роботі були застосовані зіставний метод аналізу лінгвістичної інформації, представленої у вітчизняних та зарубіжних словниках тезаурусного типу; метод компонентного аналізу та метод ступеневої ідентифікації лексичних значень дієслів, а також елементи морфемно-словотвірного аналізу лексем та синтаксичного аналізу словникових тлумачень як найбільш доцільні з огляду на поставлену мету й завдання дослідження. Для тестування і демонстрації результатів було використано експеримент.

Теоретичне значення роботи полягає у тому, що розроблення основних теоретико-методичних засад створення тезауруса дає можливість зробити внесок у дослідження таких аспектів мовознавства, як парадигматика й синтагматика, теорія поля, синонімія, антонімія і полісемія у лексичній семантиці, показує органічний взаємозв’язок синтаксичних і семантичних характеристик дієслова. Аналіз і систематизація наявних, а також конструювання нових електронних словників тезаурусного типу сприяють становленню поняттєвого апарату, методології та структури такого якісно нового підрозділу української лексикографії, як комп’ютерна.

Практична цінність дисертації полягає у розробленні методики формалізованого представлення значення дієслова та алгоритмізованого укладання комп’ютерного тезауруса дієслів української мови. Ця методика може бути екстрапольована у сферу конструювання аналогічних словників для дієслів іншої семантики, а також лексики інших частин мови (із певними модифікаціями). Укладений у такий спосіб КТ надає користувачам систематизовану інформацію про українські дієслова ЛСП мовлення, є корисним для дидактики української мови в різнотипних середовищах, може бути використаний як частина інших автоматизованих інтелектуальних систем, а також як засіб лінгвостилістичних досліджень.

Отримані результати, відповідно, можуть знайти відображення в лекціях, спецкурсах і спецсемінарах з проблем комп’ютерної ідеографії. Вони важливі для розвитку прикладної лінгвістики в цілому як логічне продовження її теоретико-методологічних засад, заснованих на глибокому симбіозі класичних лінгвістичних теорій і новітніх комп’ютерних технологій.

Апробація роботи. Основні положення та результати дослідження доповідалися на 9 конференціях: ІІ Міжнародній конференції “Актуальні проблеми металінгвістики” (Черкаський державний університет імені Богдана Хмельницького, 13 – листопада 2001 року); Міжнародній лінгвістичній конференції на честь 80-річного ювілею професора І. К. Кучеренка і професора Н. І. Тоцької (Інститут філології Київського національного університету імені Тараса Шевченка, 20 – листопада 2003 року); Міжнародній науковій конференції “Семіотика культури/тексту в етнонаціональних картинах світу” (Інститут філології Київського національного університету імені Тараса Шевченка, 14 квітня 2004 року); Міжнародній науковій конференції “Tekstai ir kontekstai: kalbos judesys” (“Тексти і контексти: рух мови”), яка проводилася на базі Каунаського гуманітарного факультету Вільнюського університету (Литва) 6 – травня 2004 року; Міжнародній науковій конференції “Мови та літератури народів світу в контексті глобалізації” (Інститут філології Київського національного університету імені Тараса Шевченка, 12 квітня 2005 року); Міжнародній науковій конференції “Современные проблемы лексикографии” (“Сучасні проблеми лексикографії”), яка відбулася в Гродненському державному університеті імені Янки Купали (Республіка Білорусь) 18 – квітня 2005 року; Міжнародній науковій конференції “Київські філологічні школи: історико-теоретичний спадок і сучасність” (Інститут філології Київського національного університету імені Тараса Шевченка, 11 жовтня 2005 року); ІІ Міжнародній науково-практичній конференції “Проблеми прикладної лінгвістики” (Одеський національний університет імені І. І. Мечникова, 21 – жовтня 2005 року); Міжнародній науковій конференції “Мова як світ світів. Граматика і поетика української мови” (Інститут філології Київського національного університету імені Тараса Шевченка, 21 – лютого 2006 року).

Публікації. Теоретичні положення та практичні здобутки дисертації викладено в 9 статтях, 7 з яких опубліковані у провідних фахових наукових виданнях України та в зарубіжних лінгвістичних виданнях.

Структура та обсяг дисертації. Робота складається зі вступу, 5 розділів, де викладено основний зміст дослідження, висновків, списку використаної літератури (кількість найменувань складає 237 позицій) загальним обсягом 179 сторінок та 5 додатків обсягом 22 сторінки.

Ключові слова: комп’ютерна ідеографія, ідеографічний словник, тезаурус, синоптична схема, формалізація семантики дієслова, алгоритм, дієслово, лексико-семантичний варіант, семантичне поле, сема, гіпонімія, синонімія.

ОСНОВНИЙ ЗМІСТ РОБОТИ

У вступі обґрунтовано вибір і актуальність теми дисертації, визначено мету, завдання роботи, названо об’єкт і предмет вивчення, охарактеризовано теоретичне і практичне значення результатів дослідження та наукову новизну роботи.

Перший розділ “Теорія і практика укладання тезаурусів у вітчизняній і зарубіжній лінгвістиці: аналіз і перспективи” присвячений огляду літератури з лінгвістичної семантики та лексикографії, зокрема з’ясуванню проблем обсягу понять і вживання термінів “тезаурус” та “ідеографічний словник”. Окрім того, розглядаються особливості загальномовних тезаурусів і їхніх електронних версій як такого типу словників, до яких відноситься створений нами тезаурус, а також звертається увага на роль комп’ютера в процесі укладання та представлення лексикографічних продуктів. Результати роботи над світовим тезаурусним матеріалом свідчать про значний та багатогранний досвід тезаурусотворення за кордоном і початки цієї справи на теренах слов’янської лексикографії та української зокрема. Аналіз та систематизація наявних у бібліотеках та в мережі Інтернет 15 паперових і більш ніж 50 комп’ютерних словників дає нам можливість узагальнити результати моніторингу у:

класифікації комп’ютерних тезаурусів (за такими трьома загальними характеристиками, як тематична спрямованість, мова виконання та повнота викладу);

систематизації термінології з комп’ютерної лексикографії та ідеографії у вигляді спеціалізованого тезауруса (додаток А дисертації);

напрацюванні теоретичних і технологічних засад для створення власної формалізованої методики укладання комп’ютерного тезауруса дієслів української мови.

Розроблення методики укладання тезауруса для української мови на сьогодні є надзвичайно актуальним. Причому саме комп’ютерного тезауруса як електронного загальномовного словника неалфавітного типу, в якому експліцитно відображені системні семантичні відношення між одиницями. Саме він знаходиться в центрі уваги такого підрозділу комп’ютерної лексикографії, як комп’ютерна ідеографія. Зрозуміло, що формалізація та комп’ютеризація лексикографічних і лексико-семантичних продуктів є одним із важливих завдань сучасної лексикографії. Усі переваги користування електронними словниками закладаються у процесі створення для них лінгвістичних баз даних, у високому ступені формалізації лексичної семантики одиниць, а також у формалізації (алгоритмізації) самого процесу укладання словника.

У другому розділі дисертації “Блок-схема побудови комп’ютерного тезауруса. Специфіка ідеографічного представлення дієслівної лексики” подано загальний огляд проекту укладання комп’ютерного тезауруса української мови з акцентом на лінгвістичні проблеми опису дієслівної лексики. Увагу зосереджено на проблемах представлення дієслів у комп’ютерному тезаурусі, зокрема тих, що належать до лексико-семантичного поля мовленнєвої діяльності. Розглядаються особливості семантики дієслова як підґрунтя для побудови ЛСП дієслів мовленнєвої діяльності, дієслівних словникових статей та їхньої організації у комп’ютерному тезаурусі. Результати дослідження свідчать, що методика аналізу дієслівної лексики суттєво відрізняється від аналізу інших частин мови, зокрема іменників як основних представників предметної лексики. Оскільки у значенні дієслова переважає сигніфікативна семантика і дієслова є представниками предикатної лексики, дієслівне значення не співвідноситься безпосередньо з предметною сферою, а висвітлює процесуально-станові ознаки предметів. Ця особливість впливає на методику опрацювання дієслівного матеріалу, зумовлює її специфіку порівняно з аналогічною роботою над іменниками. Для дієслів більш прийнятна внутрішня, сигніфікативна, заснована на аналізі понять зумовленість вибору концептів; більш адекватним є індуктивний підхід до впорядкування лексем; суттєвого значення набувають відношення, які базуються на словотвірних типах (дериваційна гіпонімія) і валентному потенціалі (основа для міжчастиномовних зв’язків); несуттєвими є відношення типу “частина-ціле”. Усі ці риси відображаються у теоретичних засадах побудови словника, у структурі словникових статей і структурі комп’ютерного тезауруса в цілому як самостійної системи з її внутрішніми зв’язками і багаторівневою організацією. Хоча загальна структура словникової статті для іменників і дієслів є однотипною і складається з трьох частин (заголовного слова та лексем, пов’язаних із ним відношеннями внутрі- та міжчастиномовними), на глибшому рівні відбувається досить суттєва диференціація. Поряд з наявністю дієслів, поєднаних синонімічними, антонімічними та родо-видовими відношеннями (що характерно також і для іменників), для дієслів характерні, зокрема, частотність фонетичних варіантів, розгалужена сітка деривативних відношень, які базуються на семантиці родів дії; мережа відношень на базі дієслівного валентного потенціалу та залежність структури словникової статті від словотвірної будови дієслова.

Теоретичні постулати дослідження були трансформовані у низку завдань, послідовне виконання яких привело до поставленої мети. У підсумку створена чітка послідовність укладання КТ дієслів, яку можна описати у вигляді блоків. У підготовчому блоці формуються теоретична база, корпус матеріалу (у нашому випадку – суцільна вибірка з тлумачного “Словника української мови” дієслів з семою мовлення кількістю близько двох тисяч одиниць) та концепти для ЛСП дієслів мовлення. Основне лінгвістичне опрацювання матеріалу здійснюється у блоці аналізу. Укладається база даних (БД) комп’ютерного тезауруса дієслів за допомогою комплексної процедури, яка включає елементи морфемно-словотвірного аналізу лексем ЛСП, синтаксичного аналізу ілюстративного речення до ЛСВ, синтаксичного аналізу тлумачення ЛСВ, компонентного аналізу тлумачення ЛСВ та ступеневої ідентифікації лексики. Результатом такого комплексного аналізу є встановлення відношень між одиницями (гіпонімія, синонімія, антонімія, деривативні та інші типи відношень), на базі яких здійснюється розподіл ЛСВ дієслів за лексико-семантичними групами і лексико-семантичними полями. Ця система ґрунтується на алгоритмічному принципі. Завершальним етапом укладання КТ дієслів є блок синтезу, у межах якого проектуються мікро- і макрорівні комп’ютерного ідеографічного словника. У цьому блоці виконуються такі завдання, як формування макроструктури КТ дієслів (вибудовується синоптична схема тезауруса, проектуються входи у словник); визначення мікроструктури тезауруса (розробляються словникові статті, висвітлюється структура міждієслівних відношень) та розробляються принципи інтеграції дієслівної частини КТ у комп’ютерний тезаурус української мови (на базі міжчастиномовних зв’язків дієслова).

Дослідження специфіки дієслівної лексики та розробка блок-схеми опрацювання ЛСВ дієслів є необхідним етапом для вирішення лінгвістичних завдань побудови бази даних та синоптичної схеми КТ.

Третій розділ “Укладання бази даних комп’ютерного тезауруса дієслів української мови” присвячено розгляду лінгвістичних проблем створення бази даних для комп’ютерного тезауруса дієслів, аналізу його одиниць та відношень між ними. Для концептуального впорядкування дієслів ЛСП мовленнєвої діяльності була розроблена спеціальна методика. Було випробувано декілька підходів, перш ніж зупинитися на представленій у роботі аналітичній послідовності. У результаті слова було вирішено розподіляти по групах тезауруса з урахуванням їхнього семного складу, який визначався внаслідок застосування методів компонентного аналізу та ступеневої ідентифікації лексико-семантичних значень дієслів мовленнєвої діяльності. У процесі дослідження лексико-семантичного поля дієслів мовлення і його структури нами було опрацьовано близько 2 пов’язаних між собою різного типу відношеннями лексико-семантичних дієслівних варіантів. Послідовність роботи було алгоритмічно представлено як блок-схему аналізу ЛСВ дієслів мовленнєвої діяльності і узагальнено у вигляді блок-схеми розподілу дієслів за лексико-семантичними групами комп’ютерного тезауруса дієслів української мови (додаток Б дисертації). Послідовність роботи така: з алфавітного списку ЛСВ береться перше значення (у нашому випадку це було базікати 1) і за допомогою компонентного аналізу в його тлумаченні “говорити багато, беззмістовно, про неістотне” шляхом ступеневої ідентифікації виділяються концептуальна сема “говорити” й диференційна сема “багато, беззмістовно, про неістотне”. Оскільки концептуальна сема безпосередньо належить до семантичного поля мовлення, дієслово зараховується до його ядра і стає умовним репрезентантом лексико-семантичної групи, значення якої виражене диференційною семою. Семна структура вказаного ЛСВ “говорити + багато, беззмістовно, про неістотне” стає узагальненою схемою відповідної ЛСГ “говорити + певним чином”.

Структуру усіх подальших дієслівних значень порівнюємо з попередньо визначеними: якщо відбувається накладання структури (наприклад, просторікувати 1 з тлумаченням “багато, часто беззмістовно говорити”, відповідною семною структурою “говорити + багато, часто беззмістовно” і тотожною до базікати 1 схемою “говорити + певним чином”), то лексико-семантичний варіант зараховуємо до вже визначеної ЛСГ. Якщо ж відповідної семної структури ще немає, створюємо нову ЛСГ на чолі з тим значенням, яке стало першим репрезентантом цієї схеми (наприклад, карбувати 1 з тлумаченням “чітко вимовляти”, семною структурою “вимовляти + чітко” і тотожною до базікати 1 схемою “говорити + певним чином”).

Якщо концептуальна сема не належить до ЛСП мовлення, то ЛСВ зараховуємо до периферії вказаного ЛСП (наприклад, 1 “ведучи попередні розмови, переговори, досягати певної умови, вирішувати щось”, 1 – “зневажливим висловлюванням, негарним вчинком завдавати кому-небудь образи, душевного болю, моральної травми”) і після об’єднання програмою ЛСГ в мікрополя за схожістю диференційних сем йдемо на вихід, якщо це було останнє значення, яке потребує аналізу. Якщо ж ні, то повертаємося на початок алгоритму. Цей етап циклу не є остаточним, оскільки під концептами об’єднується лексика, яка ще потребує подальшої семантичної диференціації. Тому після проходження списку до кінця ту ж процедуру повторюємо стосовно кожної з утворених лексико-семантичних груп, доки кожне з представлених значень не знайде свою нішу в межах ядра ЛСП мовленнєвої діяльності або на його периферії.

Подальші рівні ієрархізації будуються аналогічно: об’єктом розгляду стає виділена на попередньому рівні аналізу диференційна сема. Шляхом порівняння її структури і змісту з іншими семами концепту визначаємо, чи піддається сема подальшому розчленуванню на дрібніші компоненти. Якщо знаходимо подібні, то формуємо новий рівень відповідно до алгоритму. Наприклад, маємо на вході п’ять ЛСВ, які є представниками концепту “особливості мовлення”, з тлумаченнями: бубніти 1 (говорити нерозбірливо), гугнявити 1 (говорити нерозбірливо у ніс), лопотіти 3 (говорити нерозбірливо, безладно, плутано), мекати 2 (говорити нерозбірливо, розтягуючи слова і вставляючи між ними звуки “мм”, “ме”), шамкати 1 (говорити нерозбірливо, невиразно, злегка шепелявлячи). На семному рівні структура ЛСВ виглядає так: бубніти 1 (говорити + нерозбірливо), гугнявити 1 (говорити + нерозбірливо + у ніс), лопотіти 3 (говорити + нерозбірливо + безладно, плутано), мекати 2 (говорити + нерозбірливо + розтягуючи слова і вставляючи між ними звуки “мм”, “ме”), шамкати 1 (говорити + нерозбірливо + невиразно, злегка шепелявлячи). Результат впорядкування дієслівного матеріалу за 4 концептами “Висловлення думки / почуття”, “Обмін думками”, “Особливості вимови” та “Повідомлення інформації” представлено в додатку В дисертації. Фрагмент структури концепту “Особливості мовлення” ЛСП мовленнєвої діяльності другого рівня ієрархізації (відношення гіпонімії) виглядає так:

(концепт, 2 рівень ієрархізації; типова структура - “говорити певним чином”, “вимовляти щось”)

1 (3-й рівень ієрархізації; диференційна сема – нерозбірливо)

1 (4-й рівень ієрархізації; диференційна сема –у ніс)

лопотіти 3 (4-й рівень ієрархізації; диференційна сема – безладно, плутано)

2 (4-й рівень ієрархізації; диференційна сема – розтягуючи слова і вставляючи між ними звуки “мм”, “ме”)

шамкати 1 (4-й рівень ієрархізації; диференційна сема – невиразно, злегка шепелявлячи)

Для ЛСВ багатозначних дієслів саме розбіжність у концептах є визначальною у знаходженні свого місця у ЛСП мовлення. Можна порівняти дві тотожні за репрезентативним дієсловом ЛСГ – шепотіти 1 зі схемою “говорити + тихо / пошепки” і шепотіти 2 зі схемою “розмовляти + тихо / пошепки”. Розташування вказаних груп у гіперо-гіпонімічній сітці поля визначається за концептуальними семами, що мають різні характеристики спрямованості мовлення. Однаковий для обох ЛСГ компонент “тихо/пошепки” є диференційною семою, тому не є вирішальним для позиціонування групи.

Аналіз дієслів, які після проходження через алгоритм опинилися на периферії ЛСП мовлення, був проведений за такою ж послідовністю, як і для поля мовлення, тільки зі зміною концептуальної семи. Це свідчить про стандартність розробленої процедури аналізу і доводить можливість використання його на всьому дієслівному масиві, з уточненнями, за потреби, для імовірних ускладнених випадків.

Результати аналізу дієслівних ЛСВ дають підстави стверджувати, що лексема у певному значенні може належати до декількох ЛСП за своєю природою, маючи при цьому різний статус, перебуваючи на різних рівнях віддаленості від ядра ЛСП. Наприклад, і до ЛСП мовленнєвої діяльності (ядра), і до ЛСП емоційної характеристики мовлення (периферії) відносяться дієслова типу огризатися “відповідати у різкій, грубій формі”.

У процесі укладання тезауруса конкретизовано поняття родо-видових, синонімічних й антонімічних відношень, які стали основними структурувальними чинниками семантичного поля мовлення. З’ясувалося, що більшість семантичних зв'язків між дієсловами є міжрівневими (гіпонімія). Однорівневі зв’язки (синонімія, антонімія) трапляються рідше, ніж прийнято вважати. Частині слів, яка у синонімічних та фразеологічних словниках визначається як синоніми, у процесі аналізу були приписані інші типи зв’язків. Зокрема стилістичні та семантико-стилістичні синоніми були визначені як родо-видові пари з семами стилістичного чи емоційного забарвлення (говорити – верзти , говорити – ректи ). У результаті роботи було виявлено також низку лексико-семантичних закономірностей. Зокрема, типові для дієслів гіперо-гіпонімічні зв’язки можна формалізовано представити як поєднання між собою дієслівних значень різного рівня, різниця між якими зумовлюється наявністю у видового поняття семи, яка є конкретизатором родового поняття (вивідувати 1 ‘розпитувати про щось’ > допитувати 1 ‘наполегливо розпитувати про щось’ > допитати 2 ‘наполегливо розпитати про щось’). У синонімічні групи об’єдналися не емпірично встановлені значення лексем, а тільки ті, у яких на одному з глибших рівнів підпорядкування простежується ідентичний набір сем (наголошувати 1 ‘силою голосу чи підвищенням тону вирізняти склад у слові або слово в реченні’ – акцентувати 1, бурчати 2 ‘говорити невиразно, нерозбірливо’ – буркотати 2 – буркотіти 2). Когіпонімічними зв’язками поєднуються ті значення, у яких на одному рівні підпорядкування наявна різниця у дві семи: гугнявити 1 ‘говорити нерозбірливо, у ніс’ – шамкати 1 ‘нерозбірливо, невиразно, злегка шепелявлячи’. Антонімічні відношення виникають між одиницями одного рівня, у семній структурі яких наявна розбіжність в одну сему, яка стосується наявності-відсутності певної характеристики (говорити 2 – мовчати 1 ‘нічого не говорити’).

Аналіз морфемної структури ЛСВ дієслів мовлення та мережі деривативних зв’язків у КТ дав можливість виділити 12 родів дії: початку дії (защебетати), кінця дії (добалакати), тривалої обмежувальної дії (поговорити), делімітативної інтенсивної дії (попокричати), тривалої закінченої дії (пророкотати), накопичувальної дії (наговорити), однократної дії (гаркнути), оберненої дії (здоровкатися), тривалої періодичної дії (поговорювати), наростаючої дії (розжартуватися), насичувальної дії (наговоритися), надмірної завершеної дії (добалакатися). А також зробити ряд висновків щодо впливу морфемної структури дієслівного ЛСВ на розгалуженість його зв’язків з іншими ЛСВ та рівень його ієрархізації. Похідні дієслова, на відміну від непохідних, знаходяться на різних словотвірних тактах, далі від кореня словотвірного гнізда, і мають нижчу словотвірну продуктивність. Вони часто самі належать до категорії ДРД через їхню ускладнену семантику (зазвичай це значення твірного дієслова, яке також може бути похідним, з додаванням семантики форманта, що виражає нове значення за мутаційним чи модифікаційним типом). Це відбивається й на структурі ідеографічного словника: похідні дієслова знаходяться на глибших семантичних рівнях ієрархізації ЛСП мовлення. Міжчастиномовні деривативні зв’язки виконують ще одну важливу роль у тезаурусотворчій роботі. За їхньою допомогою відбувається інтеграція дієслівної частини словника у загальний тезаурус шляхом фіксації 7 типів міжчастиномовних рольових відношень, що характерні для дієслова за його валентними характеристиками: “дія – суб’єкт” (щебетати – щебетуха), “дія – інструмент” (мовити – мова), “дія – продукт” (видумувати – видумка), “дія – процес” (фантазувати – фантазування), “дія – місце” (говорити – говорильня), “дія – атрибут” (балакати – балакучий), “дія – спосіб” (мовчати – мовчки). Можливість формалізації багатьох процесів обробки лінгвістичного матеріалу, за допомогою яких синтезується семантична структура ЛСП мовлення, також є надзвичайно важливою для конструювання КТ.

Четвертий розділ “Побудова дієслівної статті та синоптичної схеми комп’ютерного ідеографічного словника” окреслює завершальний етап укладання комп’ютерного тезауруса дієслів української мови. Блок синтезу базується на результатах блоку аналізу і передбачає визначення мікроструктури тезауруса (розроблення словникової статті, висвітлення структури міждієслівних відношень), формування макроструктури КТ дієслів (побудову синоптичної схеми ЛСП мовленнєвої діяльності у рамках комп’ютерного тезауруса), проектування входів у комп’ютерний словник та інтеграції дієслівної частини КТ у комп’ютерний тезаурус української мови (на базі міжчастиномовних зв’язків дієслова). У цьому блоці розроблено систему пошуку лінгвістичної інформації в комп’ютерному ідеографічному словнику.

Словникова стаття КТ з огляду на специфіку опису матеріалу (концепти і ЛСВ дієслів) має два основні різновиди, які можна визначити як макростаттю і мікростаттю. Макростаття комп’ютерного тезауруса – словникова стаття ідеографічного словника, у якій роль заголовного слова виконує концепт, виражений словосполученням (сполученням слів). Макростаття має рівневу структуру: це класи та підкласи лексем, що виражаються власними (рівневими) концептами синоптичної схеми, які репрезентуються конкретними лексико-семантичними варіантами дієслів мовлення: “о” – вимовляти 1, говорити 2; “висловлення думки/почуття” – висловлювати; “обмін думками” – розмовляти 1, говорити 3; “повідомлення інформації” – повідомляти 1, розповідати 1. Зміст рівневих концептів розкривається через ЛСВ дієслів, що зібрані у відповідних мікростаттях тезауруса. Мікростаття комп’ютерного тезауруса – словникова стаття ідеографічного словника, заголовним словом якої є ЛСВ. Стаття містить інформацію про відношення між її заголовним словом та іншими ЛСВ тезауруса. Саме у мікростатті КТ відбувається семантизація заголовної одиниці (безпосередньо ЛСВ або концепту за посередництва дієслова-репрезентанта). У макростатті комп’ютерного тезауруса семантизація відбувається як за допомогою синоптичної схеми, так і шляхом тлумачень, уміщених у мікростатті. Наприклад, значення ЛСВ засуджувати 1 знаходиться у межах концептів “висловлення думки /почуття” та “осуд”, а також семантизується за допомогою тлумачення “висловлювати осуд”. Така подвійна семантизація, яка відбувається фактично за рахунок поєднання ідеографічного та тлумачного підходів до лексикографування, робить більш зрозумілою структуру словника і полегшує пошук лінгвістичної інформації без додавання складної для пересічного користувача системи нумерації, прийнятої в укладачів традиційних ідеографічних словників. Окрім того, поєднання тлумачного й ідеографічного підходів дає можливість вести мову про суміщення принципів лексикографування, про паралельне укладання цих словників з метою забезпечення об’єктивності поданої у них лінгвістичної інформації та чіткого виконання завдань, передбачуваних для словників-тезаурусів.

Відношення між ЛСВ комп’ютерного тезауруса описуються в окремих зонах. У мікростатті комп’ютерного тезауруса дієслів наявні 5 зон, чотири з яких представлені такими основними видами лексико-семантичних відношень, як гіпонімія, синонімія, антонімія та відношення роду дії, а п’ята репрезентує ЛСВ або групи, у яких сема, що стосується мовлення, не є концептуальною, тобто знаходиться на периферії значення. Наприклад, у словниковій статті до ЛСВ вимовляти 1 ‘передавати голосом звуки, слова чужої мови, говорити певним чином’ подаються ЛСВ-гіпернім, 35 гіпонімів (базікати 1, басити 1, бевкати 1, бубніти 1, випалювати 2, витискувати 1, вишкірятися 2, відрубувати 2, вставляти 2, гаркавити 1, грубіянити 1, джеркотати 2, диктувати 2, жартувати 1, жартувати 2, забалакуватися 2, заговорюватися 1, закидати 5, карбувати 1, кричати 2, мугикати 2, мурмотіти 1, натякати 1, повторювати 1, рокотати 3, рубати 5, сичати 1, скрипіти 1, співати 7, стогнати 2, тягнути 1, хрипіти 3, шепелявити 1, шепотіти 1, шипіти 1); 1 синонім (проговорювати 1); 1 дієслово кінця дії (промовити 2); 1 дієслово тривалої закінченої дії (проговорити 1); 1 дієслово однократної дії (вимовити 1) та ЛСВ оберненої дії (вимовлятися 1). Кожна зона позначається на екрані своїм фоновим кольором. За такого підходу можна говорити про конвергенцію синонімічного, антонімічного, тлумачного та ідеографічного словників, завдяки чому КТ дозволяє систематизувати різнобічну лінгвістичну інформацію.

Мікростаття дієслів у КТ може бути або тільки дієслівною (проста), або внаслідок інтеграції дієслівної частини КТ у комп’ютерний тезаурус української мови розширюватися відношеннями дієслова з похідною іменниковою, прикметниковою (дієприкметниковою) та прислівниковою (дієприслівниковою) лексикою (розширена). Базою виникнення таких відношень є наявність додаткових сем у структурі ЛСВ інших частин мови: "діяч", "інструмент дії", "продукт дії", "процес", "місце, де відбувається дія", "субстантивована дія, абстракція", "той, що характеризується дією", "відповідно до якостей дії". Ці відношення формують додаткові 3 зони у мікростатті КТ: зону субстантивів (будується на основі відношень дієслова й іменника), зону атрибутивів (ґрунтується на зв’язках дієслова й прикметника або дієприкметника) та зону адвербативів (базується на відношеннях між дієсловом і прислівником або дієприслівником). Таким чином, вигляд зонної структури варіюється залежно від мети: розширена дієслівна мікростаття КТ української мови містить усю дієслівну інформацію простої мікростатті КТ дієслів, а також дані про міжчастиномовні відношення дієслова.

Особливістю проектованої версії тезауруса є те, що у ній передбачене представлення дієслівної підсистеми у вигляді ієрархічно впорядкованого дерева відношень між ЛСВ (додаток В дисертації). З дослідницькою метою може бути сформований як алфавітний перелік ЛСВ дієслів бази даних, так і алфавітний перелік концептів. У спеціально укладеному алфавітному покажчику ЛСВ та концептів загалом немає потреби, оскільки за допомогою наявної у комп’ютерній програмі тезауруса пошукової системи користувач може знайти введене слово у базі даних за лічені секунди. У цілому можна окреслити чотири способи віднайдення потрібної лінгвістичної інформації у КТ: від загальної схеми понять до інших понять та ЛСВ (відповідає синоптичній схемі); від певної понятійної зони, концепту до конкретного ЛСВ дієслова; від синонімів, родових чи видових понять, родів дії тощо до ЛСВ (за синоптичною сіткою відношень між ЛСВ) та від слова до поняття (алфавітний вхід).

Побудова синоптичної схеми КТ досягається шляхом використання дедуктивного та індуктивного методів, які на певному етапі перетинаються, уточнюючи та доповнюючи один одного й утворюючи загальну структуру об’єктивної дійсності, яка відображається синоптичною схемою комп’ютерного тезауруса української мови. На засадах дедуктивного підходу відбувався як вибір матеріалу дослідження (дієслів ЛСП, об’єднаних категоріальною ознакою мовленнєвої діяльності), так і низки диференційних ознак, за якими гіпотетично повинні були розподілятися дієслівні значення. Уявлення про зміст і структуру концепту мовленнєвої діяльності було поглиблене застосуванням індуктивного підходу, за допомогою якого концепт "говорити" був деталізований шляхом виділення чотирьох концептів другого рівня, які уточнюють умови та способи перебігу процесу мовлення: “вимовляти певним чином”, “висловлювати думку чи почуття”, “повідомляти інформацію”, “розмовляти між собою”. Ці чотири основні способи мовленнєвої передачі інформації стали базовими для синоптичної схеми ЛСП мовлення, а дієслова вимовляти, висловлювати, повідомляти і розмовляти з тотожними до концептів значеннями стали їхніми репрезентантами. Детальна інвентаризація лексико-семантичних ознак, які у значеннях дієслів мовлення уточнюють категоріально-лексичну ознаку "говорити", дозволила виділити низку диференційних ознак, з яких 42 стосуються способу вимови, 21 – висловлення певної думки чи почуття, 24 — способу повідомлення інформації, 4 — обміну інформацією. Поєднавши отримані диференційні ознаки з категоріальною ознакою "говорити", ми отримали зміст концептів третього рівня, на яких базуються словникові статті. Під час наступного етапу аналізу відбувається подальша конкретизація синоптичної схеми як через співвіднесення узагальнюючих схем лексико-семантичних груп, так і шляхом порівняння схем лексико-семантичних варіантів у межах підгруп і виділення диференційних сем глибших рівнів.

Як результат інтеграції КТ дієслів у КТ української мови спроектовано загальну структуру комп’ютерного тезауруса, що складається з трьох базових компонентів: синоптичної схеми, власне ідеографічної частини (мікро-і макростатті) та пошукової системи, яка виконує функції алфавітного та пермутаційного покажчиків.

П’ятий розділ “Аналіз художнього тексту за допомогою комп’ютерного тезауруса дієслів” присвячено експериментальному застосуванню створеного КТ. Це порівняльний аналіз авторських художніх текстів за допомогою тезаурусного поля дієслів мовленнєвої діяльності на основі кількісних і якісних характеристик дієслівних складових ЛСП мовлення. Основним об’єктом дослідження стали ЛСВ дієслів мовленнєвої діяльності з комп’ютерної бази даних поетичних текстів письменників другої половини ХХ століття Василя Стуса та Ліни Костенко. Двох авторів однієї історичної епохи було обрано для того, щоб перевірити гіпотезу про те, що найбільш часто повторювані одиниці текстів одного автора є характерними тільки для нього, а не, приміром, для певної епохи або низки авторів одного літературного напрямку. Обидві вибірки містять по 20 тисяч слововживань.

Дієслова мовленнєвої діяльності були виокремлені з поетичних текстів за допомогою аналогічного концепту комп’ютерного тезауруса дієслів української мови. Спосіб побудови КТ передбачає можливість його інтеграції з різними програмами, зокрема автоматичне накладання ієрархічної структури бази даних описуваного словника на текстові масиви. В результаті стало можливим автоматичне структурування інформації з частотних словників поетів з допомогою комп’ютерного тезауруса.

Використання КТ у поєднанні зі статистичними даними частотних словників дало змогу помітити деякі лексичні особливості двох вищезгаданих поетів, які не могли бути виявлені простим зіставленням частотних характеристик лексем обох вибірок. Так, якщо використовувати лише кількісні характеристики слів з частотного словника, можна побачити, що, наприклад, дієслово “кричати” майже втричі частіше вживається у поетичних текстах Л.Костенко (порівняно з текстами В.Стуса). Якщо зіставити цей результат з частотними характеристиками дієслова “говорити” (15 проти 1 у В.Стуса), можна зробити висновок, що поетеса віддає перевагу вживанню лексем саме цієї групи на противагу антонімічному “мовчати”, яке у Л.Костенко трапилося лише 6 разів проти 26 – у В.Стуса. Й інтерпретувати це як стильову “відкритість”, “відвертість” Л.Костенко і “закритість”, “мовчазність”, “суворість” В.Стуса. У результаті застосування тезауруса до аналізу текстових масивів та розмежування полісемантичних і омонімічних значень ми отримуємо інші, чи не протилежні дані, які можуть бути підставою для спростування попередніх гіпотез: В.Стус вражає нас своїм “мовчазним криком”, а Л.Костенко – насправді “закритою відвертістю”. Результати експерименту свідчать про широке застосування В. Стусом формально різних дієслівних лексем на позначення споріднених понять, поєднаних між собою синонімічними і родо-видовими зв’язками. Тоді як Л.Костенко віддає перевагу частому вживанню порівняно невеликої кількості синонімів.

Таким чином, суттєвою перевагою поєднання тлумачного й ідеографічного опису під час лексикографування поетичного ідіолекту є можливість висвітлити притаманні йому системні зв’язки та їхню кореляцію з аналогічними зв’язками й ієрархічними відношеннями, характерними для мовної системи в цілому. А додання статистичних даних дозволяє ще повніше схарактеризувати авторську мову (зокрема спростувати чи підтвердити попередні результати її аналізу) за якісними і кількісними параметрами. Якщо частотний словник дає базову лексико-статистичну інформацію про лексеми, то тезаурус поета дає можливість сягнути глибшого семантичного рівня, оскільки є найтоншим інструментом аналізу значення.

У Висновках узагальнюються лінгвометодичні та технологічні засади створення ідеографічних словників з акцентом на укладанні КТ дієслів.

1. Методологічні постулати дослідження зумовили формування відповідної методики формалізованого (алгоритмізованого) конструювання загальномовного тезауруса. Розроблено чітку послідовність укладання КТ дієслів, описану у вигляді блоків, кожен з яких містить низку завдань (підготовчий блок, блок аналізу,


Сторінки: 1 2





Наступні 7 робіт по вашій темі:

ФІНАНСОВА СТІЙКІСТЬ СІЛЬСЬКОГОСПОДАРСЬКИХ ПІДПРИЄМСТВ: діагноз, ОЦІНКА, ПРОГНОЗ - Автореферат - 26 Стр.
Гігієнічна оцінка техногенно підсилених радіоактивних джерел природного походження, що утворюються на підприємствах нафтогазовидобувної промисловості Полтавської області - Автореферат - 27 Стр.
ГОРИЗОНТ СПОДІВАНЬ ТА ЙОГО ФУНКЦІОНУВАННЯ В ЛІТЕРАТУРНОМУ ПРОЦЕСІ (на матеріалі української літератури 20-30-х років ХХ ст.) - Автореферат - 27 Стр.
ПРИМИРЕННЯ СТОРІН У КРИМІНАЛЬНОМУ ПРОЦЕСІ УКРАЇНИ - Автореферат - 27 Стр.
ІрЛАНДСЬКИЙ АВТОНОМІЗМ У РОКИ ПЕРШОЇ СВІТОВОЇ ВІЙНИ: ПОЗИЦІЯ ПАРТІЇ ГОМРУЛЯ ТА ПОЛІТИКА БРИТАНСЬКИХ УРЯДІВ - Автореферат - 24 Стр.
СТАН СТРУКТУРНОЇ ОРГАНІЗАЦІЇ БЕЗХРЕБЕТНИХ ТВАРИН ПІДСТИЛКИ СТЕПОВИХ ЛІСІВ В УМОВАХ ПРОМИСЛОВОГО ЗАБРУДНЕННЯ - Автореферат - 28 Стр.
Комплексно-легована Цементувальна сталь з мінімальними поводками при термічній обробці - Автореферат - 28 Стр.