У нас: 141825 рефератів
Щойно додані Реферати Тор 100
Скористайтеся пошуком, наприклад Реферат        Грубий пошук Точний пошук
Вхід в абонемент





КИЇВСЬКИЙ НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ

КИЇВСЬКИЙ НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ

імені ТАРАСА ШЕВЧЕНКА

ДЕРБА Світлана Миколаївна

УДК 811.161.2:81’322.5

УКРАЇНСЬКА ТЕРМІНОЛОГІЯ В ГАЛУЗІ ПРИКЛАДНОЇ (КОМП’ЮТЕРНОЇ) ЛІНГВІСТИКИ

(логіко-лінгвістичний аналіз)

10.02.01 – українська мова

Автореферат

дисертації на здобуття наукового ступеня

кандидата філологічних наук

Київ – 2007

Дисертацією є рукопис.

Роботу виконано на кафедрі сучасної української мови Інституту філології Київського національного університету імені Тараса Шевченка.

Науковий керівник: кандидат філологічних наук, доцент

Алексієнко Людмила Антонівна

Інститут філології Київського національного

університету імені Тараса Шевченка,

доцент кафедри сучасної української мови.

Офіційні опоненти: доктор філологічних наук, професор

Струганець Любов Василівна

Тернопільський національний педагогічний

університет імені Володимира Гнатюка,

завідувач кафедри методики викладання української

мови і культури мовлення;

кандидат філологічних наук

Романюк Юлія Віталіївна

Інститут мовознавства

ім. Олександра Потебні НАН України,

науковий співробітник

відділу структурно-математичної лінгвістики

Захист відбудеться “__”_________ 200 року о ___ годині на засіданні спеціалізованої вченої ради Д 26.001.19 Київського національного університету імені Тараса Шевченка (01033, м. Київ, бульвар Тараса Шевченка, 14, к. 63).

З дисертацією можна ознайомитися в Науковій бібліотеці імені М. Максимовича Київського національного університету імені Тараса Шевченка (01601, м. Київ, вул. Володимирська, 58, к. 12).

Автореферат розіслано “__”_________ 200 року.

Учений секретар

спеціалізованої вченої ради доц. Л. П. Гнатюк

ЗАГАЛЬНА ХАРАКТЕРИСТИКА ДИСЕРТАЦІЇ

Актуальність теми. Українська термінологія з прикладної (комп’ютерної) лінгвістики функціонує у спеціальних текстах, присвячених автоматизованим системам на базі природних мов, і є метамовою фахової комунікації у цій відносно новій предметній галузі.

Термінологія лінгвістики, зокрема прикладної, починаючи з 70 років ХХ століття, стала предметом семантичного й логічного аналізу в працях багатьох вітчизняних і зарубіжних дослідників, що сприяло вдосконаленню методичної та інформаційно-технологічної бази сучасної термінографії (О. Ахманова, Ю. Караулов, С. Шелов, Н. Леонтьєва, С. Нікітіна, Л. Пшенична, Е. Скороходько, А. Черний, Ю. Шрейдер, Т. Кияк, Б. Харріс, Е. Сайнз, Р. Ласковські, Дж. Спарк, М. Кей та ін.).

Українська термінологія комп’ютерної лінгвістики досі не була предметом дослідження й лексикографування, незважаючи на те, що українська прикладна лінгвістика успішно розвивається і представлена значною кількістю теоретичних праць, а також автоматизованих систем, створених у науково-дослідних і навчальних закладах України (В. Перебийніс, Л. Орлова, Н. Дарчук, Т. Грязнухіна, Н. Клименко, Є. Карпіловська, В. Широков, М. Пещак, І. Савченко, В. Крицько, Т. Пуздирєва, Н. Сніжко, А. Середницька, Т. Кияк, Е. Скороходько, Л. Пшенична, Л. Алексієнко, Н. Бардіна, В. Волошин та ін.). Комп’ютерна лінгвістика сформувалася в тісній взаємодії із загальною і структурною лінгвістикою, інформатикою і кібернетикою, що позначилося на якісних характеристиках її метамови та взаємодії з міжгалузевими термінами національного й інтернаціонального фонду. Основні завдання цього дослідження були пов’язані зі створенням реєстру термінів комп’ютерної лінгвістики, їх мовним нормуванням з узгодженням їхніх дефініцій, а також з тезаурусним моделюванням термінології досліджуваної галузі згідно із запитами теорії і практики систем автоматичного перероблення інформації, вираженої текстами. Укладений нами спеціалізований “Словник з української термінології прикладної (комп’ютерної) лінгвістики” належить до ідеографічних, у якому терміни займають своє, чітко визначене місце в загальній логіко-поняттєвій структурі цієї галузі і характеризуються адресами тих семантичних полів (статей, гнізд), в які вони входять. Лексичне наповнення статей словника регулюється такими логіко-семантичними відношеннями, як рід – вид, частина – ціле; синонімія; асоціації, а також поняттєво-дериваційними відношеннями, що вможливлює виявлення структури терміносистеми прикладної (комп’ютерної) лінгвістики (П(К)Л), а також якісно-кількісних особливостей її метамови.

Спеціалізований “Словник з української термінології прикладної (комп’ютерної) лінгвістики” належить до словників комп’ютерного типу, який укладався за підготовленою базою даних і в якому передбачено різні режими його використання: пошук і систематизація інформації; гіпертекстова навігація для з’ясування змісту термінів, використаних у їхніх дефініціях; а також можливість перетворення словника на дослідну, навчальну або фактографічну базу даних. Комп’ютерний спеціалізований словник українських термінів з прикладної (комп’ютерної) лінгвістики репрезентує терміносистему цієї галузі у її сучасному стані, на рівні передових лексикографічних й інформаційних технологій і є першим досвідом її систематизації та стандартування в українській мові.

Актуальність нашого дослідження пов’язана насамперед із спеціальною методикою і лінгво-інформаційними технологіями збирання, стандартування та систематизації термінологій будь-яких новітніх, комплексних предметних галузей знань.

Зв’язок роботи з науковими програмами, планами, темами. Робота над укладанням тезаурусів проводиться групою співробітників лабораторії комп’ютерної лінгвістики Інституту філології Київського національного університету імені Тараса Шевченка в рамках загальної програми кафедри сучасної української мови “Актуальні проблеми розвитку української філології” (01БФ044-01).

Метою дисертаційного дослідження є систематизація української термінології з П(К)Л на основі парадигматичних (тезаурусних) і дериваційних відношень та представлення терміносистеми П(К)Л у вигляді ієрархічно впорядкованого словника термінів з їхніми дефініціями.

Дослідження термінології з П(К)Л тісно пов’язане з рядом теоретичних і практичних питань, які стосуються: шляхів формування термінології з прикладної (комп’ютерної) лінгвістики, зокрема її української версії; проблем аналізу й упорядкування термінології, що знаходиться в стані свого формування; методологічного й методичного обґрунтування термінології П(К)Л як терміносистеми; принципів ефективного лексикографування термінології П(К)Л для практичних потреб комп’ютерної лінгвістики; проблеми організації бази даних для комп’ютерного словника з П(К)Л; проблем мовного й поняттєвого стандартування термінології з прикладної (комп’ютерної) лінгвістики, зокрема української.

Виходячи з мети дисертації і комплексу розглянутих проблем, було сформульовано конкретні завдання: 1) створення української термінологічної бази даних (ТБД) з прикладної (комп’ютерної) лінгвістики; 2) вибір лексикографічних засад і розробка методики укладання термінологічного словника прикладної (комп’ютерної) лінгвістики на основі ТБД; 3) дослідження логіко-семантичних і мовних особливостей українських термінів цієї галузі; 4) створення системи узгоджених дефініцій термінології П(К)Л як дослідження метамови предметної галузі.

Об’єктом дисертаційної роботи є українська термінологія з прикладної (комп’ютерної) лінгвістики.

Предметом – дослідження процесів формування та функціонування термінів П(К)Л у спеціальних текстах; аналіз їхніх мовних і логіко-семантичних особливостей; проблеми систематизації і принципи лексикографування. Такий комплексний підхід уможливив дослідження термінології з прикладної лінгвістики як системи, що є метамовою цієї галузі знань.

Поставлені завдання стосуються опису термінології відносно нової галузі знань – комп’ютерної лінгвістики, що вимагало формулювання й аргументованого доведення низки робочих гіпотез про шляхи формування, взаємодію нової термінології з термінологіями суміжних наук; про баланс інтернаціонального й національного фонду в досліджуваній термінології, про якісні та кількісні його характеристики і пропорції. Так, створення термінологічної бази даних з комп’ютерної лінгвістики було пов’язане з гіпотезою про комплексний характер цієї предметної галузі, основою якої є загальна і структурна лінгвістика, інформатика і кібернетика. Доведення цієї гіпотези спиралося на ряд чинників: на емпіричний аналіз спеціальних текстів, присвячених автоматизованим системам оброблення інформації; на термінологічні словники суміжних предметних галузей; на попередній досвід опису й впорядкування термінологій нових наук, зокрема структурної лінгвістики, кібернетики. В результаті доведення цієї гіпотези була сформульована ідеологія термінологічної бази даних як комплексної ієрархічної структури, створеної термінами власне комп’ютерної лінгвістики, загальної лінгвістики, логіки, кібернетики, інформатики з їхніми дефініціями.

Головною концептуальною гіпотезою нашого дослідження можна вважати таку: комп’ютерна лінгвістика має власну метамову, що являє собою терміносистему, яка функціонує у спеціальних текстах. Доведення цієї гіпотези було пов’язане з виконанням основних завдань дисертації, таких як створення спеціальної методики логіко-семантичного й мовного аналізу термінів і їхніх дефініцій; вибору тезаурусних засад упорядкування термінології; укладання спеціалізованого ідеографічно-тлумачного словника українських термінів з П(К)Л.

Теоретичні гіпотези у поєднанні з методами і прийомами лінгвістичного й логіко-семантичного аналізу термінів покладено в основу нашої методики дослідження й упорядкування термінології П(К)Л. У роботі використовуються методи і прийоми як логічного, так і лінгвістичних аналізів, що необхідно для об’єктивного дослідження термінологічної лексики, зокрема це елементи таких методів: контекстно-лексикографічного (класифікація мовних одиниць); логіко-семантичного (тезаурусне представлення та систематизація термінів); компонентного аналізу (визначення похідності термінів). Указані методи і прийоми можна розглядати як принципи аналізу й лексикографування термінології з прикладної (комп’ютерної) лінгвістики.

Матеріалом для тезауруса з П(К)Л були наукові та навчально-методичні тексти з комп’ютерної лінгвістики. Це теоретичні монографії, термінологічні словники, енциклопедії, довідники й статті, написані провідними спеціалістами як в Україні, так і в інших зарубіжних виданнях російською мовою. Прикладна лінгвістика представлена відомими школами – московською, санкт-петербурзькою, білоруською, отже, терміни часто потрапляють в українську термінологію за допомогою перекладу, калькування або транслітерації з російської мови. Важливим джерелом були підручники з прикладної лінгвістики для ВНЗ, оскільки саме в них подаються чіткі визначення понять і термінів науки. Також джерельна база включала вторинні документи: реферати, анотації, статті відповідної тематики – прикладної (комп’ютерної) лінгвістики (загальний список джерельних матеріалів містить 105 одиниць).

Наукова новизна дисертації полягає в тому, що вперше в українському мовознавстві предметом дослідження виступає українська термінологія з прикладної (комп’ютерної) лінгвістики як комплексний об’єкт аналізу та систематизації за допомогою сучасних методик тезаурусно-поняттєвого представлення знань. Вирішення поставлених завдань здійснено на основі спеціальної методики, яка враховує особливості термінології досліджуваної предметної галузі – її комплексний, міжгалузевий характер, мовну специфіку оформлення термінів, закономірності розвитку терміносистеми та її функціонування у спеціальних текстах. Створена методика є адекватною для аналізу й впорядкування термінологій будь-яких предметних галузей, які знаходяться в стані свого формування. Вперше в українській термінографії створено діючу ідеографічно-тлумачну модель комп’ютерного словника для комплексних терміносистем із зручним інтерфейсом, у якій реалізовано функції систематизації термінології, фактографічні, навчальні та інформаційно-пошукові. Спеціалізований “Словник з української термінології прикладної (комп’ютерної) лінгвістики” має також друковану версію з аналогічним реєстром із термінів (1190 одиниць), систематизованих за алфавітно-гніздовим принципом.

Теоретичне значення дисертаційної роботи визначається тим, що вона є спробою концептуального опису української терміносистеми з П(К)Л шляхом її тезаурусного моделювання. Емпіричний аналіз спеціальних текстів дав можливість сформулювати конструктивні гіпотези про комп’ютерну лінгвістику як комплексну предметну галузь з власною проблематикою і метамовою, представленою її термінологією. Запропонована методика опису термінології нової предметної галузі стала ефективним інструментом для вирішення дослідних завдань завдяки адекватній методологічній основі роботи з термінологією: від спеціальних текстів – до реєстру або термінологічної бази даних – від ТБД до логіко-семантичної та лінгвістичної організації термінологічних гнізд, які перетворюють реєстр на терміносистему. Вибір моделі представлення терміносистем комплексних наук, а також технологій диференціації міжгалузевої термінології є необхідним завданням об’єктивного дослідження терміносистем, які знаходяться в стані свого формування, що реалізовано в дисертаційній роботі і може вважатися одним з її теоретичних досягнень.

Це дослідження також має практичне значення як у сфері української термінографії, так і в галузі комп’ютерної лінгвістики, зокрема у розділах інформаційного пошуку та індексування наукових текстів. Дисертаційне дослідження – його матеріал та дві версії словника – можуть бути використані під час викладання теоретичної і практичної лексикології та термінографії української мови, спецкурсів із спеціальності “Прикладна лінгвістика”, а також як матеріал для навчально-методичних посібників. Дерево залежностей (формалізований словник термінів) є ефективним інструментом для інформаційно-пошукових, експертних систем та систем машинного перекладу.

Апробація роботи. Основні положення та результати дослідження доповідалися на 7 конференціях: Міжнародній науковій конференції “Мови та літератури народів світу в контексті глобалізації” (Інститут філології Київського національного університету імені Тараса Шевченка, 12 квітня 2005 року); Міжнародній науковій конференції “Київські філологічні школи: історико-теоретичний спадок і сучасність” (Інститут філології Київського національного університету імені Тараса Шевченка, 11 жовтня 2005 року); ІІ Міжнародній науково-практичній конференції “Проблеми прикладної лінгвістики” (Одеський національний університет імені І. І. Мечникова, 21 – 22 жовтня 2005 року); Міжнародній науковій конференції “Мова як світ світів. Граматика і поетика української мови” (Інститут філології Київського національного університету імені Тараса Шевченка, 21 – 22 лютого 2006 року); Всеукраїнській науковій конференції “Феномен А. Кримського у світовій науці” (Інститут філології Київського національного університету імені Тараса Шевченка, 18 квітня 2006 року); на Наукових читаннях, присвячених 130-річчю від дня народження професора І. В. Шаровольського (Інститут філології Київського національного університету імені Тараса Шевченка, 3 жовтня 2006 року); Всеукраїнській науковій ювілейній конференції “Концепція нації у творчості І. Франка” (до 150-річчя від дня народження) (Інститут філології Київського національного університету імені Тараса Шевченка, 2 листопада 2006 року).

Публікації. Теоретичні положення та практичні здобутки дисертації викладено в 7 статтях, 5 з яких опубліковані у провідних фахових наукових виданнях України.

Структура та обсяг дисертації. Робота складається зі вступу, 3-ох розділів, у яких викладено основний зміст дослідження, висновків, списку використаної літератури (кількість найменувань складає 292 позиції), списку джерельних матеріалів (кількість найменувань складає 105 позицій) загальним обсягом тексту 162 сторінки та 3 додатків обсягом 342 сторінки.

Ключові слова: прикладна (комп’ютерна) лінгвістика, термін, терміносистема, термінографія, ідеографічний термінологічний словник, тезаурусні відношення, структурно-семантичні відношення, термінологічна деривація, дефініція, словникова стаття, дерево залежностей.

ОСНОВНИЙ ЗМІСТ РОБОТИ

У Вступі обґрунтовано актуальність теми дисертації, мету і завдання дослідження, його предмет і об’єкт, окреслено теоретичне і практичне значення результатів дослідження та наукову новизну роботи.

Перший розділ “Термінологічна лексика як об’єкт лінгвістичної і логічної систематизації” присвячений огляду літератури з термінології та термінографії, зокрема з’ясуванню проблем упорядкування терміносистем, що знаходяться у стані формування. Окрім того, розглядається специфіка функціонування термінів-синонімів, омонімів, антонімів, полісемічних термінів та їхнє впорядкування. Окреслено завдання сучасної термінографії та їх вирішення в процесі укладання “Словника з української термінології прикладної (комп’ютерної) лінгвістики”.

Так, на основі детального аналізу теоретичної літератури, можна дійти висновку, що у сучасній термінології склалася ситуація різноаспектного визначення базового поняття “термін”, у спектрі якого є класичні дефініції per genus proximum et differenitiam specificam (тобто через найближчий рід і видову різницю), а також “робочі” визначення для певних завдань. Важливо те, що усі вони не порушують вимог до терміна як спеціального знака наукового або технічного поняття. У пошуках окреслення цього поняття спостерігається кілька підходів:

а) логічний (Войшвилло Е. К.);

б) лінгвістичний (Даниленко В. П., Канделакі Т. Л., Винокур Г. О., Лотте Д. С., Лейчик В. М.);

г) описовий (Шелов С. Д.);

д) логіко-лінгвістичний (Морозова Л. В., Герд О. С.);

е) гносеологічний (Нікітіна С. Е.);

є) філософсько-гносеологічний (Звегінцев В. А.).

Визначенням та дослідженням термінів науки і техніки в різний час займалися як зарубіжні мовознавці (Г. Васильєва, В. Даниленко, Т. Канделакі, Д. Лотте, С. Нікітіна, О. Реформатський, Н. Сухов, А. Хаютін), так і українські (Т. Кияк, І. Кочан, А. Крижанівська, Г. Мацюк, Т. Панько, Л. Пшенична, Л. Симоненко, Е. Скороходько, Ф. Циткіна, та ін.).

Серед логіко-семантичних і лінгвістичних ознак термінів, що визначають їх як особливі слова (словосполучення), термінологи виділяють такі: зв’язок терміна з поняттям; дефініція поняттєвої семантики терміна; однозначність терміна (або, принаймні, тенденція до неї); стилістична нейтральність, відсутність експресивності; номінативність терміна; системність терміна; форма терміна.

Незважаючи на повний, підтримуваний переважною більшістю термінологів, перелік характерних ознак терміна, сама суть цих ознак теж викликає дискусії. Основне у терміні – його дефініція – це найбільш важлива, найменш формалізована (суб’єктивна) його частина. Без визначення терміна – неможлива робота з ним. Особливо в тих галузях, термінологія яких знаходиться в процесі формування. Як правило, термінологи, галузеві фахівці формулюють робоче визначення терміна на основі відзначених його характерних ознак. Термін – це лінгвістичний знак наукового (логічного) поняття, смисл якого встановлюється дефініцією. Таким чином, можна дефінувати термін як лінгвістичну одиницю, що належить до науково-технічної або професійної сфери вживання та репрезентує її спеціальне поняття, виражаючи певну сукупність ознак та утворюючи терміносистему. На основі цього загального визначення дослідник має право виробити своє робоче визначення, що, як правило, відзначається певною звуженістю, конструктивністю (вказує необхідні та достатні ознаки терміна) і є інструментом аналізу.

У цьому розділі обґрунтовано доцільність вичленування (крім загальнонаукового та спеціального (вузькоспеціального)) ще одного рівня термінології – галузевого. Так, галузева термінологія П(К)Л змістовно і функціонально характеризується спрямованістю на вузьку сферу спілкування спеціалістів цієї галузі. Тільки їм властиве істинне і глибоке розуміння значення кожного галузевого терміна, тільки вони точно використовують терміни, уточнюють їхні межі, відбирають найточніші термінологічні найменування для понять, якщо мають справу з кількома варіантами. Галузева термінологічна лексика П(К)Л – це автономна і відносно замкнена термінологія, що не позбавлена впливів загальновживаної мови та термінологій інших сучасних галузей. До її складу входять загальнонаукові, загальнолінгвістичні, галузеві терміни П(К)Л та термінологічні одиниці суміжних наук.

Дослідження й упорядкування термінології так чи інакше пов’язане з її стандартизацією (нормуванням), особливо в тих випадках, коли йдеться про термінологію “молодої” галузі знань, якою є комп’ютерна лінгвістика. Дотримуючись загальноприйнятих вимог щодо нормування термінології, ми виробили методику, яка відповідає, по-перше, завданням систематизованого опису термінології, що знаходиться у стані формування; по-друге, яка є метамовою комплексної дисципліни (прикладної (комп’ютерної) лінгвістики), і по-третє, – є національним (українським) варіантом термінології цієї галузі знань.

Згідно нашої методичної концепції логіко-семантичне й лінгвістичне впорядкування термінів П(К)Л здійснювалося в такій послідовності:

І Створення бази даних для термінології з П(К)Л:

Ш укладання слУвника претендентів на терміни (за джерельними матеріалами);

Ш відбір термінів з-поміж квазітермінів і номенклатурних найменувань;

Ш встановлення меж терміна (для термінів-дериватів);

Ш визначення дериваційних моделей терміносполук та їхньої ієрархії.

ІІ Логіко-семантичне впорядкування термінологічної бази даних:

Ш встановлення для термінів дефініцій, узгоджених з їхнім функціонуванням у різних предметних галузях, які пов’язані з комп’ютерною лінгвістикою;

Ш визначення за дефініціями термінів-синонімів, полісемічних та омонімічних термінів.

ІІІ Мовне нормування ТБД:

Ш встановлення відповідності термінів лексико-граматичним нормам української мови;

Ш нормування форми термінів (необхідна і достатня лаконічність);

Ш стилістичне нормування.

IV Створення терміносистеми П(К)Л у вигляді дерева залежностей (на основі ТБД).

V Створення спеціалізованого (тезаурусно-тлумачного) словника термінів з П(К)Л.

Цю методику можна використовувати для вирішення аналогічних завдань щодо впорядкування й стандартування термінології інших відносно нових предметних галузей.

Усі завдання, визначені метою роботи, вирішувалися на основі методологічних положень сучасного мовознавства про систему і структуру, про парадигматичні й синтагматичні відношення лексем у їх системотворчій функції, а також на основі теоретичних положень сучасного термінознавства про термін, термінологію, терміносистему і функціонування метамов спеціальних галузей знань. Це теоретичне підґрунтя у поєднанні з методами і прийомами лінгвістичного й логіко-семантичного аналізу термінів покладено в основу нашої методики дослідження й упорядкування термінології П(К)Л.

У другому розділі дисертації “Українська терміносистема прикладної (комп’ютерної) лінгвістики: генезис і проблеми систематизації” окреслено межі прикладної лінгвістики, та її нової галузі – комп’ютерної лінгвістики, обґрунтовано виділення її ядерної проблематики, яка безпосередньо пов’язана з автоматичними системами оброблення тексту. Сформульовано основні принципи систематизації та джерела формування української термінології з П(К)Л; розглянуто проблеми стандартування українських термінів цієї галузі.

Прикладна лінгвістика – це комплексна дисципліна, ядро якої становлять структурна і математична лінгвістика з їхніми методами і досягненнями, як вважають провідні спеціалісти цієї галузі (Герд О., Звегінцев В., Кибрик О., Городецький Б., Апресян Ю.; Перебийніс В., Дарчук Н., Клименко Н., Карпіловська Є. та інші). Суміжними щодо різних напрямків прикладної лінгвістики (ПЛ) є філософія, психологія, фізіологія, логіка, соціологія, інформатика, кібернетика, прикладна математика. Комп’ютерна лінгвістика є новою гілкою прикладного мовознавства. Коло її завдань, проблем, методів їхнього вирішення різноманітне, пов’язане зі специфікою того чи ін. виду практичної діяльності людей, яка потребує використання комп’ютерів у процесі перероблення інформації, вираженої засобами природних мов.

У зв’язку з розробленням лінгвістичного забезпечення інформаційних систем різних типів останніми роками особливої актуальності набула проблема уніфікації й стандартизації термінології прикладної лінгвістики. Це пов’язано із значним збільшенням кількості наукових і технічних термінів, що обслуговують різні сфери ПЛ. Очевидно, що при цьому не залишається осторонь і лексикографія, для якої питання, пов’язані зі стандартизацією термінології, є завжди актуальними. Поступово з традиційної лексикографії все чіткіше виділяється галузь лексикографічної діяльності, пов’язана з широким застосуванням електронно-обчислювальної техніки, – комп’ютерна лексикографія.

У цьому розділі вирішувалось одне із завдань дисертації, а саме визначення ядерної термінології комп’ютерної лінгвістики. Аналіз джерельних матеріалів за інформаційним принципом, тобто відбір одиниць і їхня систематизація разом з дефініціями, дають підстави вважати такою термінологію, яка обслуговує автоматичне (автоматизоване) оброблення мови – загал теоретичних та прикладних напрямів лінгвістики, пов'язаних з комп'ютерним опрацюванням текстів.

Поняттєвим фундаментом для комп’ютерної лінгвістики (КЛ) були метамови насамперед загальної, структурної, математичної, прикладної, обчислювальної лінгвістики та інформатики. Накопичений у цих науках термінофонд і динаміка його розвитку сприяли формуванню і темпам розвитку і термінології КЛ.

Процес формування української термінології з КЛ не відзначається якоюсь особливою специфікою – він відбувається аналогічно до всіх комплексних наук.

Формування термінів з П(К)Л відбувається традиційно – шляхом іншомовних запозичень (за правилами української транслітерації) (ад’юнкт, букмарка, інтерфейс, екстенсіонал, браунінг, десигнант, дефініція); шляхом лексико-словотвірного калькування іншомовних термінів з використанням власних та іншомовних морфемних ресурсів (мережа, навантаження, безпосередні складники); шляхом запозичень термінів з інших суміжних терміносистем (зокрема, з їхніх українських версій) (еквівалент, алгоритм, валентність, зміст/форма, знак, картотека), а також семантичного переосмислення загальновживаних слів (дерево, вузол, коло, джерело, масив, меню). Запозичені терміни можуть функціонувати в КЛ одночасно як перекладні й як транслітеровані (інколи навіть зберігається напис слів латинкою, так, наприклад, screensaver – зберігач екрана і скрінсейвер, bookmark – букмарка і закладка).

У КЛ існують відносно усталені терміни (електронна пошта, сервіс, штучний інтелект, машинний переклад, формальна мова, оброблення даних, сервер), що функціонують в українській мові давно. Але навіть у деяких найбільш поширених з них до сих пір спостерігається хитання у морфологічних характеристиках: слово Інтернет, наприклад, використовується як невідмінюваний іменник і як іменник чоловічого роду другої відміни.

Для формування термінології КЛ закономірним є явище міграції термінів з однієї наукової галузі в іншу, без якого неможливий розвиток прикладної (комп’ютерної) лінгвістики, що необхідно враховувати в процесі стандартування. Це означає, що запозичений з іншої галузі термін може набути іншого значення, зокрема терміни алгоритм, надлишковість, структура, функція, модель, індукція були запозичені прикладною лінгвістикою з математики.

Комплексний характер КЛ чітко відображає кількісний розподіл термінів в укладеному нами спеціалізованому словнику термінів з П(К)Л:

1) 32,34% – загальнолінгвістичні терміни і терміни структурної лінгвістики (внутрішня форма, план значення і план вираження, флексія, транслітерація, термін, моделювання мови, трансформаційний аналіз, тема/рема, слово, традиційний словник);

2) 61,02% – власне терміни П(К)Л (квазіфлексія, технологія гіпертексту, автоматичний синтаксичний аналіз, контекстний словник, інформаційно-пошукова система, робоча станція, маркер);

3) 6,64% – терміни суміжних наук:

– інформатики (пошуковий образ документа, оператор, процесор, операційна система, компілятор, дружній інтерфейс, програмне забезпечення, електронно-обчислювальна машина);

– логіки (кон’юкція, диз’юнкція, двозначна логіка, домен, десигнант);

– філософії (аналіз, синтез, зміст, форма, предмет, об’єкт) та ін.

Інтерпретуючи такий розподіл якісно різних, але необхідних для КЛ термінів у словнику, можна стверджувати, що це є аргументом: а) комплексного характеру терміносистеми П(К)Л (6,64% термінів суміжних наук); б) онтологічної сутності комп’ютерної лінгвістики як лінгвістичної дисципліни, про що свідчить явне переважання питомих термінів П(К)Л і загальнолінгвістичних (у сумі – 93, 36%).

У дослідній базі роботи наявні тексти представників не тільки різних лінгвістичних напрямків (загальної лінгвістики; структурної і прикладної лінгвістики; інженерної лінгвістики), а також різних лінгвістичних шкіл (української, російської (московської та санкт-петербурзької), білоруської, американської, німецької, французької, англійської та ін.), що необхідно для відображення реальної картини функціонування термінів КЛ, а також для забезпечення такої функції словника, як навчально-довідкова.

Зважаючи на те, що КЛ є відносно новою галуззю і знаходиться в процесі свого розвитку, її термінологія формується за рахунок сукупних наукових досягнень, оформлених у працях, написаних різними мовами. До джерельної бази увійшли оригінальні й перекладні тексти – українською та російською мовою. Терміни і дефініції, вилучені з неукраїнських джерел, були перекладені українською мовою і внесені у базу даних. Згідно нашої методики для створення термінологічного словника з прикладної (комп’ютерної) лінгвістики була укладена електронна база даних, на основі спеціальних текстів, термінологічних й енциклопедичних словників, за якою було вирішено низку таких дослідних завдань: сформовано реєстр словника, зокрема реєстр ключових і похідних термінів П(К)Л; сформовано корпус дефініцій до термінів комп’ютерної лінгвістики, враховуючи й дефініції цих термінів із суміжних галузей знань; здійснено мовне й логіко-поняттєве (фахове) стандартування термінів та їхніх дефініцій; розроблено автоматизовану технологію роботи з базою даних. Першорядним завданням було визначення ключових (родових) термінів комп’ютерної лінгвістики, які служили орієнтиром для відбирання з джерельних матеріалів термінів саме цієї предметної галузі, і створення за їх допомогою слУвника. До слУвника ввійшли терміни, які у своїх дефініціях мають семи, виражені такими ключовими термінами, як автоматизація, аналіз тексту, інформатика, алгоритм, вибірка, діалогова система, індекс, комп’ютерні засоби та под.

Вирішення цих завдань дало можливість змоделювати логіко-семантичні відношення, характерні для терміносистеми КЛ, у вигляді дерева залежностей і тезаурусних гнізд термінів з їхніми дефініціями, що представлено в укладеному нами словнику української термінології з П(К)Л.

Третій розділ “Спеціалізований словник українських термінів з прикладної (комп’ютерної) лінгвістики: лексикографічні засади і принципи конструювання” присвячений розгляду якісно-кількісних характеристик даних термінологічного словника; тезаурусного принципу конструювання даного словника; дерева залежностей як моделі логіко-поняттєвої структури; формату статті у спеціалізованому словнику.

У процесі роботи з джерельними матеріалами було виявлено такі особливості функціонування термінів у спеціальних наукових текстах: 1) термін уживається в тексті разом з його дефініцією; 2) термін вживається без супроводу дефініції (але вона існує і наведена у термінологічних словниках, енциклопедіях, підручниках); 3) для терміна не знайдено його дефініції у джерельній базі і у словникових виданнях вона також відсутня (у таких випадках термін визначався групою спеціалістів); 4) у дефініції терміна наявна субдефініція. Створюючи базу даних, ми спиралися в основному на спеціальні тексти, а вже потім відібрані “кандидати” перевіряли за лексикографічними джерелами – термінологічними й енциклопедичними словниками.

Оскільки спеціалізований словник термінів з П(К)Л має кілька функцій, в тому числі й інформаційно-пошукову, ми вживали еквівалентний до дескриптора (але не синонімічний!) термін ключове слово, яким позначали смислову домінанту гнізда.

Вибір ключових слів регламентувався такими ознаками-вимогами до терміна: ключовий термін повинен бути по можливості коротким (однослівним або двохелементним словосполученням: електронна картотека, логічне коло, маркер, масив, матриця, лематизація, модифікатор); однозначним (з більш-менш точною дефініцією); українським або інтернаціональним; з прозорою внутрішньою формою (для українського терміна): дерево, дерево залежностей, гніздо, мова, керування, узгодження; несуперечливим (з логічно впорядкованою дефініцією).

Істотним є питання про довжину терміна. Як відомо, межа між терміном і термінологічним описом нечітка. Крім зовнішніх критеріїв (звернення до словників та енциклопедій, наявність визначення терміна у тексті), при відбиранні словникових одиниць використовувався внутрішній, лінгвістичний критерій (відтворюваність у текстах, семантична цілісність словосполучення, ступінь уживаності).

Терміни-словосполучення складаються з головного і залежних (атрибутивних) компонентів, які конкретизують значення головного слова: (лінгвістичний (інформаційно-пошуковий (тезаурус))), (мультимедійний (корпус (текстів))), (інтепретативна (формальна (мова))), (базова (автоматизована (інформаційна (система)))). Зростання кількості термінів-словосполучень – тенденція характерна для будь-яких терміносистем різних мов. При цьому у словнику мають бути представлені не тільки власне номінативні термінологічні словосполучення зі структурою AN (автоматичне анотування), але і терміни більш складної структури: (блок (синтаксичного (аналізу))); (текстозорієнтована (база (даних))); (синтаксичний (автоматичний (аналіз)) за безпосередніми складниками). Причому й такі терміни-словосполучення, в яких інформативно значущими є прикметники, дієприкметники, прислівники та дієслова: контекстний автоматичний аналіз, дистанційна освіта, зворотна деривація та ін.

Словникова (дескрипторна) стаття тезауруса – не що інше, як класифікаційна схема терміна-поняття (дескриптора), яка вказує на його місце в логіко-семантичній системі понять, названих термінами, що об’єднані у статтю. Структура дерева утворена термінологічними (словниковими) гніздами, що є ієрархічною сукупністю словникових статей, об’єднаних ключовим терміном. Кількість словникових статей у гнізді є різною (від 1 до 62), що залежить, очевидно, від ступеня “запитаності”, важливості терміна у метамові галузі.

Дерева залежностей (ДЗ) є результатом перетворення термінологічної бази даних на терміносистему комп’ютерної лінгвістики. У цьому процесі фактор кількості термінів не є визначальним (це лише показник обсягу джерельної бази). Системоутворювальним є тезаурусний принцип упорядкування термінів на основі їхніх дефініцій і мовної форми.

Спеціалізований словник термінів з П(К)Л укладався за тезаурусним принципом, який на сучасному рівні лексикографії є найбільш оптимальним для моделювання структурних (парадигматичних і синтагматичних) відношень у терміносистемах, а також для практичного використання словників в автоматичних інтелектуальних системах на базі природних мов і в дидактичній практиці.

Ієрархічний принцип гніздування термінів визначався двома основними факторами: а) логіко-семантичними відношеннями між термінами; і б) ступенем їхньої похідності.

Логіко-семантичні відношення обиралися за тезаурусним принципом. Це відношення логічні (рід – вид; частина – ціле); семантичні (синонімія, антонімія, полісемія), а також асоціативні (парадигматичні й синтагматичні). Як показала експериментальна робота щодо систематизації термінів, саме ці різновиди логіко-семантичних відношень є характерними для термінології. Гніздо термінів, створене за родо-видовими відношеннями, дає можливість виявити послідовний характер деривації нових термінів. Семантичні відношення між термінами – синонімія, антонімія, полісемія – також враховувалися в процесі створення ДЗ, але вони не мали вирішального значення для встановлення ієрархічних відношень у гнізді.

Отже, впорядкування термінів бази даних за логіко-семантичними й дериваційними відношеннями уможливило їхнє формалізоване представлення у вигляді дерева залежностей. Його можна розглядати як парадигматичну модель терміносистеми П(К)Л, у якій вербально виражені поняття КЛ займають своє чітко визначене місце.

До кожного терміна в словнику подається кілька дефініцій, оскільки терміносистема цієї галузі знаходиться в процесі активного формування та є відкритою. Зважаючи на її генетичний зв’язок із загальною лінгвістикою (терміни, усталені у загальній лінгвістиці, використовуються в П(К)Л у тому ж значенні: конверсія, конверсив, синтаксична конструкція, контекст, кореляція та ін.), з методологічними науками – логікою та філософією (смисл, знак, модель, континуум), з “комп’ютерними” науками – кібернетикою, інформатикою (класифікатор, декодер, конструкція даних, автоматична класифікація, автоматизована система оброблення даних), дефініції до термінів подаються у порядку, визначеному вагомістю термінологій указаних наук у формуванні терміносистеми П(К)Л: загальне мовознавство; структурна лінгвістика; прикладна лінгвістика; інформатика та обчислювальна техніка; логіка, філософія.

Результати якісно-кількісного аналізу української версії терміносистеми П(К)Л свідчать, що вона сформована як терміносистема комплесних наук – з ядерною термінологією лінгвістичних наук (загальної, структурної, прикладної, математичної і комп’ютерної лінгвістик) (93,36%), а також периферійною частиною, представленою термінологією суміжних галузей (інформатики, кібернетики, філософії, логіки) (6,64%). У ній переважають терміни-словосполучення (72,6%), серед яких найтиповішими є двокомпонентні моделі (52,9%).

Ключові терміни виражають базові поняття КЛ і є, як правило, запозиченнями (інтернаціональними термінами П(К)Л) – транслітерованими або калькованими з інших мов; питомими українськими словами і словосполученнями, або комбінованими з українського і/або греко-латинського субстрату.

Характерним явищем для наукових терміносистем є деривація, яка дає суттєвий приріст нових термінів, здебільшого у формі словосполучень з прозорою внутрішньою формою. Це в повній мірі характерно й для терміносистеми П(К)Л. Ключові й мотивовані ними похідні терміни у спеціалізованому словнику знаходяться у співвідношенні: 23,8% : ,2%.

Основною одиницею спеціалізованого словника є гніздо, в якому заголовком виступає ключовий термін (родове поняття), а статтями – похідні терміни, упорядковані подвійно: а) за логіко-поняттєвими відношеннями (рід – вид, частина – ціле) і б) за ступенем похідності.

Для спеціалізованого словника запрограмовано кілька функцій: систематизувальна (тезаурусна); довідкова (фактографічна), навчальна; інформаційно-пошукова. Для оптимальної реалізації відзначених функцій словник створено у двох версіях: як дерево залежностей (для оптимізації тезаурусної та інформаційно-пошукової функції) і тлумачно-довідкова версія (для оптимізації довідкової і навчальної функцій).

Важливою частиною тлумачно-довідкової версії словника є дефініції термінів КЛ і термінів із суміжних з нею галузей, які функціонують паралельно у спеціальних текстах П(К)Л. Вони показують реальний стан функціонування і шляхи формування метамови комп’ютерної лінгвістики як комплексної науки. Система посилань на терміни, використані у дефініціях, оптимізує довідкову, навчальну й інформаційно-пошукову функції комп’ютерного спеціалізованого словника.

Таким чином, комп’ютерний спеціалізований словник українських термінів з П(К)Л репрезентує терміносистему цієї галузі у її сучасному стані, на рівні передових лексикографічних й інформаційних технологій і є першим досвідом її упорядкування й стандартування в українській мові.

У Висновках узагальнюються результати систематизації терміносистеми П(К)Л, представлені у “Словнику з української термінології прикладної (комп’ютерної) лінгвістики”.

1. Сучасний розвиток наукового пізнання позначений інтеграцією наук, які досліджують природну мову в широкому спектрі її проблематики – від онтологічної сутності, семіозису, структури, функцій до її місця і ролі в інтелектуальних інформаційних системах. Таке різномаїття проблем, їх переформулювання в нових термінах і вирішення в процесах суспільно-економічної діяльності стимулювало виникнення нових предметних галузей, чимало з яких можна назвати комплексними.

Так, розширення меж лінгвістики зумовило появу в ХХ ст. “нових лінгвістик” – етно-, психо-, соціо-, нейро- та антропологічної лінгвістики, структурної, прикладної, математичної, інженерної, обчислювальної, комп’ютерної, які мають свій предмет, методи і, звичайно, метамову, тобто власну термінологію. Чимало з названих галузей знань є логічним продовженням прикладної лінгвістики на її новому етапі, який характеризується зміцненням взаємозв’язку гуманітарних, математичних, природничих і кібернетичних наук.

2. У прикладній лінгвістиці, що історично складалася як комплексна дисципліна, виділився новий її напрямок – комп’ютерна лінгвістика, предметом якої є моделювання природних мов для автоматичних систем перероблення текстів, тобто для лінгвістичних процесорів. Комп’ютерна лінгвістик успішно розвивається у взаємодії насамперед із загальною, структурною, прикладною, математичною, інженерною лінгвістиками, а також з інформатикою і кібернетикою.

Власна проблематика, ядром якої є конструювання автоматизованих систем на базі природних мов, а також взаємозумовлені контакти комп’ютерної лінгвістики із суміжними галузями знань, до компетенції яких входять мови (природні й штучні), стали основою витворення власної термінології, що функціонує як метамова комп’ютерної лінгвістики у спеціальних текстах різними мовами, в тому числі й українською.

Українська версія терміносистеми прикладної (комп’ютерної) лінгвістики ще не була предметом спеціального аналізу й систематизації, що зумовило мету і завдання дисертаційного дослідження, а саме комплексний аналіз української термінології з прикладної (комп’ютерної) лінгвістики на основі логіко-поняттєвих, семантичних і дериваційних відношень та представлення її як терміносистеми за тезаурусним принципом лексикографування.

3. Комплексний характер термінології з прикладної (комп’ютерної) лінгвістики, яка перебуває ще в стані свого формування, відсутність стандартизованої національної версії термінологічного словника потребували спеціальної методики для реалізації мети дослідження у ряді аналітичних й технологічних завдань: враховуючи ці фактори, створена нами методика є комплексом узгоджених й поетапно здійснюваних процедур. Згідно з методологією сучасної лінгвістики, основаної на системно-структурних принципах опису мови і вимогах формалізованого (об’єктивного) ведення її аналізу, згідно з теорією і практикою лексикографії (термінографії), за технологіями сучасної прикладної (комп’ютерної) лінгвістики було вирішено такі завдання: укладено термінологічну базу даних за спеціальними текстами монографій і підручників, термінологічними й енциклопедичними словниками, а також вторинними текстами (статтями, рефератами й анотаціями); до реєстру спеціалізованого словника за відповідними правилами з бази даних відібрано терміни прикладної (комп’ютерної) лінгвістики і суміжних наук з їхніми дефініціями; проведено стандартизацію термінів (мовну, логіко-поняттєву, фахову); виділено (за правилами) ключові терміни, які є семантичними домінантами предметної галузі прикладної (комп’ютерної) лінгвістики; за логіко-поняттєвими (рід – вид, частина – ціле), семантичними (синонімія – антонімія) та асоціативними (парадигматика – синтагматика) відношеннями реєстр перетворено на алфавітно-гніздовий тезаурус – перша версія спеціалізованого словника у вигляді дерева залежностей; за деревом залежностей створено другу версію словника – тлумачно-довідкову.

У результаті поетапного вирішення цих лінгвометодичних завдань можна стверджувати, що прикладна (комп’ютерна) лінгвістика є новою комплексною предметною галуззю з власною терміносистемою (метамовою), яка функціонує у спеціальних текстах комп’ютерної лінгвістики й суміжних із нею наук.

4. Українська версія терміносистеми з прикладної (комп’ютерної) лінгвістики формується аналогічно до національних версій термінологій в основному шляхом запозичень (транслітерацій, перекладу, калькування) термінів з англійської, російської, німецької, французької мов (браунінг, десигнант, дефініція, навантаження, скрінсервер, штучний інтелект), а також шляхом термінологічної деривації, тобто створення термінологічних словосполучень з існуючих термінів, терміноелементів і загальнонаукової лексики (інтегрована система, система автоматичного перероблення тексту, корінь дерева залежностей).

Як в усталених, так і в нових термінологіях різних наук, найбільш типовим способом створення нових наукових понять є термінологічна деривація в її лексико-синтаксичній формі. Це означає, що серед термінів значну частку займають терміносполуки. Особливо це характерно для термінологій, що знаходяться в процесі свого формування, зокрема й української версії термінології з прикладної (комп’ютерної) лінгвістики, про що свідчать кількісні дані спеціалізованого словника: 27,4% : 72,65% (терміни-слова : терміносполуки). Поява нових лексем (з новими кореневими морфемами) практично зникла у термінологіях. В українській терміносистемі з прикладної (комп’ютерної) лінгвістики їх також немає, терміни-неоніми є запозиченнями з греко-латинським субстратом, або українським (рідко), що виникли в процесі перекладу термінів з інших


Сторінки: 1 2