машиной, исполнение романса певицей, вычисляется алгоритмом, наше отставание, его полет).
Субстантивно-атрибутивне (отверствие диаметром 6мм, столб высотой 2 м, такого рода утверждение).
Партитивне (блок устройства, елемент множества).
Загальногенетивне (лист бумаги, пример алгоритма, понятие алгебры, преимущество метода).
Обставинне (находиться позади барьера, квадрат слева, цифра записана на ленте, подается для реализации, однако выяснилось).
Суб’єктно-копредикативне (он вернулся усталым, умер стариком).
Об’єктно-копредикативне (нашли его усталым).
Аппозитивне (угол ABC, часть Г).
Порівняльне (сильнее первого мотора, более низкий, чем стержень С2).
Елективне (каждый из разрядов, две из колонок, многие из иероглифов).
1-е призв’язочне (будет полным, этот четырехугольник есть квадрат, являющиеся достаточными).
2-е призв’язочне (бывают трех типов, могут быть следующего рода).
1-е допоміжне, або службове (более четкий, самые полные, не получил, видели бы).
2-е допоміжне (сорок три, сремиться к нулю, физика и математика).
3-е допоміжне, або відприйменникове (без двигателя, несмотря на отказ).
Обмежувальне (хотя бы один, только числа, лишь законченные работы).
Однорідне (операции и константы, целые или не целые числа, нумеруются, но не сдвигаются).
Квазіоднорідне (общая функциональная схема, обычного графического изображения).
Відсполучникове (как выход, как для решения).
Зіставлюване (чем дальше продвигаемся, тем яснее видим).
В процесі аналізу за допомогою певної послідовності операцій текст розбивається на певні частини, які ототожнюються з одиницями аналізу (в даній роботі це синтагми та інши змістовні сполучення); одиниці аналізу зібрані в особливому списку, де до них приписані вказівки, які необхідно виконати, щоб фіксувати (зображати) знайдені зв’язки (в даній роботі це вказівки про постановку нумерованих стрілок).
В тексті, що аналізується, розглядаються три типи відрізків: гіпотетична словоформа (вхідна) – послідовність літер між двума проміжками; знаки пунктуації також вважаються вхідними словоформами; гіпотетичний сегмент – послідовність словоформ між двума знаками пунктуації або сполучниками, перед якими немає коми; гіпотетична фраза – послідовність сегментів між двома крапками або іншими тотожніми знаками. В результаті роботи алгоритму ці гіпотетичні (вхідні) об’єкти перетворюються на кінцеві, або приведені: приведена словоформа, приведений сегмент, приведена фраза. Приведена словоформа – це загальна назва для всіх лексичних одиниць. Приведеними синтагмами називаються вирази з повною або частковою предикативністю, тобто прості речення, дієприслівникові і обособлювані означальні (зокрема прислівникові) звороти. Приведена фраза є аналогом самостійного речення – простого або складного, але не того, що є частиною іншого речення. Приведена фраза – це максимальний відрізок тексту, в межах якого враховуються синтаксичні зв’язки. Приклад:
.(1) Н(2)| .(3)И(4)| .(5)Голубков(6) исследовал(7) еще(8) двадцать(9) шесть(10) видов(11) ||| ,(12) так(13) как(14) его(15) первый(16) ||| и(17) второй(18) опыты(19) дали(20) результаты(21) ||| ,(22) представленные(23) на(24) рис(25)| .(26) 6(27) ||| |.
Тут 27 гіпотетичних словоформ (пронумеровані), 4 гіпотетичних сегмента (відокремлені |||), 4 гіпотетичних фрази (відокремлені |), 17 приведених словоформ (підкреслені), 3 приведених сегмента (1 – до так как, 2 – до представленные, 3 – до кінця), 1 приведена фраза (все речення).
Необхідні відомості про текстові об’єкти представляються у вигляді інформацій. Інформація - послідовність ознак (граф), що приймають певне значення.
Більшість ознак, що утворюють інформацію, є синтаксичними розрізнюваними ознаками словоформ та сегментів.
Увесь процес аналізу зводиться послідовно на декількох рівнях. Спочатку з окремо взятих гіпотетичних словоформ, точніше з інформацій до морф, на які ці словоформи розбиваються, виводиться інформація до словоформ, потім з інформацій до словоформ виводиться інформація до гіпотетичних сегментів; і нарешті, з інформацій до гіпотетичних сегментів виводиться синтаксична структура фрази. Одночасно гіпотетичні об’єкти перероблюються на приведені.
Відповідно, аналіз підрозділяється на формологічний (розбір окремих словоформ і отримання інформацій до них) та синтаксичний (все інше). Синтаксичний аналіз, в свою чергу, поділяється на внутрішньосегментний (розбір окремих гіпотетичних сегментів і отримання інформацій до них) та міжсегментний (розбір всієї фрази в цілому).
В межах гіпотетичних сегментів багато зв’язків між словоформами не можуть бути встановлені зовсім або встановлюються неправильно, тому в інформації до сегменту застосовуються - ознаки (вказівки про невстановлені, але передбачувані зв’язки) та - ознаки (вказівки про можливі помилки у встановлених зв’язках). Ці ознаки використовуються при міжсегментному аналізі.
Особливо треба відзначити - ознаки, які виробляються на всіх етапах аналізу і спочатку входять в інформації до сегментів, а звідти – в інформації до фраз. - ознаки – це вказівки про синтаксичні неоднозначності, які не можуть бути розв’язані навіть в межах фрази, без залучення загального смислу тексту.
Для пошуку одиниць синтаксичного аналізу – змістовних сполучень – всі вони оформлюються у вигляді шаблонних пошукових правил – конфігурацій. Конфігурації складаються з 5 частин: 1) містить порядковий номер конфігурації, в 2) записано перший і другий члени конфігурації, що задають члени змістовного сполучення, 3) відведена для допоміжної інформації, в 4) знаходиться основна інформація (назва стандартної операції, що виконує переробку інформацій та її параметри), 5) відведена для “переадресації”, тут записуються номери конфігурацій, до яких треба переходити у певних випадках.
Конфігурації зібрані в таблицю, в своєрідний “синтаксичний словник”. Окремо від таблиці існує “власне алгоритм” – інструкція по використанню словника. Власне алгоритм синтаксичного аналізу записується у вигляді набору стандартних алгоритмічних операторів.
Синтаксичний аналіз організований циклічно. При внутрішньосегментному аналізі кожний гіпотетичний сегмент оброблюється 5 раз. Для міжсегментного аналізу також пропонується 5 циклів.
“Власне алгоритм” та будова таблиці конфігурацій не залежать від конкретної мови.