досягнення збалансованості. Для досягнення збалансованості корпусу необхідні мінімальні критерії відбору текстів, які мають включати розрізнення між художньою літературою і нехудожньою літературою; книжкою, журналом або газетою; нормативним і ненормативним
варіантом мови; з контролем віку, статі та походження авторів.
Машиночитаність є визначальною ознакою до сучасного електронного текстового корпусу природної мови. Крім електронної форми подання, ця вимога передбачає наявність кодування первинних корпусних даних та лінгвістичну анотацію, хоча на сьогодні це вже параметр «за промовчанням», тобто іншим сучасний корпус не повинен бути.
Стандартність забезпечує узаконене, однозначне, мовнонезалежне оброблення даних довільної природної мови. Категорія стандартності в дослідній парадигмі корпусної лінгвістики функціонує паралельно з категорією нормативності, але, на відміну від останньої, має чіткий технічний характер, що уможливлює аналогічні дослідження на багатьох корпусах, еволюцію самого корпусу і як безпосереднє синхронне, так і діахронне використання корпусного ядра даних.
Формат розмітки становить чи не основну проблему корпусного анотування. Важливим у корпусній лінгвістиці залишається питання створення засобів автоматичного (чи, принаймні, автоматизованого) анотування текстів за різними критеріями - морфологічними, орфоепічними, семантичними, синтаксичними тощо [4, с. 7]. За В.А. Широковим, основна ідея системотехніки лінгвістичного корпусу (випускаючи технічні деталі) полягає у забезпеченні автоматичного розбиття електронного тексту літературного джерела на «мікроконтексти» - фрагменти тексту, які «групуються» навколо слова, що є об'єктом тлумачення. Таким чином, відпадає необхідність формування і збереження традиційного для мовознавства об'єкта - лексичної картки як окремого фізичного об'єкта - вона перетворюється на об'єкт віртуальний, тобто реалізований як певне відношення у відповідній базі даних. «Справді, при цьому підході достатньо забезпечити виконання процедури природномовної індексації тексту, що означає приписування кожній текстовій словоформі її формально визначеної локалізації - своєрідної координати в розглядуваному тексті з наступною лематизацією цієї словоформи» [4, с. 99].
Аплікативне призначення корпусних даних - фонологічні, морфологічні, синтаксичні, лексикографічні, лексикологічні тощо дослідження - детермінує тип лінгвістичної анотації корпусу. Як правило, фонетична анотація має формат фонетичної транскрипції. До морфолого-синтаксичної (чи морфо-синтаксичної, за терміном корпусної лінгвістики) анотації існує два підходи: перший передбачає синтез морфологічного та синтаксичного аспектів анотування, йдеться про граматичну анотацію; другий підхід передбачає диференціацію морфологічної та синтаксичної анотації. Під морфологічною анотацією розуміємо тип лінгвістичної анотації, за якої експліковано подається морфологічна інформації про тексові елементи рівня слова [3, с. 112].
Традиційно в корпусній лінгвістиці під лінгвістичною анотацією розуміють:
довільну лінгвістичну інформацію про лінгвально релевантні одиниці текстових даних;
практику введення формалізованої лінгвістичної інформації в електронний текст;
наявність такої інформації в тексті. Схильна до розрізнення термінів анотація й
анотування О. Демська-Кульчицька [3]. Так дослідниця зазначає, що анотація - ще певна лінгвістична інформація про лінгвально релевантні одиниці текстових даних і наявність такої інформації у тексті; анотування - це процес уведення формалізованої лінгвальної та лінгвістичної інформації в електронний текст.
Реалізація будь-якого типу анотування передбачає низку процедур:
Сегментизація тексту - ідентифікація та виділення концептів і їхніх іменникових репрезентантів.
Формалізація параметрів анотування цільових одиниць маркування.
Створення тегсету, чи набору формальних кодів з відповідною семантикою, засобами яких адекватно детерміновано для кожної цільової одиниці тексту її відношення до повного опису ідеолекту письменника.
Визначення анотаційної схеми та її принципів. Автори монографії «Корпусна лінгвістика» [4]
говорять про такі критерії застосування стандарту: 1) достатність - набір структурних елементів повинен бути достатньо широким, щоб забезпечити хоча б більшість вимог. Водночас бажано, щоб схема розмітки не містила надлишкову інформацію; 2) несуперечливість - схема розмітки має бути сформована на базі несуперечливих правил, які б дозволяли однозначно визначити, які об'єкти належать до тегів, які - до атрибутів, що є вмістом тега тощо; 3) відтворюваність - схема кодування повинна ґрунтуватися на чітко визначених правилах, що дає можливість відтворення вихідного тексту за допомогою простих алгоритмів; 4) коректність - за допомогою спеціального програмного забезпечення відбувається перевірка відповідності міток у документах їх структурним специфікаціям; 5) можливість збору даних - збір даних включає безпосереднє накопичення даних (за допомогою ручного вводу або з використанням автоматичного розпізнання тексту) та проведенням кодування даних; 6) технологічність - урахування потреб, пов' язаних з автоматичною обробкою текстів (вибір тексту згідно зі встановленими критеріями, використання спеціальних механізмів, типу міжтекстових покажчиків, поєднання текстів або інших елементів корпусу) тощо; 7) можливість масштабування - важливо, щоб будь-яка створена схема мала можливість поповнюватися; 8) компактність - проведення розмітки може істотно вплинути на розмір файлу, від чого залежить швидкість обробки даних текстів. Серед можливих методів досягнення компактності називають: мінімізацію тегу, наприклад, пропущення або скорочення кінцевого тегу; застосування специфічних кінцевих тегів елементів або відмова від останніх; використання XML схеми розмітки тощо; 9) зрозумілість - коли виникає потреба у безпосередній роботі користувача з текстом без використання спеціального програмного супроводу, прозорість розмітки є досить важливою [3, с. 51-53].
З погляду типологічно-аплікативних характеристик авторський корпус можемо розглядати як:
ілюстративний: створюватиметься після визначення й детального вивчення ідіолекту письменника;
повнотекстовий: збудований із цілих текстів творів автора;
статичний: не передбачає перманентного поповнення множини корпусних текстів;
синхронний: охоплює рівень сучасної української мови;
мови автора: тільки тексти одного письменника входять до складу корпусу;
мономовний: усі тексти є результатом мовної діяльності носія-кодифікатора сучасної української мови;
писемний: корпус становить зібрання писемних текстів;
концептно анотований: текстові дані предметної галузі розмічені до рівня фраземи з частковим граматичним маркуванням іменникових репрезентантів.
На основі створеного авторського корпусу маємо