У нас: 141825 рефератів
Щойно додані Реферати Тор 100
Скористайтеся пошуком, наприклад Реферат        Грубий пошук Точний пошук
Вхід в абонемент


Бернієра "Концепції та методи реферування" [146], де розглянуто типи рефератів, історію та сучасний стан реферування, нормативні вимоги до підготовки й оцінки рефератів, а також актуальними є монографії Р. Колізона "Реферати та реферативне обслуговування" [148] і В. Кремінса "Мистецтво реферування" [149].

Зі становленням і розвитком інформатики започатковано якісно новий етап у розвитку реферування, на порядок денний поставлено питання алгоритмізації й автоматизації цього процесу. Проблеми реферування, що набувають міждисциплінарного характеру, вивчають бібліографи, лінгвісти, філософи, фахівці в галузі інформатики, обчислювальної техніки й кібернетики.

У дослідженнях 1970-х років увагу сконцентровано на принципах ручного реферування та можливостях формалізації даного процесу з використанням обчислювальної техніки (У. Еушорт, А. Кент, Хензо Хіраяма та ін.). Великого значення набувають проблеми автоматизації семантичних процесів, які розвивалися за трьома основними напрямами. Перший — був пов'язаний із введенням запитів до системи. Цей процес потребує попереднього семантичного перетворення запиту, тобто побудови за запитом пошукового припису, що вже вводиться до ІПС. Другий напрям охоплював пошукові процеси, пов'язані із зіставленням за певними правилами пошукових образів запитів, які надійшли до системи, і документів, що зберігаються там. Третій напрям переслідував мету автоматизації вводу документів до ІПС. Серед його процесів центральне місце займають питання автоматизації індексування, анотування та реферування. Проблемам алгоритмізації й автоматизації процесів реферування присвячено численні праці дослідників з країн Заходу — Г. Луна, Л. Освальда, Г. Едмундсона, Р. Вілліса, Л. Ерла, огляд яких представлено у роботах В. П. Леонова [78, 80], російських учених А. Н. Пащенко та А. Л. Шуміліної [91], В. Є. Берзона [9], Д. Й. Блюменау, І. С. Добронравова, Д. Г. Лахуті [11], С. А. Карасьова [59], Є. Б. Федорова [129].

Досить детально проблеми автоматизації реферування висвітлено в аналітичному огляді ВІНІТІ [1]. Їх дослідження здійснювалося за двома напрямами:

екстрагування із першоджерел найбільш інформативних фрагментів тексту та формування на їх основі рефератів або анотацій (автоматичне екстрагування);

виявлення в текстах найбільш інформативних фрагментів з наступним синтезуванням із них нових реферативних текстів.

Другий напрям був подальшим розвитком першого і передбачав перехід на вищий рівень згортання інформації.

У цілому методи, що використовуються в автоматичному реферуванні, поділяються на статистичні, позиційні й індикативні. Статистичні методи базуються на розробках американського вченого Г. Луна, який першим у 1958 р. отримав машинний реферат. Він запропонував здійснювати відбір речень на основі частоти вживання слів у реченні (чим частіше зустрічається слово у ньому, тим вище його семантична вага), а також зважаючи на місце розташування значущих слів у реченні. При відборі речень до реферату для кожного з них визначається його "змістова вага". Чим більше слів, які часто зустрічаються, опиняються поряд, тим суттєвішу інформацію містить речення, що і має включатися до реферату.

Ідеї Г. Луна стимулювали подальші розробки з автоматизації реферування, засновані на статистичному аналізі текстів. Найвідомішими стали методики росіян В. Аграєва, Б. Бородіна та В. Пурто [80]. Перші двоє запропонували методику, згідно з якою вибрані з тексту речення виявляються пов'язаними між собою. Найбільш зв'язаними, а тому такими, що підлягають включенню до реферату, вважаються речення, які містять найбільшу кількість однакових значущих слів.

В. Пурто розробив метод оцінки та відбору речень за кількістю інформації, яку вони містять. У цьому випадку тексти підлягають статистичному аналізу для виявлення частоти вживання слів. Словами, що найчастіше вживаються у науково-технічній літературі, є терміни. Дослідник стверджує: чим важливіший термін, тим частіше він зустрічається в тексті, а відібрані речення містимуть максимальну кількість цих термінів. Обсяг одержаного в такий спосіб реферату складає, як правило, не більше трьох речень, незалежно від обсягу первинного документа.

Тобто, у разі використання статистичного методу реферування обсяг і якість рефератів повністю залежать від статистичних характеристик тексту, тому речення, що містять найважливішу інформацію (наприклад, висновки у наукових статтях, патентні формули в описах винаходів), можуть бути взагалі не виділені та не ввійти до реферату. Проте, визначені недоліки, певною мірою, компенсуються завдяки простоті аналізу й однорідності рефератів, які готуються за допомогою ЕОМ. Це стимулює роботи у такому напрямі в багатьох країнах.

Позиційні методи націлені на вдосконалення технології відбору найбільш значущих речень у текстах із залученням складного математичного апарату. Відбір здійснюється на засадах чотирьох взаємопов'язаних методів: натяку, ключових слів, заголовка, локалізації.

Сутність методу натяку полягає у використанні під час відбору речень списку слів, в якому заздалегідь виділено слова з позитивною, негативною змістовою вагою і "нульові" (нейтральні). При відборі враховуються тільки слова, що передають позитивну й негативну оцінку. В разі використання методу ключових слів розглядаються слова, відібрані за частотним принципом та за цією ознакою визначені ключовими, що є аналогічним до запропонованого Г. Луном підходу. В методі заголовка головна роль відводиться словнику термінів, відібраних із заголовка та підзаголовків, які мають більшу "вагу", ніж слова з інших речень тексту. До реферату відбираються речення, де зустрічаються терміни, котрі є у словнику. Метод локалізації грунтується на припущенні, що найсуттєвіша інформація концентрується на самому початку або наприкінці певного уривка чи параграфа тексту. Зіставлення всіх чотирьох методів показало, що метод ключових слів забезпечує повноту відбиття змісту первинного документа на 15-40 %, метод заголовка — на 30-40 %, а спільне використання методів натяку, заголовка та локалізації — на 30-60 %.

Подальшого розвитку цей підхід набув під час розробки індикативних методів реферування, порівняно з якими статистичні та позиційні методи відіграють допоміжну роль.

Індикативні методи дають змогу на підставі синтаксичного


Сторінки: 1 2 3 4 5