У нас: 141825 рефератів
Щойно додані Реферати Тор 100
Скористайтеся пошуком, наприклад Реферат        Грубий пошук Точний пошук
Вхід в абонемент


це слово використовується.

Одним з основних елементів пошукових систем є індексатор (іноді використовується термін “павук”) – програмний модуль, що періодично сканує Інтернет для збирання даних про стан інформаційних ресурсів.

Ці дані використовуються для формування і оновлення індексу – масиву даних пошукової системи, який слугує для пошуку адреси інформаційного ресурсу. Основні складові індексу – це прямий та інвертований списки, що встановлюють відповідності між пошуковими термінами і документами, які їх містять.

Третій елемент пошукової машини – апарат пошуку, що безпосередньо забезпечує роботу користувача з індексом. Під цим терміном розуміють інформаційно-пошукову мову системи, інтерфейс користувача і механізми здійснення запитів до індексної бази.

Для того, щоб не збільшувати розміри словників та індексів, введене таке поняття, як вага терміну. Вона визначається в процесі індексування і залежить від методу індексування, котрий використовується даною пошуковою системою.

Методи індексування поділяються на статистичні, теоретико-інформаційні та імовірнісні.

В статистичних методах документи розглядаються як точки в інформаційному просторі. Чим ближче групи термінів, що складають документи, тим ближче знаходяться точки, що їх відображають. В якості термінів індексації обираються ті, що знижують щільність простору документів.

Теоретико-інформаційні методи ґрунтуються на припущенні, що найбільшу інформаційну цінність подають слова, що зустрічаються найменш часто. Для оцінки корисності терміну застосовуються концепції теорії інформації.

Імовірнісні методи передбачають наявність певної навчальної множини документів для оцінки релевантності результатів обробки запиту. Навчальна множина застосовується для обчислення вагових коефіцієнтів, які отримуються шляхом оцінки умовної імовірності входження терміну в даний документ у випадку його релевантності (або нерелевантності). На основі цих коефіцієнтів визначається вага терміну.

При побудові індексу реальні документи замінюються пошуковими образами документів. При індексуванні нетекстової інформації в пошукові образи входять головним чином універсальні адреси ресурсів, у випадку новин й поштових списків – поля Subject та Keywords. Зі слів, що складають HTML-документи в пошукові образи зазвичай входять ті, що мають найбільшу вагу.

Формальну релевантність обчислює система, на основі чого ранжується вибірка знайдених документів. Реальна релевантність – це оцінка самим користувачем цінності знайдених документів.

Часто пошукові системи не включають певні слова в свої індекси або можуть не включати ці слова в запити користувачів. Такими словами (стоп-словами) зазвичай вважаються прийменники або просто дуже часто використовувані слова. Не включають їх заради заощадження місця на носіях.

Хоча з технічної точки зору механізми функціонування пошукових систем є достатньо складними, користування ними кінцевим споживачем інформації не викликає складнощів навіть у початківців. Інтерфейс систем пошуку зазвичай включає поле введення тексту та кнопку початку пошуку - “Найти”, “Search” (можна також розпочинати пошук по натисканню клавіші Enter). Отже, найпростіший спосіб знайти інформацію в Інтернеті – ввести слова, які ідентифікують інформацію з даної теми у відповідне поле пошукової системи і натиснути клавішу Enter. Більшість пошукових систем пропонують також можливості здійснення точного пошуку (з мовою запитів). Його сенс в тому, щоб включати відшукуванні слова у логічні вирази, що показують місце цих слів відносно одне одного, їх місце в структурі документу і т. ін. Основою мови запитів є так звані булеві оператори порівняння (AND, OR, XOR, NOT), однак їхні русифіковані найменування й правила введення в запити можуть істотно розрізнятися від однієї пошукової системи до іншої.

Список використаних джерел

Симонович С., Евсеев Г., Алексеев А. Общая информатика. – М., 1998.

Экономическая информатика / под ред. П. В. Конюховского, Д. Н. Колесова. – СПб., 2001.

http://www.citforum.ru/


Сторінки: 1 2