Тема:
Лабораторна робота
Тема: Робота в інтелектуальних пошукових системах, відмінних від Google.
Мета: Ознайомитись з інформаційно-пошуковими системами, відмінними від Google. Скласти рейтинг даних пошукових систем. Навчитися використовувати функції різних пошукових систем для інтелектуалізації пошукових запитів.
Хід роботи
Користуючись методами розширеного пошуку системи Google, оформляю таблицю англомовних (6-8), російськомовних (5-7), німецькомовних (4-6) та українськомовних (3-5) інформаційно-пошукових систем.
№ п/п | Назва інформацйно-пошукової системи | Рейтинг
Англомовні інформаційно-пошукові системи
1 | | 41.9%
2 | | 26.0%
3 | | 32.3%
4 | | 17.0%
5 | | 13.8%
6 | | 12.6%
Російськомовні інформаційно-пошукові системи
1 | | 54.8267%
2 | | 21.7645%
3 | | 15.6207%
4 | |
4.5466%
5 | |
1.5788%
Німецькомовні інформаційно-пошукові системи
1 | | 34.2%
2 | | 29.5%
3 | |
15.0%
4 | |
13.4%
5 | | 6.3%
Українськомовні інформаційно-пошукові системи
1
2
3
4
5
Типи інформаційно-пошукових систем
Завданням пошукової системи є пошук та відображення веб-сторінки з посиланнями на адреси, за якими можна знайти потрібну інформацію.
За принципом дії розрізняють кілька видів пошукових систем: *
пошукові каталоги; *
рейтингові системи; *
індексні бази даних.
Пошукові тематичні каталоги - звернувшись на адресу пошукового каталогу, користувач знаходить на його основній сторінці перелік тематичних категорій, наприклад таких як Освіта, (Education), Наука (Science), Бізнес (Business), Мистецтво (Art) тощо. Недоліком тематичних пошукових систем є порівняно невелике охоплення існуючих ресурсів мережі, оскільки простежити весь обсяг інформації, яка є в мережі Інтернет, практично неможливо навіть для значного колективу персоналу, який використовує сервер. Тому доцільно звертатись до каталогів ресурсів у випадку, коли необхідно швидко відшукати „типову” інформацію за необхідною тематикою. Наприклад, www.yahoo.com., www.meta.ua.
Рейтингова система – на головній сторінці розміщується перелік найважливіших тем, які, в свою чергу, містять список тематичних розділів. Вибравши потрібну тему, користувач отримує обмежений перелік веб-ресурсів, присвячених даній темі. Поруч з кожним веб-ресурсом висвітлюється оцінка його популярності, яка вимірюється в кількості переглядів цього ресурсу за останню добу. Проте, потрібно пам’ятати, що не завжди високий рейтинг об’єктивно відповідає якості веб-ресурсу. Наприклад, Top Ping - www.topping.com.ua, Рамблер - www.rambler.ru.
Індексні пошукові системи – ще називають пошуковими покажчиками, пошуковими серверами, словниковими пошуковими системами, автоматичними індексами, пошуковими машинами. Принцип роботи з індексними пошуковими системами (ІПС) засновано на ключових словах. Наприклад, www.meta.ua, , www.aport.ru, www.yandex.ru
Складові інформаційно-пошукових систем
Пошукові системи зазвичай мають три компоненти:
агент (павук, кроулер або робот), який переміщується по мережі і збирає інформацію;
база даних, яка містить інформацію, що зібрано павуками;
пошуковий механізм, який користувачі використовують як інтерфейс для взаємодії з базою даних.
Функції агента в індексованих інформаційно-пошукових системах
Засоби пошуку типу агентів, павуків, кроулерів і роботів використовуються для збору інформації про документи, які знаходяться в мережі Інтернет. Це спеціальні програми, які займаються пошуком сторінок в мережі, збирають гіпертекстові посилання з цих сторінок і автоматично індексують інформацію, яку вони знаходять для побудови бази даних. Кожний пошуковий механізм має власний набір правил, якими визначається збір документів.
Агенти є найінтелектуальнішими з пошукових засобів. Вони можуть робити більше, ніж просто шукати: вони можуть виконувати транзакції від імені користувача. Вже зараз вони можуть шукати сайти специфічної тематики і повертати списки сайтів, відсортованих за їх відвідуваністю. Агенти можуть обробляти вміст документів, знаходити та індексувати інші види ресурсів, не лише сторінки. Вони можуть бути запрограмовані для витягання інформації з вже існуючих баз даних. Незалежно від інформації, яку агенти індексують, вони передають її назад до бази даних пошукового механізму.
Павуки здійснюють загальний пошук інформації в Інтернет. Павуки повідомляють про зміст знайденого документа, індексують його і добувають підсумкову інформацію. Вони також переглядають заголовки, деякі посилання і відправляють проіндексовану інформацію до бази даних пошукового механізму.
Кроулери переглядають заголовки і повертають тільки перше посилання.
Роботи можуть бути запрограмовані таким чином, щоб переходити по різним посиланням різної глибини вкладеності, виконувати індексацію і перевіряти посилання в документі. Але вони можуть застрягати в циклах, адже, проходячи за посиланнями, їм потрібні значні ресурси мережі. Існують методи, що забороняють роботам пошук по сайтах, власники яких не бажають, щоби вони були проіндексовані.
Агенти збирають та індексують різні види інформації. Деякі, наприклад, індексують кожне окреме слово у документі, в той час як інші індексують тільки 100 найбільш важливих слів в кожному документі, індексують розмір документу і кількість слів в ньому, назву, заголовки і підзаголовки і так далі. Вигляд побудованого індексу визначає, який пошук може бути проведений пошуковим механізмом і як отримана інформація буде інтерпретована.
Агенти знаходять інформацію, після чого її розміщують в базі даних пошукового механізму. Адміністратори пошукових систем визначають, які сайти або типи сайтів агенти мають відвідати та проіндексувати. Проіндексована інформація відправляється до бази даних пошукового механізму.
Поняття релевантності в інформаційно-пошукових системах
Релевантність – основне поняття при індексації документа в пошукових системах. Релевантність – міра відповідності, тобто це відповідність змісту знайденої сторінки до запиту користувача. Але комп'ютер - не людина, і тому пошукові системи використовують спеціальні алгоритми для визначення релевантності.
Різні пошукові системи використовують різні алгоритми ранжування, однак основними принципами визначення релевантності є наступні:
Кількість слів запиту у текстовому вмісті документу (тобто в html-коді).
Теги, в яких ці слова розташовуються.
Місцеположення шуканих слів у документі.
Питома вага слів, відносно яких визначається релевантність, у загальній кількості слів документу.
Види логічних операторів інформаційно-пошукових систем
Існують такі логічні оператори:
Оператор | Опис
+ | Логічне І. Даний оператор є за замовченням і діє першим, тобто запит «українські реферати» є рівнозначним до запиту