інтернеті
Всесвітня павутина стала дуже популярною за останні декілька років, і є зараз основним
засобом розміщення інформації в інтернет.Коли розмірWWW збільшився від декількох
десятків сайтів, стало зрозуміло, що людина не в змозі самостійно переглянути таку кількість
сайтів, тим паче знайтинові.
Тому почалися розробки програм, що автоматично переглядають WWW. Така програма-
робот передивляється Інтернет сторінка засторінкою, йдучи за посиланнями на інші
сторінки. Роботів також називають павуками (spiders) або черв'яками (worms), але ці назви
дають хибне враження,що роботи пересуваються самі, або, що вони копіюють себе, як
відомі інтернет-черви. Насправді, робот – це одна програмна система, що отримує
інформацію з Інтернет сайтіввикористовуючи стандартні протоколи WWW.
Використанняроботів
Переглядаючи Інтернет, роботи можуть виконувати такі функції:
Статистичнийаналіз
Найперші роботи були створені для підрахунку кількості WWW-серверів. Сучасні роботи
можуть також підраховувати іншу статистичну інформацію,як то, середню кількість
документів на один сервер, пропорцію заданих типів файлів, середній розмір веб-сайту,
ступень міжсполучення між сайтами.
Підтримка
Одна з основних проблем підтримки Інтернет виникає, коли перестають працювати
посилання на інші сторінки. Це відбувається тоді, колисторінка, на яку посилаються,
перемістилася на іншу адресу або взагалі перестала існувати. Нажаль, натепер не існує
автоматичного механізму, що повідомляв би веб-мастерів про такі зміни.
Деякі сервери, наприклад CERN HTTPD, записують у файл журналу, запити до сторінки, що
не існує, з адресою сторінки, звідки йшло посилання, що дозволяє виправити
ситуаціюпізніше. Але це не практично, і, насправді, автори дізнаються, про неправильні
посилання на своїх сторінках, коли помітять самі, або коли користувачіповідомлять їх по
пошті.
Робот, що перевіряє посилання, такий як MOMspider, допомагає автору знайти такі
неправильні посилання, тому допомагає підтримуватисайт. Роботи можуть допомагати
підтримувати зміст так само, як і структуру, первіряючи правильність HTML коду,
регулярність оновлення інформації, але цевикористовується не дуже часто. Цей вид
функціональності часто є вбудованою частиною HTML редакторів, але, роботи можуть
повторювати ці перевірки прикожній модифікації сайту, і будь-які проблеми можуть бути
вирішені негайно.
Дзеркала
Дзеркальність – популярна техніка для підтримки FTP архівів. Дзеркало містить копію
усього дерева каталогів FTP сайту і регулярнооновлює ті документи, що додаються до
оригінального сайту. Це дозволяє зменшити трафік до кожного з вузлів, їх завантаженість,
працювати з архівом, якщооригінальний сервер не працює, мати швидкий та дешевий
локальний доступ та доступ без підключення до інтернет.
Дзеркальність може бути легко забезпечена роботом. Вже існують роботи, що отримують
дерево каталогів веб-вузлу та записують йоголокально, але вони не мають можливості
оновлювати тільки ту інформацію, що змінилася. Необхідність таких засобів зменшилася з
появою складнихкеш-серверів, які можуть робити вибіркове оновлення, та гарантувати, що
документ з кешу є оновленим.
Пошук ресурсів
Мабуть, найбільш захоплюючим використанням роботів є пошук нових ресурсів. Там, де
люди не можуть впоратись з величезною кількістюінформації, комп'ютер зробить цю
задачу швидко й якісно. Існує багато роботів, що оглядають великі частини WWW та дають
доступ до зібраної інформації задопомогою пошукової системи.
Це значить, що користувач може одночасно використовувати перегляд та пошук для
знаходження потрібної інформації. Навіть, якщо база данихне містить саме ту інформацію,
що вам потрібна, ймовірно вона містить сторінки на яких є посилання на потрібну.
Другою перевагою є те, що ці бази даних можуть оновлюватися періодично, і посилання на
сторінки, що не існують, можуть бутизнайдені та видалені. Це добра альтернатива ручній
підтримці документів, де перевірки бувають рідкі та не глибокі.
Комбінованевикористання
Один робот може виконувати декілька задач. Наприклад RBSE Spider робить статистичний
аналіз отриманих документів та видає базу данихзнайдених ресурсів.
Цінавикористання та застереження
В цьому розділі ми побачимо, як роботи можуть завдавати шкоди, та як цю шкоду можна
мінімізувати.
Ресурси мережіта завантаження серверів
Роботи потребують чималого трафіку. Перші роботи працювали протягом тривалого часу,
інколи місяцями. Щоб прискорити виконаннязавдання, деякі роботи працюють у
паралельному режимі, чимало завантажуючи трафік. Навіть віддалені сервери можуть
відчути заповільнення роботи, якщоробот отримує велику кількість документів за короткий
час. Це призводить до зменшення швидкості роботи інших користувачів, особливо на
повільних лініях.
Деякі корпоративні користувачі можуть вбачати пряму залежність між видатками на
Інтернет та завантаженістю мережі. Ці видаткиокуплять себе для потенційних користувачів,
але не окупить використання мережі роботами.
Крім ставлення високих вимог до мережі, роботи можуть ставити високі вимоги серверам.
У залежності від частоти отримування документівз серверу, одночасне завантаження
багатьох документів може призвести до відчутної завантаженості серверу, що призведе, у
свою чергу, до зниження рівнюсервісу для інших користувачів, цього ж серверу. У випадку,
коли сервер використовується також з іншими цілями, цеможе бути взагалі не допустимо.
Тому, робот не може часто отримувати документи з одного серверу. Навіть сучасний
браузер Netscape страждає на цю проблему, отримуючивбудовані у сторінку малюнки
одночасово. HTTP протокол не пристосований до паралельного отримування документів,
тому ведуться розробки нових протоколів.